ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 인스트럭션 튜닝 & RAG
    AI 2025. 1. 18. 15:34

    인스트럭션 튜닝(Instruction Tuning)과 RAG

    최근 인공지능(AI) 모델이 점차 고도화됨에 따라, 사용자의 의도에 맞춰 정확하고 자연스러운 답변을 제공하는 것이 중요해지고 있습니다.
    이번 글에서는 인스트럭션 튜닝(Instruction Tuning)이 왜 필요한지, 그리고 RAG(Retrieval + Augmentation + Generation) 기법이 어떤 방식으로 AI 모델의 정확도를 높이는지 살펴봅니다.


    1. 인스트럭션 튜닝(Instruction Tuning)

    인스트럭션 튜닝이란 파인튜닝(Fine-tuning)의 한 형태로, 모델에게 “어떤 일을 어떻게 해달라”구체적인 지시사항(Instructions)을 학습시키는 방식입니다.

    1-1. 기존 파인튜닝의 한계

    예전에는 { "prompt": "질문", "completion": "답변" } 형식의 데이터로 모델을 학습하는 경우가 많았습니다.
    이런 방식은 단순한 Q&A 형태에만 적합하기 때문에, 질문이 조금만 변형되어도 모델이 엉뚱한 답변을 할 수 있다는 한계가 있었습니다.

    예를 들어,

    • 기존: “(Q) 1+1은 얼마인가요?” → “(A) 2”
    • 응용: “아래 문장의 글자 수는 몇 개야?”
      • 모델은 Q&A에만 특화되어 있어, 지시사항을 제대로 이해하지 못한 채 틀린 답을 할 수 있음

    1-2. Instruction - Input - Output 형식

    이 문제를 해결하기 위해, Instruction - Input - Output 형식의 데이터 구조가 제안되었습니다.

    {
      "instruction": "아래 문장의 글자수는 몇 개야?",
      "input": "1+1은 몇인가요?",
      "output": "아래 문장의 글자수는 8글자 입니다"
    }

    2. RAG: Retrieval + Augmentation + Generation

    RAG는 질문에 답변을 생성하기 전에 외부 자료(문서 검색)를 참고하여 답변 정확도를 높이는 기법입니다.

    2-1. 작동 방식

    예: “2024년 대한민국 대통령은 누구야?”라는 질문이 주어졌을 때:

    1. Retrieval(검색): 키워드 또는 벡터 검색을 통해 “윤석열이 20대 대통령”이라는 정보를 찾아냅니다.
    2. Augmentation(정보 보강): 모델에 질문과 검색 결과를 함께 전달합니다.
    3. Generation(답변 생성): 모델이 최종 답변으로 **"2024년 대한민국 대통령은 윤석열입니다."**라고 생성합니다.

    2-2. 왜 RAG가 중요한가?

    모델이 최신 정보나 특정 사실 데이터를 학습하지 않은 경우 **잘못된 답변(할루시네이션)**을 할 수 있습니다.
    RAG는 외부 정보를 통해 이러한 문제를 해결합니다.

    2-3. 비유

    사람이 모르는 문제를 구글링하거나 사전을 찾아보는 과정과 유사합니다.
    이 방식은 특히 최신 정보와 관련된 문제에서 정확도 향상에 효과적입니다.

    'AI' 카테고리의 다른 글

    DeepSeek 논문 리뷰  (0) 2025.01.29
    다양한 파인튜닝 기법  (2) 2025.01.19
    사전학습(Pre-training)과 파인튜닝(Fine-tuning)  (0) 2025.01.18
    토큰과 모델 사이즈  (1) 2025.01.18
    AI 모델 발전의 시작  (0) 2025.01.18
Designed by Tistory.