ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • DeepSeek 논문 리뷰
    AI 2025. 1. 29. 05:52

    논문 분석: DeepSeek 모델과 강화학습 기법

    논문에서 제시한 3가지 모델 유형

    1. DeepSeek-R1-Zero

    • 사전학습된 모델에 간단한 강화학습 룰만 적용하여 추론 능력 향상을 도모한 모델
    • 특징:
      • 간단한 규칙 기반의 강화학습 적용
      • 추론 능력 향상 목적
    • 한계:
      • 여러 언어가 혼합된 추론 결과로 인해 가독성이 저하됨

    2. DeepSeek-R1

    DeepSeek-R1-Zero의 한계를 극복하기 위해 다음의 학습 절차를 수행

    1. 긴 CoT(Chain-of-Thought) 학습 데이터로 소량 파인튜닝
    2. DeepSeek-R1-Zero에 적용한 강화학습 진행
    3. 좋은 추론 데이터(600k)비추론 데이터(200k) 파인튜닝
    4. 추론 및 비추론 데이터에 대해 강화학습 진행
      • 목표:
        • 유해 콘텐츠 식별(위험, 편향 등)
        • 사용자 응답의 유용성과 관련성 강조

    3. 증류모델(SFT-Distilled Model)

    DeepSeek-R1로 생성한 고품질 데이터(800k)를 사용하여, 작은 모델을 파인튜닝한 모델

    • 대상 모델:
      • Qwen2.5 Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B
      • Llama-3.1-8B, Llama-3.3-70B-Instruct
    • 장점:
      • 작은 모델에서는 강화학습보다 파인튜닝이 더 우수한 추론 능력을 발휘

    논문 주요 포인트

    1. DeepSeek-R1-Zero 한계

    • 추론 과정에서 여러 언어 혼합으로 인해 가독성이 떨어짐
    • 이러한 한계를 개선하기 위해 DeepSeek-R1 방법론이 고안됨

    2. 강화학습 룰

    • 정확도 보상
    • <think></think> 태그 내에서 추론을 진행하도록 하는 형식적 보상

    3. 아하 모멘트 (Aha Moment)

    • DeepSeek-R1-Zero 훈련 중 발견된 현상
    • 모델이 스스로 추론 중 결과 도출이나 추론 과정 복기를 통해 새로운 아이디어를 떠올리는 포인트를 보여줌

    4. 증류 모델의 우수성

    • 작은 모델에서는 파인튜닝이 강화학습보다 더 우수한 추론 능력을 발휘
    • 특히 DeepSeek-R1로 생성된 고품질 데이터를 활용한 파인튜닝이 효과적

    결론

    이 논문이 제시하는 주요 인사이트는 다음과 같습니다:

    • 기존 사전학습 모델에 단순히 정해진 답변을 암기시키던 파인튜닝 기법을 넘어, 모델의 종합적 능력을 끌어내는 진화된 학습 방법을 제시
    • 파인튜닝을 위한 학습 데이터 생성 과정에서 인력 개입을 최소화하여 데이터 수집 효율성을 극대화
    • 증류 모델을 통해 작은 모델에서도 고성능 추론 가능성을 극대화

    출처

    https://arxiv.org/abs/2501.12948

    'AI' 카테고리의 다른 글

    다양한 파인튜닝 기법  (2) 2025.01.19
    인스트럭션 튜닝 & RAG  (0) 2025.01.18
    사전학습(Pre-training)과 파인튜닝(Fine-tuning)  (0) 2025.01.18
    토큰과 모델 사이즈  (1) 2025.01.18
    AI 모델 발전의 시작  (0) 2025.01.18
Designed by Tistory.