AI

DeepSeek 논문 리뷰

라피텔 2025. 1. 29. 05:52

논문 분석: DeepSeek 모델과 강화학습 기법

논문에서 제시한 3가지 모델 유형

1. DeepSeek-R1-Zero

  • 사전학습된 모델에 간단한 강화학습 룰만 적용하여 추론 능력 향상을 도모한 모델
  • 특징:
    • 간단한 규칙 기반의 강화학습 적용
    • 추론 능력 향상 목적
  • 한계:
    • 여러 언어가 혼합된 추론 결과로 인해 가독성이 저하됨

2. DeepSeek-R1

DeepSeek-R1-Zero의 한계를 극복하기 위해 다음의 학습 절차를 수행

  1. 긴 CoT(Chain-of-Thought) 학습 데이터로 소량 파인튜닝
  2. DeepSeek-R1-Zero에 적용한 강화학습 진행
  3. 좋은 추론 데이터(600k)비추론 데이터(200k) 파인튜닝
  4. 추론 및 비추론 데이터에 대해 강화학습 진행
    • 목표:
      • 유해 콘텐츠 식별(위험, 편향 등)
      • 사용자 응답의 유용성과 관련성 강조

3. 증류모델(SFT-Distilled Model)

DeepSeek-R1로 생성한 고품질 데이터(800k)를 사용하여, 작은 모델을 파인튜닝한 모델

  • 대상 모델:
    • Qwen2.5 Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B
    • Llama-3.1-8B, Llama-3.3-70B-Instruct
  • 장점:
    • 작은 모델에서는 강화학습보다 파인튜닝이 더 우수한 추론 능력을 발휘

논문 주요 포인트

1. DeepSeek-R1-Zero 한계

  • 추론 과정에서 여러 언어 혼합으로 인해 가독성이 떨어짐
  • 이러한 한계를 개선하기 위해 DeepSeek-R1 방법론이 고안됨

2. 강화학습 룰

  • 정확도 보상
  • <think></think> 태그 내에서 추론을 진행하도록 하는 형식적 보상

3. 아하 모멘트 (Aha Moment)

  • DeepSeek-R1-Zero 훈련 중 발견된 현상
  • 모델이 스스로 추론 중 결과 도출이나 추론 과정 복기를 통해 새로운 아이디어를 떠올리는 포인트를 보여줌

4. 증류 모델의 우수성

  • 작은 모델에서는 파인튜닝이 강화학습보다 더 우수한 추론 능력을 발휘
  • 특히 DeepSeek-R1로 생성된 고품질 데이터를 활용한 파인튜닝이 효과적

결론

이 논문이 제시하는 주요 인사이트는 다음과 같습니다:

  • 기존 사전학습 모델에 단순히 정해진 답변을 암기시키던 파인튜닝 기법을 넘어, 모델의 종합적 능력을 끌어내는 진화된 학습 방법을 제시
  • 파인튜닝을 위한 학습 데이터 생성 과정에서 인력 개입을 최소화하여 데이터 수집 효율성을 극대화
  • 증류 모델을 통해 작은 모델에서도 고성능 추론 가능성을 극대화

출처

https://arxiv.org/abs/2501.12948