AI
DeepSeek 논문 리뷰
라피텔
2025. 1. 29. 05:52
논문 분석: DeepSeek 모델과 강화학습 기법
논문에서 제시한 3가지 모델 유형
1. DeepSeek-R1-Zero
- 사전학습된 모델에 간단한 강화학습 룰만 적용하여 추론 능력 향상을 도모한 모델
- 특징:
- 간단한 규칙 기반의 강화학습 적용
- 추론 능력 향상 목적
- 한계:
- 여러 언어가 혼합된 추론 결과로 인해 가독성이 저하됨
2. DeepSeek-R1
DeepSeek-R1-Zero의 한계를 극복하기 위해 다음의 학습 절차를 수행
- 긴 CoT(Chain-of-Thought) 학습 데이터로 소량 파인튜닝
- DeepSeek-R1-Zero에 적용한 강화학습 진행
- 좋은 추론 데이터(600k) 및 비추론 데이터(200k) 파인튜닝
- 추론 및 비추론 데이터에 대해 강화학습 진행
- 목표:
- 유해 콘텐츠 식별(위험, 편향 등)
- 사용자 응답의 유용성과 관련성 강조
- 목표:
3. 증류모델(SFT-Distilled Model)
DeepSeek-R1로 생성한 고품질 데이터(800k)를 사용하여, 작은 모델을 파인튜닝한 모델
- 대상 모델:
- Qwen2.5 Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B
- Llama-3.1-8B, Llama-3.3-70B-Instruct
- 장점:
- 작은 모델에서는 강화학습보다 파인튜닝이 더 우수한 추론 능력을 발휘
논문 주요 포인트
1. DeepSeek-R1-Zero 한계
- 추론 과정에서 여러 언어 혼합으로 인해 가독성이 떨어짐
- 이러한 한계를 개선하기 위해 DeepSeek-R1 방법론이 고안됨
2. 강화학습 룰
- 정확도 보상
<think></think>
태그 내에서 추론을 진행하도록 하는 형식적 보상
3. 아하 모멘트 (Aha Moment)
- DeepSeek-R1-Zero 훈련 중 발견된 현상
- 모델이 스스로 추론 중 결과 도출이나 추론 과정 복기를 통해 새로운 아이디어를 떠올리는 포인트를 보여줌
4. 증류 모델의 우수성
- 작은 모델에서는 파인튜닝이 강화학습보다 더 우수한 추론 능력을 발휘
- 특히 DeepSeek-R1로 생성된 고품질 데이터를 활용한 파인튜닝이 효과적
결론
이 논문이 제시하는 주요 인사이트는 다음과 같습니다:
- 기존 사전학습 모델에 단순히 정해진 답변을 암기시키던 파인튜닝 기법을 넘어, 모델의 종합적 능력을 끌어내는 진화된 학습 방법을 제시
- 파인튜닝을 위한 학습 데이터 생성 과정에서 인력 개입을 최소화하여 데이터 수집 효율성을 극대화
- 증류 모델을 통해 작은 모델에서도 고성능 추론 가능성을 극대화