인기포스트

ABOUT ME

Today

Yesterday

Total

DeepSeek 논문 리뷰

AI 2025. 1. 29. 05:52

논문 분석: DeepSeek 모델과 강화학습 기법

논문에서 제시한 3가지 모델 유형

1. DeepSeek-R1-Zero

사전학습된 모델에 간단한 강화학습 룰만 적용하여 추론 능력 향상을 도모한 모델
특징:
- 간단한 규칙 기반의 강화학습 적용
- 추론 능력 향상 목적
한계:
- 여러 언어가 혼합된 추론 결과로 인해 가독성이 저하됨

2. DeepSeek-R1

DeepSeek-R1-Zero의 한계를 극복하기 위해 다음의 학습 절차를 수행

긴 CoT(Chain-of-Thought) 학습 데이터로 소량 파인튜닝
DeepSeek-R1-Zero에 적용한 강화학습 진행
좋은 추론 데이터(600k) 및 비추론 데이터(200k) 파인튜닝
추론 및 비추론 데이터에 대해 강화학습 진행
- 목표:
  - 유해 콘텐츠 식별(위험, 편향 등)
  - 사용자 응답의 유용성과 관련성 강조

3. 증류모델(SFT-Distilled Model)

DeepSeek-R1로 생성한 고품질 데이터(800k)를 사용하여, 작은 모델을 파인튜닝한 모델

대상 모델:
- Qwen2.5 Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B
- Llama-3.1-8B, Llama-3.3-70B-Instruct
장점:
- 작은 모델에서는 강화학습보다 파인튜닝이 더 우수한 추론 능력을 발휘

논문 주요 포인트

1. DeepSeek-R1-Zero 한계

추론 과정에서 여러 언어 혼합으로 인해 가독성이 떨어짐
이러한 한계를 개선하기 위해 DeepSeek-R1 방법론이 고안됨

2. 강화학습 룰

정확도 보상
<think></think> 태그 내에서 추론을 진행하도록 하는 형식적 보상

3. 아하 모멘트 (Aha Moment)

DeepSeek-R1-Zero 훈련 중 발견된 현상
모델이 스스로 추론 중 결과 도출이나 추론 과정 복기를 통해 새로운 아이디어를 떠올리는 포인트를 보여줌

4. 증류 모델의 우수성

작은 모델에서는 파인튜닝이 강화학습보다 더 우수한 추론 능력을 발휘
특히 DeepSeek-R1로 생성된 고품질 데이터를 활용한 파인튜닝이 효과적

결론

이 논문이 제시하는 주요 인사이트는 다음과 같습니다:

기존 사전학습 모델에 단순히 정해진 답변을 암기시키던 파인튜닝 기법을 넘어, 모델의 종합적 능력을 끌어내는 진화된 학습 방법을 제시
파인튜닝을 위한 학습 데이터 생성 과정에서 인력 개입을 최소화하여 데이터 수집 효율성을 극대화
증류 모델을 통해 작은 모델에서도 고성능 추론 가능성을 극대화

출처

https://arxiv.org/abs/2501.12948

'AI' 카테고리의 다른 글

다양한 파인튜닝 기법 (2)	2025.01.19
인스트럭션 튜닝 & RAG (0)	2025.01.18
사전학습(Pre-training)과 파인튜닝(Fine-tuning) (0)	2025.01.18
토큰과 모델 사이즈 (1)	2025.01.18
AI 모델 발전의 시작 (0)	2025.01.18

관련글 관련글 더보기

인기포스트

ABOUT ME

LINK

ADMIN

티스토리툴바