deepseek
-
DeepSeek 논문 리뷰AI 2025. 1. 29. 05:52
논문 분석: DeepSeek 모델과 강화학습 기법논문에서 제시한 3가지 모델 유형1. DeepSeek-R1-Zero사전학습된 모델에 간단한 강화학습 룰만 적용하여 추론 능력 향상을 도모한 모델특징:간단한 규칙 기반의 강화학습 적용추론 능력 향상 목적한계:여러 언어가 혼합된 추론 결과로 인해 가독성이 저하됨2. DeepSeek-R1DeepSeek-R1-Zero의 한계를 극복하기 위해 다음의 학습 절차를 수행긴 CoT(Chain-of-Thought) 학습 데이터로 소량 파인튜닝DeepSeek-R1-Zero에 적용한 강화학습 진행좋은 추론 데이터(600k) 및 비추론 데이터(200k) 파인튜닝추론 및 비추론 데이터에 대해 강화학습 진행목표:유해 콘텐츠 식별(위험, 편향 등)사용자 응답의 유용성과 관련성 강조3..