Notice
Recent Posts
Recent Comments
Link
목록2025/02/05 (1)
헬창 개발자
논문 리뷰: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
🤔들어가기전에 알고가기1. DeepSeek-V3 개요DeepSeek-V3는 671B(6710억) 개의 총 파라미터를 가진 Mixture-of-Experts (MoE) 기반 대규모 언어 모델이다. 하지만 한 번의 토큰 예측 시 활성화되는 파라미터는 37B로 효율성을 극대화하였다.주요 특징:Multi-Head Latent Attention (MLA): 메모리 절약과 빠른 추론을 위한 새로운 주의(attention) 기법DeepSeekMoE with Auxiliary-Loss-Free Load Balancing: 부가적인 손실(auxiliary loss) 없이 부하 균형(load balancing)을 유지하는 새로운 MoE 아키텍처Multi-Token Prediction (MTP): 여러 개의 토큰을 한 번..
공부방
2025. 2. 5. 16:23