목록Paper (2)
헬창 개발자
https://arxiv.org/abs/2211.17192Yaniv Leviathan, Matan Kalman, Yossi MatiasICML 2022. 11. 30. 논문 요약대규모 autoregressive 모델, 특히 Transformer로부터의 추론은 K개의 토큰을 디코딩하기 위해 K번의 직렬 모델 실행이 필요하므로 느립니다.추론 속도를 높이기 위한 기존 방법들은 종종 아키텍처 변경, 재훈련 또는 출력 분포 변경을 요구하여 동일한 결과를 유지하지 못합니다.이 연구는 병렬 컴퓨테이션을 활용하여 모델 아키텍처, 훈련 절차 또는 출력 분포를 수정하지 않고 autoregressive model inference를 가속화하는 것을 목표로 합니다. LLM 추론의 병목 현상Transformer의 Inferen..
🤔들어가기전에 알고가기1. DeepSeek-V3 개요DeepSeek-V3는 671B(6710억) 개의 총 파라미터를 가진 Mixture-of-Experts (MoE) 기반 대규모 언어 모델이다. 하지만 한 번의 토큰 예측 시 활성화되는 파라미터는 37B로 효율성을 극대화하였다.주요 특징:Multi-Head Latent Attention (MLA): 메모리 절약과 빠른 추론을 위한 새로운 주의(attention) 기법DeepSeekMoE with Auxiliary-Loss-Free Load Balancing: 부가적인 손실(auxiliary loss) 없이 부하 균형(load balancing)을 유지하는 새로운 MoE 아키텍처Multi-Token Prediction (MTP): 여러 개의 토큰을 한 번..