Notice
Recent Posts
Recent Comments
Link
목록Inference (1)
헬창 개발자
https://arxiv.org/abs/2211.17192Yaniv Leviathan, Matan Kalman, Yossi MatiasICML 2022. 11. 30. 논문 요약대규모 autoregressive 모델, 특히 Transformer로부터의 추론은 K개의 토큰을 디코딩하기 위해 K번의 직렬 모델 실행이 필요하므로 느립니다.추론 속도를 높이기 위한 기존 방법들은 종종 아키텍처 변경, 재훈련 또는 출력 분포 변경을 요구하여 동일한 결과를 유지하지 못합니다.이 연구는 병렬 컴퓨테이션을 활용하여 모델 아키텍처, 훈련 절차 또는 출력 분포를 수정하지 않고 autoregressive model inference를 가속화하는 것을 목표로 합니다. LLM 추론의 병목 현상Transformer의 Inferen..
공부방
2025. 12. 5. 17:44