'Inference' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Inference (1)

헬창 개발자

[논문 리뷰] Fast Inference from Transformers via Speculative Decoding

https://arxiv.org/abs/2211.17192Yaniv Leviathan, Matan Kalman, Yossi MatiasICML 2022. 11. 30. 논문 요약대규모 autoregressive 모델, 특히 Transformer로부터의 추론은 K개의 토큰을 디코딩하기 위해 K번의 직렬 모델 실행이 필요하므로 느립니다.추론 속도를 높이기 위한 기존 방법들은 종종 아키텍처 변경, 재훈련 또는 출력 분포 변경을 요구하여 동일한 결과를 유지하지 못합니다.이 연구는 병렬 컴퓨테이션을 활용하여 모델 아키텍처, 훈련 절차 또는 출력 분포를 수정하지 않고 autoregressive model inference를 가속화하는 것을 목표로 합니다. LLM 추론의 병목 현상Transformer의 Inferen..

공부방 2025. 12. 5. 17:44

이전 Prev 1 Next 다음

목록Inference (1)

헬창 개발자

티스토리툴바