엔비디아도 'KV 캐시' 해결... '트라이어텐션'으로 메모리 10배 절감 | IT피드

AI 성능 경쟁의 중심축이 더 큰 모델에서 더 효율적인 모델로 이동하는 가운데, 엔비디아가 메모리 병목을 획기적으로 줄이는 새로운 기술을 공개했다. 특히, 얼마 전 구글이 공개해 화제가 됐던 '터보퀀트(TurboQuant)'의 메모리 6분의 1 압축보다 더 큰, 메모리 사용량 10.7배 감소라는 수치를 제시했다. 엔비디아와 MIT 연구진은 6일(현지시간) 대형언어모델(LLM)의 핵심 한계로 지적돼 온 ‘KV 캐시(KV cache)’ 문제를 근본적으로 개선하는 접근법 ‘트라이어텐션(TriAttention)’을 온라인 아카이브를 통해