엔비디아, 음성·소리·음악 통합 이해 가능한 ‘오디오 플라밍고 넥스트’ 출시 | IT피드

엔비디아가 음성 인식부터 소리 분류, 음악 분석까지 다양한 오디오 작업을 하나로 통합한 단일 AI 모델을 선보였다.엔비디아와 매릴랜드대학 연구진은 14일(현지시간) 음성과 소리, 음악을 동시에 이해하고 추론할 수 있는 차세대 오디오 AI 모델 ‘AF-넥스트(Audio Flamingo Next)’를 온라인 아카이브를 통해 공개했다. AF-넥스트는 대규모 오디오 데이터를 학습한 오픈소스 대형 오디오-언어 모델(LALM)로, 질의응답, 자막 생성, 음성 인식, 추론 등을 하나의 모델에서 처리할 수 있는 것이 특징이다. 이는 이미지-언어