스타트업뉴스AI타임스
샤오미, 3초짜리 녹음 파일로 600개 언어 복제하는 '옴니보이스' 오픈 출시
2026년 4월 21일0 조회
프리세일즈 활용 메모
이 IT피드는 공공조달 제안서 작성 시 시장동향, 기술 트렌드, 정책 환경 근거로 참고할 수 있도록 수집한 자료입니다.
다국어 음성 합성 기술의 한계를 넘기 위한 새로운 접근으로, 600개 이상의 언어를 지원하는 초대형 텍스트 음성 변환(TTS) 모델이 공개됐다.샤오미는 최근 온라인 아카이브를 통해 오픈소스 TTS 모델 ‘옴니보이스(OmniVoice)’를 공개했다.기존 TTS 모델들이 영어 등 일부 고자원 언어에 집중됐던 한계를 넘어, 언어 다양성과 접근성을 크게 확장했다고 전했다.핵심은 확산 언어 모델(Diffusion Language Model) 개념을 음성 합성에 적용한 비자기회귀(non-autoregressive) 아키텍처다. 기존 TTS 시