[이프 카카오] 한 문장만 녹음하면, 1초 만에 음성 합성 '뚝딱'

카카오엔터프라이즈가 한 개의 문장만으로 그 사람의 목소리를 합성할 수 있는 '커스텀 음성 합성' 기술을 선보였다.

8일 카카오 연례 개발자 컨퍼런스 '이프 카카오(if kakao)'에서 정성희 카카오엔터프라이즈 연구원은 '한 문장 녹음으로 일초만에 커스텀 음성 합성기 만들기'라는 주제로 발표했다. 카카오엔터프라이즈 인공지능 랩 앤 서비스(AI Lab & Service)의 기술력이 녹아든 사례다.

커스텀 음성 합성은 누구나 원하는 목소리로 합성기를 쉽게 만들 수 있게 해주는 기술이다. 정 연구원은 "이 기술은 합성기가 새로운 목소리를 지원하기 위해 소량의 데이터만 사용하도록 하고, 녹음해야 하는 문장 수가 적기 때문에 일반인도 합성기를 쉽게 만들 수 있다"고 설명했다.

커스텀 음성합성기는 크게 '적응 기반 커스텀 합성기'와 '제로샷 커스텀 합성기'로 나뉜다. 적응기반 합성기는 3가지 모듈로 구성된 다화자 합성기를 2차적으로 훈련하는 단계가 따른다. 이 과정에서 업데이트된 파라미더(매개변수) 저장 용량이 필요하다. 필요한 데이터가 많은 것이다.

반면 '제로샷 커스텀 합성기'는 오직 한 문장의 데이터만 요구된다. 주어진 레퍼런스 음원에서 바로바로 목소리를 복사하고, 새로운 화자 추가를 위해 추가 훈련할 필요가 없다는 장점을 지닌다. 20문장이 데이터가 요구되는 적응 기반 모델과 달리 오직 1문장이면 음성 합성이 가능해진다.

정 연구원은 "목소리 추가 비용을 줄이려면 다 만들어진 합성기에 목소리만 복사-붙여넣기할 수 있는 합성기가 필요하다"며 "카카오엔터프라이즈는 한문장 녹음으로 새로운 화자를 추가할 수 있다"고 강조했다. 성우의 목소리를 추가할 때도 기간이 짧게 들고 비용이 줄어들게 된다.

이영아 기자 twenty_ah@techm.kr

관련기사

키워드

테크M의 최신소식 및 정보를 E-mail 서비스로 받아 볼 수 있습니다.