KT AI보이스 스튜디오/사진=홈페이지 캡처
KT AI보이스 스튜디오/사진=홈페이지 캡처

언젠가부터 집안 어른들께서는 아버지와 내 목소리를 구분하지 못했다. 전화를 받으면 '어 가은아'가 아니라 '예 도련님'이라고 부르거나 '제수씨 잘 계시지?'라고 말을 걸기 시작했다. 

'아무리 들어봐도 똑같지는 않은데, 어떻게 다른 사람이랑 목소리가 똑같을 수가 있어'라는 생각을 품고 살아온 13년. 그 세월이 KT를 만나 '와장창' 깨져버렸다. 

다른 점이라면 사람이 아니라 인공지능(AI)라는 것 뿐. 'KT AI보이스 스튜디오'에서 나와 똑닮은 목소리를 가진 '도플갱어급' AI를 직접 만들어봤다.


목소리는 기본, 습관까지 담아낸다

방에 들어서자 어린 시절부터 좋아하던 가수 '윤도현' 목소리가 흘러나온다. '테크M 김가은 기자님. KT 송파사옥 방문을 환영합니다'라며 이름까지 콕 집어주는 그의 목소리에 순간 가슴이 뛰었다. 이는 실제 윤도현이 아닌 KT AI 보이스 스튜디오를 통해 녹음된 음성을 AI가 학습해 내놓은 결과물이다. 

KT AI 보이스 스튜디오는 국내 AI 스타트업 휴멜로와 함께 만든 AI 음성합성 콘텐츠 제작 서비스다. 약 110여개 AI 목소리를 제공하는 것은 물론 즐거움, 침착함, 중립, 슬픔, 화남 등 5가지 감정으로 합성할 수 있는 점이 특징이다. 뿐만 아니라 한국어, 영어, 중국어, 일본어, 스페인어 등 5개 언어도 지원한다.

KT 마이 AI보이스 스튜디오로 제작한 음성/사진=홈페이지 캡처
KT 마이 AI보이스 스튜디오로 제작한 음성/사진=홈페이지 캡처

이날 체험한 서비스는 'KT 마이 AI보이스'다. 이 서비스는 기술적 지식이 없는 일반인도 쉽게 자신만의 AI음성을 합성, 유튜브 영상이나 오디오북 등 다양한 콘텐츠에 활용할 수 있는 점이 특징이다.

방법 또한 간단하다. 예시 문장 30개를 녹음한 후 약 하루를 기다리면 본인 목소리와 빼다박은 듯한 AI음성이 제작된다. 녹음 환경이나 장비 또한 크게 특별하지 않다. 녹음실이 아니더라도 조용한 집에서, 평소 쓰는 이어폰 마이크를 활용해 녹음하면 된다. 

제작된 AI음성은 스튜디오 내에서 활용 가능하다. 원하는 문장을 입력하면 내 목소리로 합성된 AI음성을 통해 읽어주는 방식이다. 놀랐던 점은 단순히 목소리만 흉내내는 것이 아니라 호흡, 말투 습관 등 개인적 특징들을 담아내고 있다는 점이었다. 말을 다소 느리게 하는 기자는 합성된 음성을 듣고 좀 더 빨리 말해야겠다는 생각을 했다.

제작된 AI 음성은 보이스 스튜디오에 가입돼있는 기간 동안 계속 보관해 활용할 수 있다. 월 요금제는 ▲프리(무료) ▲라이트(1만2000원) ▲슈퍼(4만8000원) ▲슈퍼 플러스(12만원) 등 총 4가지로 구성돼있다. 요금제별 음성 콘텐츠 제작 가능 글자 수는 최소 월 4000자부터 최대 36만자다.


감정 입혀 콘텐츠에 적합하게

이 뿐만이라면 KT 마이 AI 보이스는 그저 조금 신기한 서비스에 지나지 않았을 것이다. 이 서비스의 가장 큰 차별점은 사람처럼 감정을 표현할 수 있다는 점이다. 이는 콘텐츠 제작시에도 엄청난 강점이 된다.

KT AI 보이스 스튜디오 내 '오디오 콘텐츠' 탭을 누르면 제작이 가능한 화면이 나온다. 콘텐츠 이름을 입력하고 나면 사용할 AI 보이스부터 합성할 텍스트, 감정, 언어, 발화 속도, 높낮이 등을 설정할 수 있는 화면이 나온다. 기자는 직접 제작한 마이 AI보이스를 선택하고 '안녕하세요. 테크M 김가은 기자입니다.'라는 문장을 입력했다.

KT AI보이스 스튜디오 내 오디오 콘텐츠 제작 탭/사진=홈페이지 캡처
KT AI보이스 스튜디오 내 오디오 콘텐츠 제작 탭/사진=홈페이지 캡처

이것만으로도 나쁘지 않은 결과물을 내놨지만, 어딘가 자연스러운 감정이 느껴지지 않았다. 이 때 도움을 주는 기능이 바로 '감정 더빙'이다. 입력된 테스트 외에 사용자가 부여하고 싶은 감정대로 문장을 읽으면 AI가 이를 탐지하고, 적용하는 방식이다. 감정 더빙이 이뤄지고 난 후 재생 버튼을 누르자 기자가 듣기에도 아주 똑같은, 심지어 부모님께서도 구분하지 못할 수도 있다는 생각이 들만큼 유사한 음성이 흘러나왔다. 

KT AI보이스 스튜디오 내에서 감정 더빙을 진행하는 모습/사진=홈페이지 캡처
KT AI보이스 스튜디오 내에서 감정 더빙을 진행하는 모습/사진=홈페이지 캡처

영어, 일본어, 중국어, 스페인어 등으로 합성한 음성 또한 아주 자연스럽다는 점도 특징이다. 문장을 해당 국가 언어로 입력하면 발음이나 성조 등 모든 측면에서 원어민스럽다고 느껴질 만큼 자연스러운 음성이 나온다. 향후 KT는 지원언어 폭을 더 넓혀갈 예정이다. 

이같은 기술은 오디오북, 1인 크리에이터 등 콘텐츠 시장에서 주로 활용되고 있다. 실제로 콘텐츠 플랫폼 '밀리의서재'는 오디오북 콘텐츠를 KT AI 보이스 기술을 통해 제작 중이며, 뷰티 유튜버 '레미니씬'은 중국어 지원 기능을 통해 현지 맞춤형 콘텐츠를 선보이고 있다.

향후 KT는 1인 크리에이터를 중심으로 한 B2C(개인간) 시장은 물론, B2B(기업간) 공략에 나선다는 계획이다. K-콘텐츠 위상이 높아짐에 따라 수요가 증가 중인 영화 및 드라마 더빙 시장에 KT AI 스튜디오 기술을 확산시키겠다는 목표다.

KT 관계자는 "자막을 주로 사용하는 국가도 있지만, 여러 국가에서는 더빙을 선호하는 경향이 있다"며 "배우와 비슷한 성우를 섭외하고 녹음하게 되면 비용이 많이 들지만, AI 기술은 그렇지 않기 때문에 조만간 길이 열리지 않을까 싶다"고 말했다.

김가은 기자 7rsilver@techm.kr

관련기사