이스트소프트는 자사 AI 자동 더빙 기술 연구가 세계적인 인공지능·자연어 처리 학회 'EMNLP 2025'에 채택됐다고 17일 밝혔다.
EMNLP는 글로벌 AI 연구자들이 참여하는 세계 최고 권위 자연어 처리(NLP) 학회로 꼽힌다. 이스트소프트 연구진의 논문명은 '대규모 언어모델(LLM)을 활용한 종단 간 다국어 자동 더빙 프레임워크'이다.
연구의 핵심은 영상 원본에서의 화자 발화 시간과 일치하는 더빙 영상을 생성하는 프레임워크를 제안한 것이다. 기존의 자동 더빙 시스템이 원본의 음성과 번역된 음성의 길이가 맞지 않아 부자연스러운 영상을 생성했던 단점을 해소했다.
프레임워크의 구조는 스피치 투 텍스트(STT), 뉴럴 머신 트랜스레이션(NMT), 텍스트 투 스피치(TTS) 세 가지 모듈로 구성됐다. 연구진은 NMT 모듈에 '발화 길이 조정 번역'과 '발화 정지 정보 통합' 개념을 도입했다.
LLM 기반 발화 길이 조정 번역 기술은 원본 음성의 지속 시간을 기반으로 번역에 필요한 최적의 음소 수를 동적으로 예측해 번역의 길이를 제어할 수 있는 환경을 제공한다. 발화 정지 정보 통합 기술은 음성에 포함된 묵음까지 반영해 원본과 동기화 성능을 향상한다. 이를 통해 원본의 발화 속도와 리듬을 자연스럽게 유지한 더빙 영상을 생성한다.
이스트소프트는 실험 결과 자사 연구진이 제안한 방식으로 상용화된 기존 AI 더빙 시스템 대비 영상·음성 싱크 정확도는 24%, 다국어 청취 만족도는 12% 향상됐다고 설명했다.
논문 리뷰에서는 자동 더빙의 핵심 난제인 시간 동기화 문제를 효과적으로 해결하고, 다국어 더빙의 확장성과 산업 내 적용 가능성을 높였다는 평가를 받았다.
이스트소프트는 페르소 AI 더빙 서비스를 더욱 고도화할 계획이다.
정상원 이스트소프트 대표는 "페르소 AI는 실제 서비스에서 확인된 문제를 해결해 가며 AI 더빙 기술을 고도화해 왔다"며 "앞으로도 세계 최고 권위의 AI 학회에서 인정받은 기술 경쟁력으로 글로벌 AI 더빙 시장을 이끌어 갈 수 있도록 하겠다"고 전했다.
임경호 기자 lim@techm.kr
관련기사
- [FSL 결승] 공수 완벽했던 DRX '찬', T1 '오펠' 셧아웃...'3회 우승' 위업 달성
- [e스포츠人] "FC온라인 황제, 저로 하겠습니다"...3회 우승한 DRX '찬', 내년도 우승 '겨냥'
- 삼성-LG, 새 먹거리 확보 총력…'전장·우주' 관심
- 삼성전자·SKT·LG유플러스, 'AI 통신망' 기술 확보 '잰걸음'
- [지스타 25] 20만 게이머와 함께 한 게임 축제...K게임 미래 제시하며 성공적 마무리
- [지스타 25] 정부의 '무례'와 국회의 '무지'에도 게임 '찐팬'들의 표정은 웃고있었다
- 삼성·SK·현대차·LG, 국내 800조원 투자…이재용 삼성전자 회장 "국내 투자 위축 없다"