이현수 네이버클라우드 파파고 개발자가 발표하는 모습/사진=김가은 기자
이현수 네이버클라우드 파파고 개발자가 발표하는 모습/사진=김가은 기자

일본 땅을 처음 밟아봤던 지난해, 흩날리는 눈 속에서 당혹감을 감출 수 없었다. 짧은 영어만으로도 문제가 없었던 그간 여행지들과는 달랐다. 식당 간판부터 메뉴판까지 모두 일본어로만 적혀있었기 때문이다. 뭔가 물어보려고 해도 자연스럽게 일본어로 말을 걸어오는 탓에 '어...캔 유 스피크 잉글리시?'만 반복하다 가게 문을 열고 자리를 떴다.

이대로는 편의점만 전전하다 귀국하게 될 거라는 생각이 머릿속을 지배할 무렵, 한 줄기 빛처럼 머리를 스친 것이 바로 네이버 번역기 애플리케이션(앱) '파파고'였다. 앱을 사용하기 시작한 순간부터 간판도, 메뉴판도 문제될 게 없었다. 사진은 물론, 실시간으로 번역된 내용을 바탕으로 손가락만 펼치면 모든게 해결됐기 때문이다.

27일 서울 강남구 코엑스에서 열린 네이버 개발자 콘퍼런스 '데뷰 2023'에서 네이버클라우드는 그간 파파고에 적용한 다양한 기술력과 개발 로드맵을 소개했다.


배경과 글자, 두 마리 토끼 다 잡았다

파파고는 이미지는 물론, 사용자 카메라를 통해 증강현실(AR)로 실시간 번역을 제공하는 점이 특징이다. 쉽게 말해 원본에 적힌 글자들을 지우고 번역된 글자를 집어넣어 마치 원래 그랬던 것처럼 보여주는 것이다. 다만 이게 전부라면 파파고는 흔한 번역 서비스에 지나지 않았을 것이다.

파파고가 갖는 가장 큰 장점은 '가독성'이다. 자연스러운 이미지와 텍스트를 생성해 사용자가 더 잘 읽을 수 있도록 편의성을 높였다. 바로 이 점이 타 서비스와 가장 큰 차별점이다. 이를 구현하기 위해 네이버클라우드는 파파고에 ▲광학문자인식(OCR) ▲자체 딥러닝 모델 'HTS' ▲인페인팅 ▲렌더링 등 다양한 기술을 접목했다.

먼저 OCR은 이미지 내 글자를 인식하는 역할을 맡는다. 이후 HTS 기술을 통해 인식된 글자를 번역에 용이한 문장이나 문단으로 묶는다. 자연스러움을 담당하는 과정은 '인페인팅'과 '렌더링'이 담당한다. 

글자 색상과 배경색을 추출해 자연스러운 이미지를 구현한 파파고 번역본/사진=네이버클라우드
글자 색상과 배경색을 추출해 자연스러운 이미지를 구현한 파파고 번역본/사진=네이버클라우드

먼저 텍스트 인페인팅은 글자를 쓸 배경 이미지를 만들어내느 과정이다. 원본에 있는 글자를 지워 번역된 문장이나 단어가 들어갈 배경을 만드는 과정이다. 기존에는 글자색과 대비되는 단색 사각형 이미지로 처리해 자연스러움이 떨어졌었다면 현재는 그림자 변화나 명도 변화를 딥러닝으로 추출해 이질감이 없는 결과를 내놓는다.

이현수 네이버클라우드 파파고 개발자는 "글미자와 명도 변화에 잘 대응하는 이미지를 만들어내기 위해 딥러닝 기술을 적용했다"며 "글자 획과 주변영역에 선택적으로 집중하는 '생성적 대립 신경망(GAN)' 기술을 기반으로 자연스러운 배경을 생성해내는 모델을 개발했다"고 설명했다.

번역된 글자를 어떤 색으로 표시할지 결정하는 '글자 색상 추출' 과정에서는 '대비 비율(contrast ratio)' 기술이 사용됐다. 가독성을 높이기 위한 배경과 글자색 간 명도 대비 기준을 세워 이를 기준으로 색상을 결정하는 방식이다.

이현수 파파고 개발자는 "글자색과 배경색 사이 명도를 비교해 이를 대비 비율 기준으로 만족하는지 계산한다"며 "이를 통해 더 가독성 있는 색상을 결정해 추출하는 점이 핵심"이라고 강조했다.


글자 정렬부터 영역까지 세심하게 고려

가독성을 높이기 위한 작업은 여기서 그치지 않는다. 글자를 왼쪽, 가운데, 오른쪽 중 어디로 정렬하는지, 또 어느 범위까지 쓰이는지에 따라 차이가 심해지기 때문이다.

글자 정렬의 경우 과거 파파고는 무조건 왼쪽을 기준으로 렌더링을 수행했다. 실생활에서 왼쪽으로 글자를 정렬하는 경우가 많았기 때문이다. 그러나 오른쪽으로 정렬된 문자를 번역하면 '삐뚤빼뚤'하게 번역돼 구조를 해치는 일이 발생했다.

이를 해결하기 위해 네이버클라우드는 원본 문단 구조를 그대로 추출해 렌더링에 활용하는 방식을 사용했다. 글자마다 기준선을 그어 변화량을 계산하고 이를 기준으로 번역본을 정렬하는 방식이다.

글자 영역을 추출하기 전 발생한 문제/사진=네이버클라우드
글자 영역을 추출하기 전 발생한 문제/사진=네이버클라우드

그러나 글자 간 기준선이 하나만 존재할 경우에는 이같은 방식이 효과적이지 않다는 결론에 이르렀다. 이후 네이버클라우드는 전체 이미지 특징을 딥러닝 모델로 추출해 다양한 요소를 반영시켰다.

글자 영역 추출은 번역한 문장을 어디까지 작성할지를 결정짓는 부분이다. 중국어를 한국어로 번역할 경우 원본보다 더 많은 공간이 필요해지는 상황을 해결하기 위한 것이다. 과거 파파고에서는 글자 크기를 줄이는 방식을 채택했다. 그러나 지나치게 작아져 가독성이 크게 떨어졌다.

이후 네이버클라우드는 이미지 경계선을 검출하는 기술을 개발했다. 쉽게 말해 글자가 이미지 내 경계선을 넘어가면 안된다는 규칙을 세운 것이다. 다만 이 또한 충분치 않다고 네이버클라우드 측은 설명했다.

이현수 개발자는 "경계선 추출 방식은 컴퓨터 화면을 휴대폰을 촬영할 때 발생하는 노이즈 등에 취약하고, 영화 자막이나 포스트잇 경계선의 경우 글자 영역을 제한하지 않는다"며 "현재 이를 해결하기 위해 글자에 특화된 영역을 추론해내는 딥러닝 기반 기술을 연구 중"이라고 말했다.

이 뿐만 아니라 향후 네이버클라우드는 '폰트'와 '강조색' 등을 반영하기 위한 기술 개발을 지속할 예정이다. 이현수 개발자는 "글자를 어떤 폰트로 다시 써줘야 자연스러울지, 번역문에 떻게 적용할지가 과제"라며 "또 몇몇 단어에 강조를 위해 사용되는 배경색이나 글자색을 번역문에 반영하기 위한 연구를 진행 중"이라고 설명했다.

 

김가은 기자 7rsilver@techm.kr

관련기사