챗GPT에 '입'이 달렸다…오픈AI, 사람과 대화하는 새 AI 모델 'GPT-4o' 공개

2024-05-14 남도영 기자

미라 무라티(Mira Murati) 오픈AI 최고기술책임자(CTO)가 'GPT-4o'에 대해 설명하고 있다. /사진=유튜브

오픈AI 챗GPT에 '입'이 생겼다. 텍스트 기반의 채팅을 넘어 음성으로 자연스럽게 사람과 대화할 수 있게 되며 인공지능(AI)이 다시 한 번 진화한 모습이다.

13일(현지시간) 오픈AI는 유튜브를 통해 '봄 업데이트' 온라인 행사를 열고 멀터모달 기술을 적용한 새 플래그십 생성형 AI 모델 'GPT-4o'를 공개했다. 새 모델 이름의 'o'는 '모든', '어디에나', '어디서나' 등의 뜻을 가진 어근인 '옴니(omni)'를 의미한다.

미라 무라티(Mira Murati) 오픈AI 최고기술책임자(CTO)는 "GPT-4o는 GPT-4 터보 수준의 인텔리전스를 제공하지만 반응 속도가 훨씬 빠르고 텍스트와 시각, 오디오 전반에 걸쳐 인식 기능을 개선했다"며 "이것은 인간과 기계 간의 상호 작용의 미래에 있어 매우 중요한 일"이라고 밝혔다.

기존 '챗GPT'에서도 텍스트를 음성으로 변환하는 기능을 제공했지만, GPT-4o는 이를 더욱 강화해 사용자의 말에 즉각적으로 반응하며 마치 실제 사람처럼 실시간으로 대화할 수 있게 됐다. 오픈AI 측은 GPT-4o가 최소 232밀리초(1000분의 1초), 평균 320밀리초 만에 오디오 입력에 응답할 수 있으며, 이는 사람과 사람 간의 커뮤니케이션 속도와 비슷한 수준이라고 설명했다.

이날 데모에서 GPT-4o는 사용자의 목소리에 담긴 감정이나 숨소리를 인식해 반응하는 모습을 선보였으며, 자신도 다양한 감정을 담아 여러 톤으로 대답을 생성하는 모습을 보여줬다. 또 GPT-4o는 50개 언어에 대한 향상된 성능을 갖췄으며, 이를 통해 다른 언어 간의 실시간 통역도 가능했다.

GPT-4o는 시각 능력을 개선하며 '눈'도 밝아졌다. 이날 데모에서 발표자가 스마트폰 카메라를 통해 방정식 문제를 보여주며 정답을 알려주지 않은 상태에서 설명해달라고 하자 챗GPT는 마치 교사처럼 풀이 과정을 설명해줬다. 또 PC 화면에 뜬 코드를 검토해 해당 코드가 무슨 역할을 하고 특정 부분을 조정하면 어떤 결과가 나오는지 알려주는 모습도 보여줬다.

오픈AI는 GPT-4o를 무료로 공개할 예정이라고 밝혔다. 다만 유료 사용자에게는 5배 많은 사용량을 제공한다. GPT-4o의 텍스트 및 이미지 기능은 이날부터 챗GPT에 적용되며, 향후 몇 주 내에 챗GPT 플러스에 GPT-4o가 포함된 새로운 버전의 음성 모드를 알파 버전으로 출시할 예정이다.

이번에 공개한 새로운 음성 기능에 대해 오픈AI는 오용 위험성을 언급하며 70명 이상의 외부 전문가들로 구성된 레드팀과 검토를 거쳤다고 설명했다. 회사 측은 "새 음성 기능 출시 시 사전 설정된 일부 음성으로 제한되며, 기존의 안전 정책을 준수할 것"이라고 전했다.

무라티 CTO는 "우리는 GPT와 상호작용 경험이 실제로 더 자연스럽고 쉬워지길 바란다"며 "사용자가 사용자 인터페이스(UI)에 전혀 집중하지 않고 GPT와의 협업에만 집중할 수 있게 될 것"이라고 말했다.

오픈AI가 음성으로 대화하는 AI 어시스턴트를 본격적으로 선보이며 'AI 비서' 경쟁은 한층 더 치열해질 전망이다. 오픈AI는 구글의 새 AI 모델과 서비스가 공개될 것으로 예상되는 '구글 I/O 2024' 행사 하루 전날 GPT-4o를 선보이며 견제에 나섰다. 구글 역시 이번 I/O 행사를 통해 '제미나이' 기반의 어시스턴트 기능 업데이트를 선보일 것으로 예상된다.

남도영 기자 hyun@techm.kr