/사진=테크M 편집국
/사진=테크M 편집국

최근 정보기술(IT) 업계를 달구고 있는 키워드 중 하나는 '초거대 인공지능(AI)'이다. 오픈AI가 개발한 대화형 AI챗봇 '챗GPT(ChatGPT)'가 등장한 이후 구글, 마이크로소프트 등은 물론, 네이버와 카카오 등 국내외 기업들은 일제히 수면 아래서 준비하던 초거대 AI를 하나씩 선보이고 있다. 

현재 이들이 주목하고 있는 지점은 바로 '범용성'이다. 챗GPT가 작문, 작곡, 코딩 등 다양한 영역에서 활용 가능하다는 사실이 알려지며, 연구와 실험을 넘어 실제 서비스에 초거대 AI를 접목하는 일이 향후 시장 내 입지를 가를 핵심 요소로 자리잡았기 때문이다.


초거대 AI는 무엇?

초거대 AI는 인간의 두뇌와 가까운 능력을 구현하는 것이 핵심이다. 즉, 대용량 데이터를 스스로 학습해 판단과 종합적 추론이 가능한 '인간에 가까운' AI인 셈이다.

이같은 기술이 시장에 각인되기 시작한 시점은 지난 2020년이다. 오픈AI가 발표한 'GPT-3'가 성공을 거두며  과거 기존 언어 모델 대비 획기적으로 개선된 성능을 보여줬기 때문이다. 데이터 처리양은 전작 'GPT-2'에 비해 1100배, 더 많은 데이터를 학습할 수 있도록 하는 매개변수는 15억개에서 1750억개로 10배 이상 증가했다. 

특히 '퓨샷 러닝(Few Shot Learning)'과 '자기지도학습' 기술이 가능해졌다는 점이 핵심이다. 퓨샷 러닝은 대량의 학습 데이터가 없는 상태에서 소량의 데이터만으로 효과적 학습을 구현하는데 주안점을 둔 학습 방식이다. 예를 들어, 번역 문장 몇개만 보여주면 자체적으로 학습해 필요한 기능을 구현해내는 방식이다.

GPT-3, 챗GPT를 개발한 오픈AI 홈페이지/사진=오픈AI 홈페이지
GPT-3, 챗GPT를 개발한 오픈AI 홈페이지/사진=오픈AI 홈페이지

자기지도학습 또한 '효율성'에 방점이 찍혀있다. 방대한 데이터를 활용할 때 과거에는 사람이 일일이 라벨링을 해야 했을 뿐만 아니라 '휴먼 에러'도 발생했다. 그러나 자기지도학습은 AI가 주어진 데이터를 기반으로 다른 데이터를 예측해 스스로 학습해나가는 방법이다. 이는 원본 데이터를 라벨링하지 않아도 그대로 사용할 수 있는 점이 특징이다.

GPT-3 이후 AI업계에서는 규모 경쟁에 불이 붙었다. 마이크로소프트는 매개변수 5300억개를 보유한 'MT-NLG'를 발표했고, 구글은 2800억개 매개변수를 가진 '고퍼(Gopher)'와 5400억개 매개변수를 가진 'PaLM'을 발표했다. 구글 또한 1조6000억개 매개변수를 자랑하는 '스위치 트랜스포머'를, 중국은 1조7500억개를 사용하는 '우다우 2.0'을 발표했다.

국내에서는 지난해 5월 네이버가 업계 최초로 2040억개 매개변수를 보유한 초거대 AI '하이퍼클로바'를 선보였다. 그로부터 약 6개월 후 카카오브레인 또한 300억개 매개변수를 보유한 한국어 특화 초거대 AI 언어모델 '코지피티(KoGPT)'를 공개한 바 있다.


챗GPT로 불붙은 초거대 AI '경쟁', 핵심은 범용성

챗GPT는 지난 2020년 공개된 GPT-3의 단점을 보완한 'GPT-3.5' 기반 챗봇이다. 온라인 상에 있는 방대한 양의 텍스트 샘플을 학습하고, 대화형 인터페이스를 통해 사용자가 원하는 정보를 제공한다. 여기까지는 그간 나왔던 AI모델들과 큰 차이점이 없다.

챗GPT에 대해 IT업계가 놀라움을 금치 못했던 지점은 그간 인간의 전유물로 여겨졌던 '창작'이 가능하다는 것이었다. 챗GPT는 사용자 요구에 따라 짧은 논문이나 에세이, 노래, 시 등을 만들어낸다. 심지어는 코딩 도구로 활용해 AI·머신러닝(ML) 모델을 만드는 일도 가능하다.

챗GPT가 ML학습을 위한 파이썬 코드를 작성한 모습/사진=김가은 기자
챗GPT가 ML학습을 위한 파이썬 코드를 작성한 모습/사진=김가은 기자

일각에서는 일자리가 위험하다는 반응과 함께 '코딩을 하는 챗GPT를 위해 인간 개발자들이 코딩을 하는 코미디'라는 말도 나오고 있다. 특히 이번에 공개된 챗GPT 모델이 데모 버전인데다, 올해 초 오픈AI가 이보다 고도화된 'GPT-4'를 내놓을 계획을 갖고 있어 향후 기능 향상이 예상되고 있다. 

구글과 마이크로소프트, 네이버와 카카오 등 국내외 기업들은 챗GPT가 몰고 온 새로운 기류를 탐지한 이후 관련 작업에 적극 나서고 있는 모양새다. 5일 외신에 따르면 순다 피차이 구글 CEO는 챗GPT 등장에 위협을 느끼고 '코드레드'를 발령한 것으로 알려졌다. 구글 검색보다 챗GPT가 더 높은 편의성과 정확성을 제공할 수 있다는 관측이 제기된 영향이다.

이에 구글은 올해 개최되는 개발자 행사 '구글 IO'에서 기존 대화형 AI모델 '람다(LaMDA)'를 비롯한 차세대 AI 모델을 공개할 전망이다. 특히 문자, 소리, 이미지, 영상까지 학습해 상호변환이 가능한 '멀티모달'이 등장할 것으로 업계는 관측 중이다.

/사진=네이버 제공
/사진=네이버 제공

검색엔진 '빙(Bing)'을 보유한 마이크로소프트는 아예 챗GPT를 도입할 계획으로 알려졌다. 지난 4일(현지시간) 다수 외신에 따르면 마이크로소프트는 오픈AI와 챗GPT 접목을 진행 중이다. 챗GPT를 탑재한 빙 검색은 오는 3월 중 출시될 전망이다.

네이버와 카카오 또한 각자 보유한 초거대 AI기술을 실제 서비스로 확장하는데 열을 올리고 있다. 네이버의 경우 하이퍼클로바 매개변수를 늘려 성능을 높임과 동시에 압축·경량화 방안을 연구 중이다. 더 똑똑하지만 몸무게는 가볍게 만든 하이버클로바를 노코드 AI 플랫폼 '클로바스튜디오'에 접목, 생태계를 넓히겠다는 전략이다.

/사진=카카오브레인 제공
/사진=카카오브레인 제공

카카오 초거대 AI 선봉장 역할을 맡은 카카오브레인은 앞서 선보인 한국어 특화 AI모델 코GPT와 이미지 생성 모델 '민달리(minDALL-E)', AI화가 '칼로' 모델 등을 광고 카피 작성, 고객 상담 등 다양한 서비스 영역에 접목할 계획이다.

국내 한 AI업계 전문가는 "초거대 AI는 모델 크기를 키우며 성능이 대폭 개선될 수 있음을 보여줬을 뿐만 아니라, 일정 수준을 넘어서면서 맞춤형 검색 및 광고, 자율주행 등 현실 세계에 적용되기 시작했다"며 "AI에 대한 투자가 증가하고 있는 동시에 소요되는 비용은 줄어들고 있는 만큼 향후 기술 성장은 더욱 가팔라질 것이며, 단순한 기능 경쟁이 아닌 실제 생활과 서비스에서 효용성을 주는 기업이 시장을 지배할 것으로 보인다"고 말했다.

 

김가은 기자 7rsilver@techm.kr

관련기사