국내 인공지능(AI) 스타트업 업스테이지가 대규모 언어 모델(LLM) AI 성능 경쟁에서 미국 빅테크를 누르고 1위를 차지했다.
20일 글로벌 AI 플랫폼인 '허깅페이스'의 LLM 성능 평가 점수 순위에 따르면 업스테이지는 평균 67점으로 2위 메타의 '라마2'(66.8점)를 근소한 차로 앞지르며 선두를 달리고 있다.
허깅페이스의 오픈 LLM 리더보드는 300여개가 넘는 글로벌 AI 모델들이 성능을 경쟁하는 자리다. 매일 스태빌리티AI, 데이터브릭스 등 전 세계 기술 기업과 연구 기관이 각자 개발한 AI 모델을 업데이트하며 치열한 경쟁을 펼친다. 이 곳에선 모델의 추론과 상식능력 뿐 아니라 언어이해 종합능력과 환각현상(할루시네이션) 방지 등 생성AI 평가에 꼭 필요한 4가지 지표의 평가 점수 평균으로 최종 순위를 결정한다.
업스테이지는 이달 초 자체 구축한 모델을 허깅페이스의 리더보드에 제출해 성능을 평가받았다. 업스테이지의 모델은 2위인 페이스북 라마2 70B 모델에 비해 절반도 안되는 사이즈로 더 경쟁력 있는 결과를 만들어냈다.
업스테이지는 자체 모델 구축에 나선지 약 두 달 만에 세계 최고 성능의 AI 모델을 만든 것으로 알려졌다. 이 회사는 최초의 한국어 자연어이해(NLU) 평가 데이터셋인 '클루(KLUE)'를 직접 구축한 것은 물론, 130만 이용자를 돌파한 국내 대표 생성AI 서비스 '아숙업(AskUp)'을 직접 운영하며 쌓은 프롬프트 엔지니어링 및 파인튜닝 노하우를 바탕으로 이번 오픈 LLM 모델 개발에 나섰다.
업스테이지의 모델과 같이 65B 이하의 작은 규모 LLM은 오픈AI '쳇GPT'나 구글 '바드'와 같이 1조를 넘는 매개변수를 가진 것으로 알려진 빅테크의 초거대 AI와 달리 가벼운 규모로 비용 절감효과가 크고 내부 서버에 설치및 운영이 가능해 향후 기업들이 프라이빗 AI 등으로 활용할 가능성이 크다. 이에 페이스북도 빅테크 가운데 작은 규모의 LLM을 내놓으며 차별화를 꾀하고 있고, 마이크로소프트, 퀄컴 등의 파트너들과 손잡으며 사업 확장에 나서고 있다.
프라이빗 AI는 개별 기업이 보유한 데이터를 학습시켜 내부 정보 유출을 막고 잘못된 정보를 생성하는 환각 현상을 줄일 수 있어 생성AI 경쟁의 새로운 장으로 주목 받고 있다. 실제로 애플, 월마트, 아마존, JP모건 등 글로벌 업계 대표 기업들이 '챗GPT 경계령’을 내린 바 있고, 국내 대기업들도 기밀 정보 유출 가능성을 이유로 내부에서 챗GPT 같은 AI 도구 사용을 제한하며 자체 AI 개발에 나서고 있는 것으로 전해지고 있다.
이번 순위로 기술력을 입증 받은 업스테이지는 프라이빗 AI 시장에서 사업 확장의 가능성을 보여줬다는 평이다. 업스테이지가 완성한 작은 규모의 AI를 통해 기업과 기관들은 정보유출에 대한 부담 없이 생성AI를 자체적으로 구축하고 활용할 수 있다고 회사 측은 설명했다. 예를 들어 기업의 내부 규정과 정보 등을 학습시켜 기업 임직원들이 회사 내부의 정보에 대한 답을 손쉽게 알아볼 수 있는 AI를 구축하는 것은 물론, 재무 데이터를 활용해 매출의 흐름을 분석하고 알맞은 마케팅 전략을 AI가 제안하는 등의 다양한 업무수행도 가능해질 전망이다.
업스테이지의 김성훈 대표는 "업스테이지의 AI 기술력이 지금 가장 치열한 경쟁을 벌이고 있는 생성 AI 글로벌 톱 플랫폼의 평가에서도 세계 최고의 성과를 거둬 무척 기쁘다"며 "이번에 입증된 업스테이지의 기술력을 바탕으로 국내 기업은 물론 전세계 모든 기업들이AI를 편리하게 사용할 수 있도록 노력할 것"이라고 말했다.
남도영 기자 hyun@techm.kr