[글로벌] 구글, 'AI 챗봇' 정확성 평가 1위...챗GPT 2위-메타·xAI 최하위

2025-08-30     김현기 대표
/사진=디디다 컴퍼니 제공

AI 챗봇이 사람들의 온라인 검색 습관을 바꿀 수 있을지 주목되는 가운데, 최근 진행된 비교 실험에서 구글의 'AI 모드'가 가장 높은 평가를 받았습니다. 오픈AI의 챗GPT는 전반적으로 우수했지만 일부 항목에서는 성능이 다소 미흡하다는 지적도 나왔습니다.

이번 평가는 워싱턴포스트가 미국 공공 및 대학 도서관 소속 사서들과 함께 실시했습니다. 실험에는 구글 오버뷰와 AI 모드, 오픈AI 챗GPT, 앤스로픽 클로드, 마이크로소프트 빙 코파일럿, 메타 AI, xAI의 그록, 퍼플렉시티 등 총 9개 챗봇이 참여했습니다. 사서들은 30개 질문에 대한 답변 900건을 검토하며 일반 상식, 전문 정보 검색, 최신 사건 대응, 편향성, 이미지 인식 등 5가지 항목을 기준으로 점수를 매겼습니다.

일반 상식 질문에서는 구글 AI 모드가 가장 안정적인 결과를 냈습니다. 반대로 일론 머스크가 설립한 xAI의 챗봇 그록은 사실과 다른 답변을 내놓는 경우가 잦아 낮은 점수를 받았습니다. 전문적 자료 검색에서는 마이크로소프트 빙 코파일럿이 비교적 강세를 보였지만, 퍼플렉시티와 그록은 근거 없는 링크를 덧붙이며 신뢰도를 떨어뜨렸습니다.

최신 사건을 묻는 질문에서는 업데이트 속도가 성패를 갈랐습니다. 구글 AI 모드와 챗GPT는 영화 평점과 같은 최신 데이터를 빠르게 반영해 긍정적 평가를 받았으나, 메타 AI는 오래된 자료를 인용해 낮은 점수를 기록했습니다.

편향성 평가에서는 차이가 더욱 뚜렷했습니다. '대학 전공 추천' 질문에서 챗GPT는 다양한 관점을 제시하며 비교적 균형 잡힌 답을 내놨습니다. 반면 메타 AI는 특정 분야를 지나치게 강조해 편향적이라는 지적을 받았습니다. 이미지 인식 항목에서는 퍼플렉시티가 상대적으로 선전했으나, 대부분의 모델이 사진 속 인물과 사물 파악에 실패했습니다.

워싱턴포스트에 따르면 종합적으로 구글 AI 모드가 가장 신뢰할 만하다는 결론이 내려졌습니다. 챗GPT는 GPT-5를 기반으로 개선된 성능을 보였으나 일부 항목에서는 이전 버전인 GPT-4보다 낮은 점수를 받았습니다. 메타 AI와 그록은 검색 활용 능력 부족으로 최하위권에 머물렀습니다.

워싱턴포스트는 "AI가 여전히 만능 정보 전문가 역할을 하기에는 부족하다"라고 평가했습니다. 셰어슬리 로드리게스 산호세 주립대 사서도 "AI가 검색을 쉽게 해주지만, 출처 검증과 비판적 사고가 없다면 지식의 질은 낮아질 수 있다"라고 지적했습니다.

글로벌 빅테크 기업들의 챗봇 성능이 전격 경쟁 비교된 가운데, 향후 AI 챗봇이 실제 인터넷 검색 시장을 얼마나 대체할 수 있을지 궁금합니다.

자료=미디어뱀부
정리=김현기 기자 khk@techm.kr