[글로벌] 'AI 공짜 학습 막자'...NYT·아마존 등 챗GPT 차단 사이트 늘었다

2023-08-31 김현기 대표

챗GPT /사진=디디다 컴퍼니 제공

생성형 인공지능(AI) 열풍이 이어지는 가운데 챗GPT의 정보 수집을 차단하는 기업과 언론사들이 늘고 있습니다.

AI 콘텐츠 정보 제공업체 '오리지널리티.AI'에 따르면 지난 22일 기준 전세계에서 가장 인기있는 사이트 1000개 중 GPT봇(GPTBot)을 차단한 곳은 9.2%에 달했습니다. 오리지널리티.AI는 "GPT봇의 접근을 막는 사이트는 꾸준히 늘어나는 것으로 조사됐다"고 말했습니다.

GPT봇은 오픈AI가 지난 8일 공개한 웹크롤러입니다. 웹크롤러는 전세계 사이트를 찾아내고 콘텐츠를 색인화하는 도구로, 인공지능 언어모델 학습에 필요한 데이터를 수집하는 데 활용됩니다. 오픈AI는 이날 GPT봇을 공개하면서 개발자와 사이트 관리자가 이를 차단하는 방법도 소개했습니다.

GPT봇이 공개된 후 1주일 동안 이를 차단한 사이트의 비율은 5% 미만이었습니다. 하지만 2주 차에 약 10% 수준까지 올라온 것입니다. 특히 인기있는 사이트의 범위를 100개로 좁힐 경우 차단율은 15%에 달했습니다. GPT봇을 차단한 사이트에는 로이터 통신과 뉴욕타임스, CNN방송을 비롯한 기사 사이트 외에도 아마존, 이케아 등이 포함된 것으로 알려졌습니다.

인기 사이트 100개 중 가장 먼저 GPT봇을 차단한 곳은 로이터 통신입니다. 이달 17일에는 뉴욕타임스가 GPT봇을 차단한 후 AI 학습에 회사의 기사가 활용되지 못하도록 서비스 약관을 변경했습니다. 미국 공영 라디오 방송 NPR은 "AI의 기사 학습이 늘어날수록 독자가 기사를 찾아볼 필요성이 없어질 수 밖에 없다"며 "미국 언론은 이를 우려하고 있다"고 설명했습니다.

한편 이탈리아 데이터 보호청은 지난 3월 이탈리아 내 챗GPT 접속을 차단한다고 발표했습니다. 이탈리아 데이터 보호청은 "챗GPT가 AI 학습 목적으로 사용자의 개인 정보를 수집 및 저장하는 행위를 정당화할 법적 근거가 없다"며 "미성년자의 발달과 인식에 부적절한 답변을 제공할 수도 있다"고 했습니다.

생성형 AI와 관련된 데이터 무단 수집 논란이 언제 해결될지 궁금합니다.

자료=미디어뱀부
정리=김현기 기자 khk@techm.kr