한글과컴퓨터는 AI 학습 및 활용 과정의 PDF 문서 데이터 처리 병목 현상을 해소할 기술을 글로벌 오픈소스로 공개했다고 17일 밝혔다. 이번에 공개한 '오픈데이터로더 PDF'는 한컴이 오랜 기간 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진이다.
한컴의 기술 공개 배경에는 허깅 페이스의 행보가 자리했다. 허깅 페이스는 최근 PDF 문서를 기반으로 한 약 4억7500만건 규모의 대규모 데이터셋 '파인PDFs'를 공개한 바 있다.
한컴은 해당 데이터를 활용하려는 기업들의 움직임이 활발해지며 PDF를 AI 학습에 사용하는 과정의 문제를 해결하는데 기여하겠다고 결정했다. 이에 따라 탄생한 오픈소스 프로젝트는 지난 7월 PDF 기술 전문 기업 듀얼랩과 체결한 업무협약(MOU)의 첫 결실이다. 양사는 오픈소스 기반 PDF 데이터로더를 공동 개발하며 AI 생태계 확장을 목표로 하고 있다.
오픈데이터로더 PDF는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 추출해 AI 학습에 즉시 활용할 수 있는 정형화된 데이터로 변환한다. 벤치마크 테스트 결과 사람의 읽기 순서를 측정하는 지표인 NID에서 타 기술 대비 85% 수준을 기록했다고 회사 측은 전했다.
또 네트워크 연결 없이 오프라인에서 작동해 데이터 유출과 외부 업로드로 인한 정보 노출 위험을 차단할 수 있다. 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공할 예정이다.
한컴은 이번 오픈소스 공개를 바탕으로 AI 생태계 전반의 오픈소스 확산과 기술 고도화를 추진한다. 이를 위해 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하고, 깃허브를 통한 글로벌 개발자 커뮤니티와의 협력을 이어갈 계획이다.
정지환 한컴 최고기술책임자(CTO)는 "이번 오픈데이터로더 PDF 핵심 기술 공개를 통해 전 세계 개발자들에게 인정받고, 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다"며 "연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속적으로 고도화하겠다"고 전했다.
임경호 기자 lim@techm.kr
관련기사
- [가봤다] 오아시스마켓이 선보인 AI 무인계산기..."기술 혁명에 신선함은 덤"
- "우리 자신이 0번째 고객"...AI로 6조원 절감한 IBM, 고객사에 혁신 노하우 전수
- 실리콘밸리의 시선은 'AI' 넘어 '로봇'으로 향한다
- 'D-9' 카운트다운 돌입한 도쿄게임쇼...서브컬처 장르 본고장 향하는 'K게임'
- 글로벌 진출 앞둔 국내 AI 스타트업, '규제 장벽 깨기' 의기투합
- [크립토 브리핑] 금리인하 앞둔 비트코인 1억6100만원대 상승...알트코인 투심 모일까
- [테크M 이슈] 변곡점 맞은 네이버웹툰, 美 디즈니 협업에 WBTN 주가 '껑충'...싱스북 시너지도 '기대'
- "MMO 충성고객 돌아왔다" 다시 뛰는 웹젠...R2 오리진 기대감 '쑥'
- '10조' IPO 대어 무신사, 한류 필수 관광지로 우뚝...증시 투심 몰린다