황경태 구글 클라우드 커스터머 엔지니어링 매니저가 발표하는 모습/사진=구글 클라우드 미디어 브리핑 영상 캡처
황경태 구글 클라우드 커스터머 엔지니어링 매니저가 발표하는 모습/사진=구글 클라우드 미디어 브리핑 영상 캡처

구글 클라우드가 데이터 웨어하우스와 데이터 레이크를 통합한 '빅레이크'를 비롯한 데이터 관련 기술들을 대거 발표했다.

구글 클라우드는 27일 온라인으로 열린 '구글 클라우드 데이터 클라우드 서밋 미디어 브리핑'에서 ▲빅레이크 ▲스패너 체인지 스트림 ▲버텍스 AI 워크벤치 ▲루커용 커넥티드 시트 등 데이터 클라우드 신기술과 신규 파트너 프로그램을 발표했다.

황경태 구글 클라우드 커스터머 엔지니어링 매니저는 "데이터 양과 유형, 워크로드 등이 폭발적으로 증가하면서 전통적 아키텍처에서는 가치 실현이 어렵다"며 "구글 클라우드의 미션은 데이터와 가치 실현 사이의 격차를 줄여 더 나은 의사결정을 하도록 돕는 것"이라고 말했다.


데이터 고립 해소하고 연동 호환성 강화

구글 클라우드는 이날 행사에서 데이터 웨어하우스와 데이터레이크를 통합한 '빅레이크'를 선보였다.

기존에 정형 데이터와 비정형 데이터를 각각 다른 곳에 저장하는 방식은 '데이터 사일로(고립)' 현상이 발생하기 쉬울 뿐만 아니라, 데이터 이동 시 리스크와 비용이 높아지는 문제가 있었다. 이에 빅레이크는 기존 스토리지 형식이나 시스템에 상관없이 기업이 보유한 모든 데이터를 단일 플랫폼에 저장하고 이를 관리·분석할 수 있도록 했다. 이를 통해 기업은 데이터 관리 비용을 절감하고 업무 효율성을 높일 수 있게 된다고 회사 측은 설명했다.

빅레이크는 개방형 아키텍처를 구현해 구글 클라우드 내 모든 서비스와 파케이(Parquet) 등 오픈파일 형식을 지원한다. 또 구글 스토리지 기능을 다른 클라우드 벤더나 분석 엔진에서도 활용할 수 있으며, 타사 데이터 웨어하우스 시스템과 연동으로 협업도 가능하다. 향후에는 빅쿼리, 스파크, 데이터 플로우 등 모든 분석엔진을 빅레이크와 연동할 예정이다.

구글 클라우드 빅레이크 개념도/사진=구글 클라우드 미디어 브리핑 영상 캡처
구글 클라우드 빅레이크 개념도/사진=구글 클라우드 미디어 브리핑 영상 캡처

이와 함께 발표된 '스패너 체인지 스트림'은 구글 클라우드 데이터베이스인 스패너에 새롭게 추가된 기능으로, 최대 99.999%의 가용성을 지원하며, 최대 20억건 이상의 요청을 처리할 수 있다. 고객은 데이터베이스에서 삽입, 업데이트, 삭제 등 변경사항을 실시간으로 추적할 수 있다. 또 스패너에서 빅쿼리로 변경사항을 쉽게 복제하고, 구글 클라우드 스토리지에 변경 사항을 저장할 수 있다. 이를 통해 항상 최신 데이터에 접근할 수 있으며,  실시간 분석도 가능해진다고 회사 측은 설명했다.

실제로 트위터는 이미 빅쿼리와 함께 빅레이크 스토리지 기능을 이용해 트위터 사용자의 플랫폼 사용 현황과 콘텐츠 선호도를 파악하고 있다. 그 결과 초당 300만개 이상의 집계를 실행하는 광고 파이프라인을 구축했으며, 매일 수 조 건에 달하는 이벤트 관련 콘텐츠를 제공하고 있다.

김정훈 구글 클라우드 데이터 애널리틱스 스페셜리스트는 "빅레이크는 구글 클라우드 데이터 전략의 핵심이며 향후 모든 툴이 빅레이크와 연동될 것"이라며 "데이터브릭스, 스노우플레이크 등 타사 솔루션과 가장 큰 차이점은 기본적 기능에 구글 스토리지 기술까지 제공한다는 점"이라고 강조했다.


실무자들 데이터·AI 활용 폭 넓힌다

이날 구글 클라우드는 인공지능(AI) 모델 개발 등 모든 구성원이 쉽고 빠르게 데이터를 활용할 수 있도록 지원하는 '버텍스 AI 워크벤치'와 '루커용 커넥티드 시트' 등의 솔루션도 함께 선보였다.

버텍스 AI 워크벤치는 데이터 및 머신러닝(ML) 시스템을 단일 시스템으로 제공해 모든 팀이 ▲데이터 분석 ▲데이터 사이언스 ▲머신러닝 전반에 걸쳐 공통된 툴셋을 사용할 수 있도록 지원한다. 또 구글 클라우드 '빅쿼리', '서버리스 스파크' 및 '데이터 프록'과 직접 연동이 가능해 기존 노트북 환경 대비 5배 빠르게 ML모델을 개발·학습·배포할 수 있다.

버텍스 AI 워크벤치 개념도/사진=구글 클라우드 미디어 브리핑 영상 캡처
버텍스 AI 워크벤치 개념도/사진=구글 클라우드 미디어 브리핑 영상 캡처

또 구글 클라우드는 '버텍스 AI 모델 레지스트리'에 신규 'ML옵스' 기능을 탑재해 AI 모델에 대한 관리를 간소화시켰다. 버텍스 AI 모델 레지스트리는 머신러닝 모델의 탐색, 사용 및 관리를 위한 중앙 저장소를 제공한다. 데이터 사이언티스트가 저장소에 모델을 공유하면 팀은 실시간으로 데이터 기반 의사결정을 할 수 있다고 회사 측은 설명했다.

이외에도 구글 클라우드는 통합형 BI 플랫폼 '루커용 커넥티드 시트'를 발표했다. 루커용 커넥티드 시트는 ▲루커 익스플로어 ▲구글 스프레드 시트 ▲데이터 스튜디오 '드래그 앤 드롭' 등 보편적으로 사용되고 있는 인터페이스를 통해 기업이 보유한 데이터에 누구나 쉽게 접근할 수 있도록 구현한 플랫폼이다. 예를 들어 기업이 보유한 데이터를 직원들이 익숙한 구글 스프레드 시트 형식으로 제공해 쉽게 활용할 수 있도록 지원하는 방식이다.

김 스페셜리스트는 "기업 내 데이터 접근을 모두에게 확장해 진입 장벽을 낮췄다"며 "이를 활용해 모든 직원이 데이터 기반 의사결정을 내릴 수 있다"고 말했다.


김가은 기자 7rsilver@techm.kr

관련기사