/사진=디디다 컴퍼니 제공
/사진=디디다 컴퍼니 제공

엔비디아가 AI 추론 기술의 확장성을 대폭 강화했습니다. 글로벌 주요 클라우드 기업들과 손잡고, 인공지능 모델을 더 빠르고 효율적으로 '동시 처리'할 수 있는 추론 프레임워크 '다이나모'를 전면 도입했습니다.

지난 17일 엔비디아는 아마존웹서비스(AWS), 구글 클라우드, 마이크로소프트 애저(Azure), 오라클 클라우드 인프라스트럭처(OCI) 등과 협력해 다이나모를 각사 클라우드 환경에 통합한다고 발표했습니다.

이로써 기업들은 복잡한 AI 모델을 여러 서버(노드)에서 동시에 실행할 수 있게 되며, 대형 언어모델(LLM)이나 전문가 혼합(MoE) 구조를 훨씬 효율적으로 운영할 수 있게 됩니다.

엔비디아는 "다이나모는 블랙웰 아키텍처 기반 시스템에서 대규모 AI 추론을 가속화하도록 설계됐다"며 "쿠버네티스 기반 관리형 서비스를 통해 기업들이 손쉽게 멀티 노드 추론 환경을 확장할 수 있다"고 설명했습니다.

실제로 각 클라우드 기업의 적용 방식도 다채롭습니다. AWS는 쿠버네티스 서비스(EKS) 와 다이나모를 결합해 생성형 AI 추론을 가속하고, 구글 클라우드는 자사 AI 하이퍼컴퓨터에 다이나모 레시피를 적용해 LLM 추론을 최적화했습니다. 애저는 ND GB200-v6 GPU와 연동해 멀티 노드 추론을 구현했으며, 오라클 OCI는 슈퍼클러스터 환경에서 대규모 모델의 병렬 추론이 가능하도록 지원합니다.

젠슨 황 엔비디아 CEO는 워싱턴D.C.에서 열린 GTC 콘퍼런스에서 "블랙웰은 기존 호퍼 대비 10배 높은 성능과 수익성을 제공한다"며 "강력한 추론 컴퓨팅이 클라우드 생태계 전반으로 확산될 것"이라고 말했습니다.

다이나모의 핵심은 기존의 '통합형' 추론 구조를 '분리형' 서빙 구조로 전환했다는 점입니다. 모델이 명령어를 해석하는 프리필 과정과, 실제 응답을 생성하는 디코드 과정을 각각 다른 GPU로 분리해 실행해 병목 현상을 줄이고 처리 속도를 끌어올렸습니다. 이 방식은 리소스 활용도를 극대화하고 대형 모델을 더 적은 GPU로 더 빠르게 돌릴 수 있는 구조로 평가받습니다.

엔비디아는 여기에 쿠버네티스 기반 추론 관리 효율을 높이는 API '그로브'도 새로 공개했습니다. 그로브는 노드 배정, 통신 경로 설정 등 복잡한 분산 시스템 조율 과정을 자동화해, AI 추론 서비스의 배포와 운영을 훨씬 단순하게 만들어 줍니다.

AI 추론 기술이 이제는 '속도' 경쟁에서 '규모와 효율성' 경쟁으로 넘어가는 가운데, 클라우드 거인들과 손잡은 엔비디아가 AI 인프라 시장의 새로운 표준을 세울 수 있을지 궁금합니다.

자료=미디어뱀부
정리=김현기 기자 khk@techm.kr

관련기사