새로운 엔비디아 NIM 추론 마이크로서비스, 구글 쿠버네티스 엔진에 통합, 엔비디아 H100 기반 DGX 클라우드 플랫폼 구글 클라우드에서 사용 등...

배경 사진은 엔비디아 그레이스 블랙웰 슈퍼칩 이미지
배경 사진은 엔비디아 그레이스 블랙웰 슈퍼칩 이미지

엔비디아와 구글 클라우드(Google Cloud)는 파트너십을 강화한다고 20일(현지시간)발표했다. 이번 파트너십을 통해 엔비디아(NVIDIA)는 인공지능(AI) 커뮤니티가 생성형 AI 애플리케이션을 쉽게 구축, 확장, 관리할 수 있도록 지원할 예정이다.

구글은 자사 제품과 개발자에게 AI 혁신을 지속적으로 제공하기 위해 새로운 엔비디아 그레이스 블랙웰(Grace Blackwell) AI 컴퓨팅 플랫폼을 도입하고, 구글 클라우드에 엔비디아 DGX 클라우드(DGX Cloud) 서비스를 적용한다. 아울러 엔비디아 H100 기반 DGX 클라우드 플랫폼은 이제 구글 클라우드에서 정식으로 사용할 수 있다.

특히, 구글은 지난달 21일 공개한 매개변수 ‘2B’와 ‘7B’ 두 가지 모델로 정교한 멀티모달 추론 기능을 갖춘 개방형 모델인 젬마(Gemma) 제품군 최적화를 위한 협력을 기반으로, 엔비디아 NIM 추론 마이크로서비스도 도입한다고 밝혔다. 이를 통해 구글은 개발자들이 선호하는 툴과 프레임워크를 사용해 훈련하고 배포할 수 있는 개방적이고 유연한 플랫폼을 제공할 계획이다.

또한, 양사는 엔비디아 GPU와 엔비디아 H100 그리고 L4 텐서 코어(L4Tensor Core) GPU 기반의 버텍스 AI(Vertex AI) 인스턴스에서 JAX를 지원한다고 발표했다.

구글 클라우드 CEO 토마스 쿠리안(Thomas Kurian)은 "엔비디아와의 오랜 파트너십은 하드웨어 수준에서 시작해 최첨단 GPU 가속기, 소프트웨어 에코시스템, 관리형 버텍스 AI 플랫폼에 이르기까지 포트폴리오 전반으로 확장됐다. 우리는 엔비디아와 함께 ML 개발자를 위한 접근성이 높고 개방적이며 포괄적인 AI 플랫폼을 제공하기 위해 최선을 다하고 있다"고 말했다.

엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang)은 "기업들은 몇 년이 아닌 몇 주, 몇 달 안에 생성형 AI를 최대한 활용할 수 있는 솔루션을 찾고 있다. 확장된 인프라 서비스와 엔비디아의 풀스택 AI와의 새로운 통합을 통해 구글 클라우드는 생성형 AI 애플리케이션을 쉽게 확장할 수 있는 개방적이고 유연한 플랫폼을 고객에게 지속적으로 제공하고 있다"고 말했다.

엔비디아와 구글 클라우드 간의 새로운 통합은 AI 스택의 모든 계층에서 선도적인 기능을 AI 커뮤니티에 제공하려는 두 회사의 오랜 노력의 결실이다. 파트너십 확장의 주요 내용은 '엔비디아 그레이스 블랙웰 채택'으로 새로운 그레이스 블랙웰 플랫폼을 통해 조직은 수조 개의 매개변수를 가진 대규모 언어 모델(LLM)에서 실시간 추론을 구축하고 실행할 수 있다. 구글은 다양한 내부 배포를 위해 이 플랫폼을 채택하고 있으며, 블랙웰 기반 인스턴스를 제공하는 최초의 클라우드 제공업체 중 하나가 된다.

'그레이스 블랙웰 기반 DGX 클라우드, 구글 클라우드에서 사용 가능', 구글은 확장성과 성능이 뛰어난 클라우드 인프라에 5세대 NV링크(NVLink)로 상호 연결된 72개의 블랙웰 GPU와 36개의 그레이스 CPU를 결합한 엔비디아 GB200 NVL72 시스템을 도입할 예정이다. 이는 조 단위 파라미터를 가진 LLM 시대에 에너지 효율적인 훈련과 추론을 위해 설계됐다.

LLM을 구축하고 제공하는 엔터프라이즈 개발자에게 서버리스 경험을 제공하는 AI 플랫폼인 DGX 클라우드를 통해 해당 시스템을 이용할 수 있다. 또한 DGX 클라우드는 이제 엔비디아 H100 텐서 코어 GPU로 구동되는 구글 클라우드 A3 VM 인스턴스에서 정식으로 사용할 수 있다.

또한 'GPU에서 JAX 지원'으로 JAX의 장점을 엔비디아 GPU에 제공해 더 광범위한 ML 커뮤니티에서 대규모 LLM 훈련에 대한 접근성이 강화됐다. JAX는 고성능 ML을 위한 프레임워크로, 컴파일러 지향적이며 파이썬(Python) 기반으로 제작돼 사용하기가 매우 쉽고 성능이 가장 뛰어난 LLM 훈련용 프레임워크 중 하나이다. 이제 AI 실무자들은 맥스텍스트(MaxText)와 가속 처리 키트(Accelerated Processing Kit, XPK)를 통해 구글 클라우드에서 엔비디아 H100 GPU와 함께 JAX를 사용할 수 있다.

아울러, '구글 쿠버네티스 엔진(Google Kubernetes Engine, GKE)에 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 플랫폼의 일부인 엔비디아 NIM 추론 마이크로서비스가 통합된다. 텐서RT-LLM을 비롯한 추론 엔진을 기반으로 구축된 NIM은 기업에서 생성형 AI 배포 속도를 높인다. 아울러 광범위하고 선도적인 AI 모델을 지원하며, 원활하고 확장 가능한 AI 추론까지 보장한다.

'엔비디아 네모(NeMo) 지원'으로 구글 클라우드는 GKE과 구글 클라우드 HPC 툴킷을 통해 플랫폼 전반에서 엔비디아 네모 프레임워크를 보다 쉽게 배포할 수 있도록 했다. 이를 통해 개발자는 생성형 AI 모델의 훈련과 제공을 자동화하거나 확장할 수 있으며, 개발 프로세스를 빠르게 시작하는 맞춤형 청사진을 통해 턴키 환경을 신속하게 배포할 수 있다.

엔비디아 AI 엔터프라이즈의 일부인 엔비디아 네모는 구글 마켓플레이스에서도 사용할 수 있다. 이를 통해 고객은 네모와 기타 프레임워크에 쉽게 액세스해 AI 개발을 가속화하는 또 다른 방법을 활용할 수 있다.

구글의 버텍스 AI와 데이터플로우(Dataflow), 엔비디아 GPU에 대한 지원 확대로 버텍스 AI는 엔비디아 H100 GPU 기반의 구글 클라우드 A3 VM과 엔비디아 L4 텐서(Tensor) 코어 GPU 기반의 G2 VM을 지원한다. 따라서 MLOps 팀은 확장 가능한 인프라와 툴을 통해 AI 애플리케이션을 자신 있게 관리하고 배포할 수 있다. 데이터플로우 또한 엔비디아 GPU에서 가속화된 데이터 처리에 대한 지원을 확대했다.

구글 클라우드는 오랫동안 엔비디아의 최첨단 하드웨어와 구글의 선도적인 혁신이 결합된 GPU VM 인스턴스를 제공해 왔다. 엔비디아 GPU는 성능 최적화된 하드웨어, 개방형 소프트웨어, 유연한 소비 모델을 통합하는 슈퍼컴퓨팅 아키텍처인 구글 클라우드 AI 하이퍼컴퓨터(AI Hypercomputer)의 핵심 구성요소이다. 이번 파트너십을 통해 AI 연구자, 과학자, 개발자들은 가장 크고 정교한 AI 모델을 훈련, 미세 조정, 서비스할 수 있다. 또한, 이제 더 많은 도구와 프레임워크를 공동으로 최적화해 구글 클라우드에서 사용할 수 있다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지