아마존웹서비스(Amazon Web Services, 이하 AWS)가 엔비디아(NVIDIA)와 협력을 통해 차세대 머신러닝(ML) 워크로드용 아마존 EC2 캐퍼시티 블록(Amazon Elastic Compute Cloud Capacity Blocks)에 엔비디아 H100 텐서 코어 GPU(H100 Tensor Core GPUs)를 탑재한다.

이를 통해 고객들은 아마존 일래스틱 컴퓨트 클라우드(EC2)로 고성능 머신러닝 워크로드용 아마존 EC2 울트라클러스터(UltraCluster)에 구축된 수백 개의 엔비디아 GPU를 확보할 수 있다.

머신러닝의 발전으로 모든 규모의 산업 분야 조직은 새로운 제품을 개발하고 비즈니스를 혁신할 수 있는 기회가 생겼다.

기존 머신러닝 워크로드에는 상당한 컴퓨팅 용량이 필요하다. 여기에 생성형 AI의 등장으로 파운데이션 모델(foundation models, FM)과 대형언어모델(LLM)을 훈련하는 데 사용되는 방대한 데이터세트를 처리하기 위해서는 보다 더 큰 컴퓨팅 용량이 요구된다. GPU 클러스터는 병렬 처리 기능이 결합돼 훈련과 추론 프로세스를 가속화함으로써 이 과제에 매우 적합하다.

기업들이 생성형 AI의 혁신적인 역량을 알게 되면서, GPU에 대한 수요가 공급을 능가하고 있다. 따라서, 최신 머신러닝 기술을 활용하고자 하는 고객, 특히 도입 단계에 따라 필요한 용량이 변동하는 고객은 머신러닝 워크로드를 실행하는 데 필요한 GPU 클러스터에 액세스하는 데 어려움을 겪을 수 있다. 

머신러닝용 아마존 EC2 캐퍼시티 블록은 업계 최초 새로운 소비형 아마존 EC2 사용 모델로, GPU 인스턴스에 쉽게 액세스해 머신러닝과 생성형 AI 모델을 훈련하고 배포할 수 있도록 함으로써 머신러닝을 더욱 대중화한다.

EC2 캐퍼시티 블록을 통해 고객은 고성능 머신러닝 워크로드로 설계된 EC2 울트라클러스터에 배치된 수백 개의 엔비디아 GPU를 예약할 수 있다. 페타비트(peta-bit) 규모의 논블로킹(non-blocking) 네트워크에서 EFA(Elastic, Fabric Adapter) 네트워킹을 사용해 아마존 EC2에서 사용 가능한 최고의 네트워크 성능을 제공할 수 있다.

EC2 캐퍼시티 블록은 최대 8주 전에 미리 확보할 수 있으며, 예약 가능한 총 일수는 1일 단위로 1~14일이다. EC2 캐퍼시티 블록은 1~64개 인스턴스(512개 GPU)의 클러스터 크기로 엔비디아 H100 텐서 코어 GPU 기반의 아마존 EC2 P5 인스턴스(EC2 P5 Instances)에서 사용할 수 있다.

이를 통해 고객은 광범위한 머신러닝 워크로드를 유연하게 실행하고 필요한 GPU 시간만큼만 비용을 지불할 수 있다. EC2 캐퍼시티 블록은 고객이 중요한 머신러닝 프로젝트에 필요한 GPU 컴퓨팅 용량에 안정적이고 예측 가능하며 중단 없이 액세스할 수 있도록 지원한다.

EC2 캐퍼시티 블록을 통해 EC2에서 머신러닝을 훈련하는 데 최고 성능을 제공하는 EC2 P5 인스턴스를 예측 가능하도록 쉽게 이용할 수 있다. 또한 이를 통해 단 몇 번의 클릭만으로 GPU 인스턴스를 확보하고 자신 있게 머신러닝 개발을 계획할 수 있다. EC2 캐퍼시티 블록이 예약되면, 고객은 필요할 때 GPU 용량을 확보할 수 있다는 것을 알고 확실하게 머신러닝 워크로드 배포를 계획할 수 있다.

더불어 EC2 캐퍼시티 블록은 머신러닝 모델을 훈련하고 미세 조정과 짧은 실험, 향후 머신러닝 애플리케이션에 대한 수요 급증에 대비하기 위해 용량 보장이 필요할 때 사용될 수 있다. 또는 비즈니스 핵심 애플리케이션, 규제 요구 사항 또는 재해 복구 등 컴퓨팅 용량 보장이 필요한 다른 모든 워크로드 유형에 대해 온디맨드 용량 예약(On-Demand Capacity Reservations)을 계속 사용할 수 있다.

AWS의 컴퓨팅과 네트워킹 담당 부사장인 데이비드 브라운(David Brown)은 "AWS와 엔비디아는 확장 가능한 고성능 GPU 솔루션을 제공하기 위해 12년 이상 협력해 왔으며, 우리 고객들이 산업을 혁신하는 놀라운 생성형 AI 애플리케이션을 구축하는 것을 목격하고 있다"고 말했다.

이어 그는 "AWS는 자체 개발한 트레이니움(Trainium)과 인퍼런시아(Inferentia) 칩을 제공할 뿐만 아니라 클라우드에서 엔비디아 GPU 기반 컴퓨팅을 제공하는 데 있어 최고의 경험을 보유하고 있다"며, "아마존 EC2 캐퍼시티 블록을 통해 기업과 스타트업이 장기적인 자본 투자 없이도 예측 가능하게 엔비디아 GPU 용량을 확보해 생성형 AI 애플리케이션을 구축, 훈련과 배포할 수 있는 새로운 방법을 추가하고 있다"고 밝혔다.

또한 그는 "이는 AWS가 생성형 AI 기능에 대한 액세스를 확대하기 위해 혁신하고 있는 최신 방법 중 하나이다"라고 덧붙였다.

엔비디아 하이퍼스케일, HPC(Hyperscale and HPC) 담당 부사장인 이안 벅(Ian Buck)은 "전 세계 기업들이 비즈니스 혁신을 위해 생성형 AI를 도입하면서 가속 컴퓨팅에 대한 수요가 폭발적으로 증가하고 있다"며, "이제 전 세계 AI 기업들은 AWS의 새로운 머신러닝용 EC2 캐퍼시티 블록을 통해 한 번에 한 개의 서버가 아닌 AWS에서만 사용할 수 있는 전용 규모로 H100을 임대할 수 있다"고 말했다.

이어 그는 "이를 통해 대규모 언어 모델을 신속하고 비용 효율적으로 훈련하고 필요할 때 클라우드에서 추론을 실행할 수 있다"고 덧붙였다.

한편, 기업은 AWS 관리 콘솔(Management Console), AWS 커맨드 라인 인터페이스(Command Line interface) 또는 AWS SDK를 통해 사용 가능한 캐퍼시티 블록을 찾아 예약할 수 있다. 현재, EC2 캐퍼시티 블록(보기)은 AWS 미국 동부 오하이오 지역에서 사용할 수 있으며, 추가 AWS 지역과 로컬 영역에서 사용 예정이다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지