새로운 엔비디아의 A100 GPU, 3세대 NVLink, NVSwitch 완벽 지원... 싱글 4U 서버에서 5 PetaFLOPS AI 성능 제공

슈퍼마이크로 AS-2124GQ-NART 서버(사진:슈퍼마이크로, 편집:본지)
슈퍼마이크로 AS-2124GQ-NART 서버(사진:슈퍼마이크로, 편집:본지)

기업용 컴퓨팅, 스토리지, 네트워킹 솔루션과 그린 컴퓨팅 기술 분야의 글로벌 리더 슈퍼마이크로컴퓨터(Super Micro Compute)가 인공지능(AI) 딥 러닝 응용 프로그램을 위해 설계된 두 가지 새로운 시스템을 14일(현지시간) 발표했다.

이는 새로운 엔비디아 A100™ 텐서코어 GPU를 갖춘 3세대 엔비디아 HGX™ 기술을 활용함과 동시에, 슈퍼마이크로의 광범위한 1U, 2U, 4U, 10U GPU 서버 포트폴리오에서 새로운 엔비디아 A100 GPU를 완벽하게 지원한다. A100은 교육, 추론, HPC, 분석을 통합하는 최초의 탄력적(Elastic), 다중 인스턴스 GPU이다.

슈퍼마이크로의 새로운 2U 시스템은 HPC 및 AI 응용 프로그램을 위한 균형 잡힌 데이터 센터 플랫폼이다.

최대 성능을 위해 4개의 직접 연결 NVIDIA A100 텐서 코어 GPU가 장착된 NVIDIA HGX A100 4 GPU 보드 연결에 PCI-E 4.0을 사용하며, GPU-to-GPU 고속 연결에는NVIDIA NVLink™를 사용한다.

특히 이 고급 GPU 시스템은 1개의 PCI-E 4.0 x8 및 최대 4개의 PCI-E 4.0 x16 확장 슬롯을 지원한다. 또한 초당 최대 200Gb 대역폭까지 지원하는 InfiniBand™ HDR™과 같이, GPUDirect RDMA와 호환되는 고속 네트워크 카드 및 스토리지를 지원해 컴퓨팅, 네트워킹 및 스토리지 성능을 향상시켜 준다.

AI 및 머신러닝에 최적화된 슈퍼마이크로의 새로운 4U 시스템은 8개의 A100 텐서 코어 GPU를 지원한다. GPU가 8개인 4U 폼팩터는 처리 요구 사항이 늘어나서 규모를 확장하려는 고객에게 적합하다.

새로운 4U 시스템은 초당 최대 600GB의 GPU-to-GPU 대역폭에 대응하는 엔비디아NVSwitch™를 거쳐 8개의 A100 GPU가 모두 상호 연결되는 1개의 엔비디아 HGX A100 8 GPU 보드를 갖추고 있다.

또한 GPUDirect RDMA 고속 네트워크 카드용으로 8개의 확장 슬롯을 구비하고 있다. 이 시스템은 딥러닝에 이상적이기 때문에, 데이터 센터 고객은 해당 스케일업 플랫폼을 이용해 차세대 AI를 개발할 수 있다. 또한 10개의 x16 확장 슬롯을 지원해 데이터 사이언티스트의 생산성을 극대화할 수 있다.

고객은 슈퍼마이크로의 광범위한 1U, 2U, 4U, 10U 멀티-GPU 서버 포트폴리오에 새로운 NVIDIA A100 GPU 장착함으로써 상당한 성능 향상을 기대할 수 있다. 슈퍼마이크로의 새로운 A+ GPU 시스템은 PCI-E 스위치를 거치지 않고 CPU와 GPU를 PCI-E 4.0 x16 레인으로 직접 연결함으로써 지연 시간을 최소화하며, 최고 대역폭을 지원한다.

또한 최대 8개의 풀 하이트 더블 와이드(또는 싱글 와이드) GPU를 지원해 가속화 성능을 최대화한다. 이 시스템은 최대 100G의 고성능 네트워킹 연결을 포함해 다양한 용도로 최대 3개의 고성능 PCI-E 4.0 확장 슬롯을 지원한다. 이 외에 추가되는 AIOM 슬롯은 슈퍼마이크로 AIOM 카드 또는 OCP 3.0 메자닌 카드를 지원한다.

슈퍼마이크로는 엣지에서 보다 강화된 보안과 전례 없는 성능을 제공하기 위해 엣지 서버 포트폴리오에 새로운 EGX™ A100 구성을 추가할 계획이다. EGX A100 컨버지드 엑셀러레이터는 Mellanox SmartNIC와 새로운 NVIDIA Ampere 아키텍처로 구동되는 GPU를 결합해 기업이 엣지에서 보다 안전하게 AI를 실행할 수 있도록 지원한다.

엔비디아 총괄 이사 겸 가속화 컴퓨팅 담당 VP인 이안 벅(Ian Buck)은 "AI 모델이 정확한 대화형 AI, 딥 추천 시스템 및 개인화된 의약품과 같은 다음 단계의 과제에 도전함에 따라 폭발적으로 복잡해지고 있다”며, “슈퍼마이크로는 NVIDIA HGX A100 플랫폼을 새로운 서버에 구현함으로써 연구자들이 가장 복잡한 AI 네트워크를 전례 없는 속도로 훈련시킬 수 있는 강력한 성능과 엄청난 확장성을 고객에게 제공한다"고 밝혔다.

슈퍼마이크로의 CEO 겸 사장인 찰스 리앙(Charles Liang)은 "GPU 가속 컴퓨팅이 진화하고 지속적으로 데이터 센터를 혁신함에 따라, 슈퍼마이크로는 고객에게 최신 시스템 향상을 제공하고 GPU 활용을 최적화하면서 모든 규모에서 최대 가속을 달성할 수 있도록 지원한다”며, “이 새로운 시스템은 HPC, 데이터 분석, 딥러닝 학습 및 추론을 위한 모든 가속화된 워크로드의 성능을 크게 향상시킨다"고 덧붙였다.

한편, AI 시스템 기술의 선도기업인 슈퍼마이크로는 AI, 딥러닝, HPC 애플리케이션에 최고의 성능과 안정성을 제공하기 위해 멀티 GPU에 최적화된 방열 설계를 제공하고 있으며 1U, 2U, 4U, 10U 랙마운트 GPU 시스템, Utra, BigTwin™, GPU 지원 임베디드 시스템, 8U SuperBlade® 용 GPU 블레이드 모듈을 비롯해, 엣지에서 클라우드까지의 어플리케이션을 구동하는 업계에서 가장 광범위하고 심도 깊은 GPU 시스템 제품군을 제공한다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지