v컴퓨트서버(vComputeServer)를 VM웨어 v스피어(VMware vSphere)와 AWS에서 VM웨어 클라우드에 도입하기 위해 VM웨어와 협력...

이 핵심 vGPU 기술은 새로운 것은 아니지만, 서버 가상화를 지원하게 되었기 때문에, v스피어와 같은 환경에서 새로운 v컴퓨트서버 기술을 사용하여 하드웨어 가속 AI와 데이터 과학 관련 처리를 수행 할 수 있게된다.

엔비디아는 VM웨어와의 파트너십을 통해 해당 아키텍처는 고객 데이터 센터와 VM웨어 클라우드 온 AWS(VMware Cloud on AWS) 사이에서 AI 워크로드를 원할하게 마이그레이션할 수 있도록 돕는다(사진:엔비디아블로그 캡처)

26일(현지시각) 엔비디아가 NGC 컨테이너가 포함된 엔비디아 v컴퓨트서버(vComputeServer)를 VM웨어 v스피어(VMware vSphere)와 AWS에서 VM웨어 클라우드에 도입하기 위해 VM웨어와 협력하고 있다며, 인공지능(AI), 딥러닝 및 데이터 사이언스를 위한 서버 가상화를 지원한다고 밝혔다.

엔비디아의 가상 GPU(virtual GPU, vGPU) 기술은 이미 가상 클라이언트 컴퓨팅(virtual client computing) 분야를 혁신한 바 있다. 이 핵심 vGPU 기술은 새로운 것은 아니지만, 서버 가상화를 지원하게 되었기 때문에, v스피어와 같은 환경에서 새로운 v컴퓨트서버 기술을 사용하여 하드웨어 가속 AI와 데이터 과학 관련 처리를 수행 할 수 있게 된다.

과거에 CPU 전용으로 제한됐던 AI 워크로드는 이제 새로운 v컴퓨트서버 소프트웨어와 엔비디아 NGC를 통해 VM웨어 v스피어(VMware vSphere)와 같은 가상화된 환경에서 쉽게 구축될 수 있으며, VM웨어와의 파트너십을 통해 해당 아키텍처는 고객 데이터 센터와 VM웨어 클라우드 온 AWS(VMware Cloud on AWS) 사이에서 AI 워크로드를 원할하게 마이그레이션할 수 있도록 돕는다.

v컴퓨트서버는 데이터 센터 관리자에게 가상화된 환경의 GPU 서버에서 AI 워크로드를 실행해 보안, 활용, 관리 효율성을 향상시킬 수 있는 옵션을 제공한다. IT 관리자는 v센터(vCenter)와 v모션(vMotion)을 포함한 VM웨어 v스피어와 같은 하이퍼바이저(hypervisor) 가상화 툴을 사용해 엔비디아 GPU에서 실행되는 AI 애플리케이션을 포함한 모든 데이터 센터 애플리케이션을 관리할 수 있다.

많은 회사들이 데이터 센터에 GPU를 구축하지만 AI 훈련과 인퍼런싱과 같은 GPU 가속 워크로드는 베어 메탈에서 실행된다. 이러한 GPU 서버는 종종 분리되어 별도로 관리되어야 하며, 활용도와 유연성을 제한한다.

v컴퓨트서버를 사용하면 IT 관리자는 기존의 워크 플로우를 유지하는 동시에 전반적인 운영 비용을 줄이면서 GPU 가속 가상화 서버 관리를 보다 효율적으로 할 수 있다. 4개의 엔비디아 V100 GPU가 장착된 v컴퓨트서버는 CPU 전용 서버 대비 딥 러닝을 50배 빠르게 가속화해 베어 메탈에 가까운 성능을 제공한다.

이번 발표를 통해 엔비디아는 레드햇(Red Hat)과 뉴타닉스(Nutanix)를 포함한 KVM 기반 하이퍼바이저에 대한 기존 지원은 물론 VM웨어 v스피어에 대한 지원을 제공한다. 이를 통해 관리자는 GPU 클러스터에 대해 데이터 센터에서 사용했던 동일한 관리 도구를 사용할 수 있다.

엔비디아, v컴퓨트서버로 GPU 가상화 지원
엔비디아, v컴퓨트서버로 GPU 가상화 지원

또한 엔비디아는 v컴퓨트서버로 vGPU 포트폴리오를 확장하면서 데이터 분석, 머신러닝, AI, 딥러닝, 고성능 컴퓨팅(HPC) 등과 기타 서버 워크로드에 대한 지원을 추가하기로 했다. vGPU 포트폴리오에는 지식 근로자(knowledge workers)를 위한 엔비디아 그리드가상 PC(GRID Virtual PC) 및 그리드 가상 애플리케이션(GRID Virtual Apps), 전문가용 그래픽을 위한 쿼드로 가상 데이터센터 워크스테이션(Quadro Virtual Data Center Workstation)와 같은 가상 데스크톱 제품도 포함된다.

엔비디아 v컴퓨트서버는 GPU 공유와 같은 기능을 제공해 단일 GPU와 GPU 어그리게이션(aggregation)으로 하나 이상의 GPU로 가상 머신에 전원을 공급할 수 있다. 그 결과 활용도와 경제성이 극대화된다. v컴퓨트서버의 주요 기능으로는 CPU 전용 대비 최대 50배 빠른 딥 러닝 훈련을 하며 베어 메탈에서 GPU를 실행하는 것과 비슷한 성능 제공하며, 오류 수정 코드와 동적 페이지 폐기(dynamic page retirement)로 고정밀 워크로드의 데이터 손상을 방지한다.

또한 운영 중단이나 다운타임을 최소화하면서 GPU 지원 가상 머신을 마이그레이션 할 수 있으며, 기업은 서버 가상화의 보안 이점을 GPU 클러스터로 확장할 수 있다. 멀티 테넌트(Multi-tenant) 격리기능으로 단일 인프라에서 여러 사용자를 안전하게 지원하기 위해 워크로드를 격리할 수 있으며, 관리자는 동일한 하이퍼바이저 가상화 도구를 사용해 호스트, 가상 머신 및 애플리케이션 수준에서 가시성을 확보해 GPU 서버를 관리할 수 있다. 지원되는 GPU는 v컴퓨트서버는 엔비디아 T4 혹은 V100 GPU와 쿼드로(Quadro) RTX 8000 및 6000 GPU와 이전 세대의 파스칼 아키텍처(Pascal-architecture) P40, P100, P60 GPU에서 지원된다.

특히 딥러닝, 머신러닝 및 고성능 컴퓨팅을 위한 GPU 최적화 소프트웨어 허브인 엔비디아 NGC는 쿠다(CUDA) 가속 데이터 사이언스 소프트웨어인 레피즈(RAPIDS)를 포함해 개념에서 생산까지 AI를 가속화할 수 있는 150개 이상의 컨테이너, 사전 훈련된 모델, 훈련 스크립트와 워크플로우를 제공한다. 레피즈는 데이터 로딩, ETL, 모델 훈련과 인퍼런싱을 포함한 전체 데이터 사이언스 파이프라인을 가속화할 수 있는 광범위한 오픈 소스 라이브러리를 제공한다. 이는 데이터 사이언티스들이 작업을 더 빨리 끝낼 수 있게 하고 이들이 만들 수 있는 모델 종류를 크게 확장하게 한다.

아울러 모든 NGC 소프트웨어는 v컴퓨트서버가 포함된 VM웨어 v스피어와 같은 가상화된 환경에서 구축될 수 있다. IT 관리자는 VM웨어 v스피어와 같은 하이퍼바이저 가상화 도구를 사용해 엔비디아 GPU에서 실행되는 모든 가상화 머신의 NGC 컨테이너를 관리할 수 있으며, 유효성이 검증된 NGC-레디(NGC-Ready) 서버를 통해 GPU 서버를 보다 빠르게 생산할 수 있도록 돕는다. 엔터프라이즈급 지원을 통해 사용자와 관리자는 엔비디아의 NGC 소프트웨어 전문가에 직접 액세스해 위험을 최소화하고 생산을 향상시킬 수 있다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지