5엑사플롭스급 AI 성능을 제공... 매개 변수가 수조 개가 넘는 AI 모델을 훈련하는 것을 목표로

이미지:메타
이미지:메타

메타(Meta. 구 페이스북)가 24일(현지시간) 현재, 실행되는 세계에서 가장 빠른 인공지능 슈퍼컴퓨터 중 하나인 '인공지능 연구슈퍼클러스터(AI Research SuperCluster. 이하, RSC)'를 구축했다고 밝혔다.

메타 AI연구팀은 이미, RSC를 사용하여 자연어 처리(NLP) 및 컴퓨터 비전 연구를 위한 대형 모델을 훈련시키기 시작했으며, 하루에 수조 개의 매개 변수를 가진 모델을 훈련시키는 것을 목표로 5엑사플롭스(exaflops)급 AI 성능을 제공한다.

RSC는 메타의 AI 연구자들이 수조 개의 예제에서 배울 수있는 새롭고 우수한 AI 모델을 구축하고 수백 가지 언어로 작업하고, 텍스트, 이미지 및 비디오를 원활하게 분석하고, 새로운 증강 현실 도구를 개발하는 기반을 제공한다.

또한 컴퓨터 비전, NLP, 음성 인식 등을 위한 첨단 AI 개발에 필요한 가장 큰 모델을 훈련시킬 수 있을 것이며, 각각 다른 언어를 사용하는 많은 사람들에게 실시간 음성 번역을 제공하여 연구 프로젝트에서 원활하게 협력하거나 AR 게임을 함께 할 수 있는 완전히 새로운 AI 시스템을 구축하는 것이다.

메타는 궁극적으로 RSC로 수행되는 작업은 AI 기반 응용 프로그램 및 제품이 중요한 역할을하는 차세대 주요 컴퓨팅 플랫폼 인 메타버스(metaverse)를 위한 기술을 구축하는데 도움을 줄 것으로 기대하고 있다.

메타 RSC 전경
메타 RSC 전경

특히, 메타는 오픈소스 및 기타 공개적으로 사용 가능한 데이터 세트만을 활용한 이전의 AI 연구 인프라와 달리 RSC는 메타의 시스템의 실제 사례를 모델 교육에 포함시킴으로써 연구가 효과적으로 실행되도록 한다.

이렇게함으로써 메타는 플랫폼에서 유해한 콘텐츠를 식별하는 것과 같은 다운 스트림 작업을 수행하는 사전 연구뿐만 아니라 구현된 AI 및 멀티 모드 AI에 대한 연구를 통해 앱 제품군의 사용자 경험을 향상시킬 수 있다. 

메타는 대규모 성능 외에도 RSC의 핵심 기준으로 높은 신뢰성, 보안성, 프라이버시, 그리고 '광범위한 AI 모델'을 다룰 수 있는 유연성을 꼽았으며, 이러한 규모로 다루어 진 것은 이번이 처음이라고 밝혔다.

메타의 AI 슈퍼컴퓨팅 능력은 최첨단 엔비디아 시스템, 인피니밴드(InfiniBand) 패브릭 및 소프트웨어를 통해 수천 개의 GPU에서 최적화가 가능하며, 지금까지의 AI 연구 시스템 중 가장 강력할 것이라고 한다.

특히, 메타는 RSC가 올해 말 완전히 구축되면 이를 활용해 매개 변수가 수조 개가 넘는 AI 모델을 훈련하는 것을 목표로 하고 있다. 이는 실시간으로 유해한 내용을 파악하는 것과 같은 작업에 대한 자연어 처리와 같은 분야를 발전시킬 수 있다.

신형 AI 슈퍼컴퓨터는 현재 760개의 엔비디아 DGX A100 시스템을 컴퓨팅 노드로 사용하고 있다. 엔비디아 퀀텀(Quantum) 200Gb/s 인피니밴드 네트워크에 연결된 총 6,080개의 엔비디아 A100 GPU를 패키징해 1,895 페타플롭스(petaflops)급 TF32 성능을 제공한다.

RSC의 스토리지 계층에는 175 페타바이트의 퓨어스토리지(Pure Storage) 플래시어레이(FlashArray) , 46 페타바이트의 펭귄컴퓨팅 알투스(Penguin Computing Altus) 시스템 캐시 스토리지, 10 페타바이트의 퓨어스토리지 플래시블레이드(Pure Storage FlashBlade)가 있다.

올해 말 두 번째 단계에서 RSC는 메타가 5 엑사플롭스(exaflops)급의 엄청난 양의 혼합 정밀 AI 성능을 제공할 것으로 보고 있는 1만 6천개의 GPU로 확대할 예정이다. 또한 메타는 RSC의 스토리지 시스템을 확장해 초당 16 테라바이트의 속도로 최대 1엑사바이트의 데이터를 제공하는 것을 목표로 하고 있다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지