로고 편집:본지
로고 편집:본지

사용자가 인공지능(AI), 머신러닝 모델 및 데이터 세트를 공유할 수 있는 세계 최대 플랫폼이자 커뮤니티인 허깅 페이스(Hugging Face)는 인텔의 AI 하드웨어 가속기가 현재 시판 중인 어떤 GPU보다 빠르게 추론을 실행한다는 성능 결과를 지난달 28일 공유했다. 하바나 가우디2는 1,760억 개의 매개변수에서 엔비디아의 A100대비 20% 더 빠른 추론 성능을 보였다.

또한 가우디2 서버에서 인기 있는 컴퓨터 비전 워크로드를 실행할 때 동급 A100 기반 서버 대비 1.8배 높은 와트당 처리량을 보여, 뛰어난 전력효율성을 입증했다.

현재 챗GPT 등 생성 AI 툴은 업계 내 새로운 가능성을 제시해 기대감을 불러일으켰으나, 해당 모델이 요구하는 컴퓨팅으로 인해 기업들은 컴퓨팅 성능, 비용 및 에너지 효율성에 초점을 맞추고 있다.

생성 AI(generative AI) 모델의 규모가 커짐에 따라 데이터 전처리부터 학습 및 추론에 이르기까지 다양하고 복잡한 AI 워크로드 기능의 생산성을 높이는데 전력 효율성이 중요한 요소가 되었다. 개발자는 생성 AI를 포함한 모든 형태의 AI가 잠재력을 최대한 발휘할 수 있도록 유연하고 개방적이며 에너지 효율적이고 지속 가능한 솔루션으로 한 번 구축해 어디나 배포할 수 있어야 한다.

AI는 오랫동안 발전해 왔으나 앞으로 훨씬 더 많이 활용되어야 한다. 모든 사람이 AI를 사용할 수 있도록하는 AI 민주화와 지속 가능성을 위한 인텔의 노력은 개방형 생태계를 통해 생성형 AI를 비롯한 기술의 이점을 더 폭넓게 활용할 수 있도록 지원할 예정이다.

개발자는 개방형 생태계를 통해 널리 사용되는 오픈 소스 프레임워크, 라이브러리 및 툴에 대한 인텔의 최적화를 통해 어디서나 AI를 개발하고 배포할 수 있다. 인텔의 AI 하드웨어 가속기와 4세대 인텔 제온 스케일러블 프로세서에 내장된 가속기는 성능 및 와트당 성능 향상을 제공하여 생성 AI의 성능, 가격 및 지속 가능성 요구 사항을 충족시킨다.

사람이 만든 콘텐츠를 모방할 수 있는 생성 AI는 일상 생활의 여러 측면을 변화시킬 수 있는 놀라운 기회를 제공한다. 그러나 기술이 빠르게 진화함과 동시에 데이터 센터에서 성공적으로 AI를 활용하는데 있어 필수적인 컴퓨팅의 복잡성도 함께 노출하고 있다.

인텔은 모든 사람이 기술에 접근하고 기술을 쉽게 확장할 수 있도록 미래를 위해 많은 투자를 하고 있다. 인텔의 리더들은 신뢰, 투명성, 선택권을 기반으로 구축된 개방형AI 생태계를 지원하기 위해 업계 전반의 파트너와 활발하게 협력하고 있다.

뛰어난 성능의 오픈 소스 생성 AI 도입

생성형 AI는 GPT-3 및 DALL-E와 같은 언어 모델을 활용해 왔다. 다만, 인간처럼 대화할 수 있는 생성형 AI 챗봇인 챗GPT에 대한 관심이 증폭되면서, 기존 데이터 센터 아키텍처의 장애물에 대해 주목하게 됐다.

또한 인공지능의 잠재력을 최대한 발휘할 수 있는 하드웨어 및 소프트웨어 솔루션의 필요성이 커졌다. 개방형 접근 방식과 이기종 컴퓨팅에 기반한 생성형 AI는 최상의 솔루션을 보다 광범위하게 접근하고 비용 효율적으로 배포할 수 있도록 지원한다. 개방형 생태계는 개발자가 전력, 가격, 성능에 우선순위를 두면서 어디서나 AI를 구축하고 배포할 수 있도록 지원해 생성형 AI의 잠재력을 실현한다.

인텔은 복잡성을 제거하면서 인기 있는 오픈 소스 프레임워크, 라이브러리 및 툴을 최적화해 최고의 하드웨어 성능을 이끌어낼 수 있는 생성형AI를 지원하기 위해 노력하고 있다.

머신러닝을 위한 최고의 오픈소스 라이브러리인 허깅 페이스는 현재 시중에 나와 있는 어떤 GPU보다 인텔의 AI 하드웨어 가속기에서 더 빠른 추론이 가능하다는 테스트 결과를 공유했다.

모델 로고 이미지
모델 로고 이미지

지난달 13일 발표된 1,760억 개의 매개 변수(parameter)의 세계 최대의 개방형 트랜스포머 기반 다국어 모델 BLOOMZ 모델(논문, BLOOM: 176B 매개변수 개방 액세스 다국어 언어 모델-다운)에 대한 추론으로 인텔의 하바나 가우디2가 엔비디아 A100-80G보다 20% 더 빠르게 실행된다. BLOOMZ(모델 다운)는 46개 언어와 13개 프로그래밍 언어가 처리 가능하도록 설계됐으며 완벽히 투명하게 만들어졌다. 모델 훈련의 모든 리소스는 전 세계 연구자와 엔지니어가 사용할 수 있으며 문서화되어 있다.

70억 개라는 더 적은 매개 변수를 가진 BLOOMZ(BigScience Large Open-science Open-access) 모델을 실행할 경우, 가우디2는 A100-80G보다 3배 빠른 성능을 제공하며, 1세대 하바나 가우디는 A100-80G보다 가격 대비 성능 면에서 확실한 이점을 제공한다. 허깅 페이스 옵티멈 하바나 라이브러리를 사용할 시 가우디 가속기에서 최소한의 코드 변경으로 대규모 LLM을 간편하게 배포할 수 있다.

인텔 랩 연구원들은 가우디2와 최근 언어 모델에 대한 벤치마크로 제안된 LMentry를 활용해 제로 샷 설정에서 BLOOMZ를 평가했다. BLOOMZ의 정확도는 GPT-3와 유사하게 모델 크기에 따라 확장되며, 아래 그래픽에서 볼 수 있듯이 가장 큰 176B BLOOMZ 모델은 비슷한 크기의 GPT-3 모델보다 성능이 뛰어나다.

Habana Gaudi 가속기를 사용하여 100K LMentry 프롬프트에서 BLOOMZ 모델(최대 176B 매개변수)로 생성된 언어 출력을 자동으로 평가
Habana Gaudi 가속기를 사용하여 100K LMentry 프롬프트에서 BLOOMZ 모델(최대 176B 매개변수)로 생성된 언어 출력을 자동으로 평가

또한, 허깅 페이스는 첨단 텍스트-이미지 생성을 위한 또 다른 생성 AI 모델이자 널리 사용되는 DALL-E 이미지 생성기의 오픈 액세스 대안인 스테빌리티 AI(Stability AI)의 스테이블 디퓨전(Stable Diffusion)이 인텔 어드밴스드 매트릭스 익스텐션(Intel® AMX)이 내장된 4세대 인텔 제온 스케일러블 프로세서에 코드 변경 없이 평균 3.8배 더 빠르게 실행된다고 발표했다.

머신러닝을 위한 사용자 지정 형식인 Bfloat16과 함께 파이토치 인텔 익스텐션을 사용하면 자동 혼합 정밀도가 2배 더 빨라지고 지연 시간이 5초로 줄어들어 초기 기준선인 32초보다 거의 6.5배 더 빨라진다. 허깅 페이스 웹사이트에서 인텔 CPU(4세대 제온 프로세서)에서 실행되는 실험적인 안정적 확산 데모에서 직접 프롬프트를 사용해 볼 수 있다.

에마드 모스타크(Emad Mostaque) 스테빌리티 AI 설립자 겸 최고경영자(CEO)는 "스테빌리티에서는 모든 사람이 스스로 AI 기술을 구축할 수 있도록 지원하고자 한다"며 “인텔은 4세대 사파이어 래피즈 CPU부터 가우디와 같은 가속기에 이르기까지 이기종 제품에서 스테이블 확산 모델을 효율적으로 실행할 수 있도록 지원했으며, 따라서 AI의 대중화를 위한 훌륭한 파트너라고 생각한다. 차세대 언어, 비디오 및 코드 모델과 그 이후에도 협력할 수 있기를 기대한다"고 말했다.

오픈 비노(OpenVINO)는 스테이블 디퓨전 추론을 더욱 가속화한다. 4세대 제온 CPU와 결합하면 3세대 인텔 제온 스케일러블 CPU에 비해 약 2.7배의 속도가 향상된다. 인텔 아키텍처에서 엔드투엔드 파이프라인을 가속화하기 위해 오픈 비노가 지원하는 도구인 옵티멈 인텔(Optimum Intel)은 평균 지연 시간을 추가 3.5배, 전체 약 10배까지 줄일 수 있다.

(참고: 아래는 '인텔과 허깅페이스는 함께 생성형 AI 컴퓨팅 챌린지에 도전' 발표 영상으로 카비타 프라사드(Kavitha Prasad) 인텔 부사장 겸 데이터센터, AI, 클라우드 실행 및 전략 총괄과 라마 나흐만 인텔 펠로우 겸 예측컴퓨팅연구소 디렉터, 제프 부디어 허깅 페이스 제품 디렉터, 다니엘 뉴먼 업계 분석가와 함께 생성형 AI가 전 세계 컴퓨팅 수요에 미치는 영향, 개방형 생태계가 중요한 이유, 최신 AI 개발에서 윤리의 역할에 대해 어떻게 생각해야 하는지에 대해 토론하고 있다.)

<챕터: 챗GPT란 무엇인가– 1:14, 생성형 AI컴퓨팅 챌런지 해결 방안– 3:58, 개방형 생태계의 중요성– 6:42, 대규모 모델의 컴퓨팅 수요 증가 주도– 8:51, AI의 윤리적 의미– 15:38, 허깅 페이스로 AI민주화– 20:18, 개방형 생태계를 통한 AI 투명성– 27:36, 한 번 개발로 어디서든 배포– 30:40>

가격, 성능 및 효율성 문제 해결

더불어, 더 나은 성능에 대한 요구를 충족하면서 전력 사용량을 줄여야 하는 중요한 과제를 해결하기 위해서는 보다 지속 가능한 솔루션을 쉽게 이용할 수 있어야 한다. 개방형 생태계는 발전을 제한하는 장애물을 제거해 개발자 작업에 가장 적합한 하드웨어 및 소프트웨어 도구로 혁신할 수 있도록 지원한다.

1세대 가우디와 동일한 고효율 아키텍처를 기반으로 구축되어 가우디2는 AWS 클라우드의 동급 엔비디아 기반 인스턴스보다 최대 40% 더 나은 가격 대비 성능을 제공하며 대규모 워크로드에 새로운 차원의 성능과 효율성을 제공한다.

또한 AI 워크로드를 실행할 때 전력 효율성도 입증했다. 슈퍼마이크로 가우디2 서버와 슈퍼마이크로 엔비디아 A100 서버 간의 전력 소비량 평가에서 가우디2는 인기 있는 컴퓨터 비전 워크로드를 실행할 때 A100 서버보다 와트당 처리량에서 1.8배의 우위를 보였다.1

대규모 AI 워크로드에는 전력 효율성을 높여주는 유연한 개방형 솔루션과 함께 한번 구축된 모델을 어디서나 배포할 수 있는 접근 방식을 필요로 한다. 4세대 제온 프로세서는 인텔에서 가장 지속 가능한 데이터센터 프로세서로, 에너지 효율성과 전력 절감을 향상시킨다.

인텔 AMX와 같은 내장형 가속기를 사용하면 광범위한 AI 워크로드 및 사용 사례에서 추론 및 학습 성능을 10배 향상3시킬 수 있으며, 인텔의 이전 세대 대비 와트당 성능을 최대 14배까지 향상시킬 수 있다.

윤리적 AI의 미래 지원

생성형 AI는 인간의 능력을 지원하고 증폭하는 강력한 도구이지만, 이러한 시스템의 개발과 배포는 인간 중심의 접근 방식에서 비롯됐다. 시스템이 윤리적 문제없이 잠재력을 최대한 발휘하려면 책임감 있는 AI 거버넌스가 필요하다. AI의 윤리를 보호하는 가장 좋은 방법은 학습 및 데이터 세트 전반에서 투명성을 촉진하는 개방형 생태계를 이용하는 것이다.

투명한 AI 공급망은 AI가 책임감 있게 개발되도록 보장하고 공급망의 윤리적 부채를 줄여준다. 이러한 투명성을 통해 개발자는 데이터 세트와 모델의 적합성을 평가하고, 결과를 복제하고, 사용 컨텍스트에 대한 윤리적 우려 사항을 파악할 수 있다.

생성 AI는 더 큰 AI 모자이크의 한 조각이다. AI의 대중화를 위한 인텔의 접근 방식은 하드웨어의 고유한 강점, 개방형 에코시스템 지원, 미래를 위한 적절한 투자를 결합하여 생성형 AI를 포함한 모든 형태의 AI에 대한 컴퓨팅 요구를 충족하고 있다.

모든 사람들이 손쉽게 컴퓨팅 및 도구를 사용할 수 있도록 지원하기 위한 인텔의 접근 방식은 대규모 언어 모델 구축에 대한 접근을 가능하게 하여 비용을 절감하고 형평성을 개선한다. 예를 들어, 인텔은 루게릭병 환자들이 보다 효과적으로 의사소통할 수 있도록 LLM을 맞춤화하는 데 주력하고 있다.

개발자 커뮤니티에서 해당 모델을 각자의 용도에 맞게 조정할 수 있도록 지원하면 도움이 필요한 사람들이 손쉽게 접근할 수 있다.

AI는 먼 길을 걸어왔지만 앞으로 훨씬 더 전진할 필요가 있다. 인텔은 신뢰를 바탕으로, 선택권을 제공하며, 업계 전반의 상호 운용성을 보장하기 위해 개방형 생태계를 지속적으로 개발하고 있다. 또한 다학제적 접근 방식을 사용하여 에너지 효율적인 솔루션을 제공하고 인간-AI 협업을 통해 AI로 인간의 잠재력을 증폭하는데 주력하고 있다. 개방적인 접근 방식이 최선의 길이다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지