인텔 2023 개발자 툴에는 oneAPI로 구동되는 CPU, GPU, FPGA를 위한 고성능 멀티 아키텍처 애플리케이션을 구축하기 위한 최신 컴파일러, 라이브러리, 분석 및 포팅 도구, 최적화된 AI 및 ML 프레임워크 포함..

로고 이미지
로고 이미지

인텔이 신규 인텔 oneAPI 2023 툴을 공개했다. 신규 oneAPI 2023 툴은 4세대 인텔 제온 스케일러블 프로세서는 물론 인텔 제온 CPU 맥스 시리즈, 플렉스 시리즈 및 신규 맥스 시리즈를 포함한 인텔 데이터 센터 GPU를 지원한다.

인텔 oneAPI 2023은 향상된 성능과 생산성을 제공하며, 개발자들이 비(非)인텔 GPU 아키텍처를 위한 SYCL 코드를 쉽게 작성할 수 있도록 신규 코드플레이(Codeplay) 플러그인을 지원한다.

인텔은 신규 표준 기반 툴을 통해 사용자가 하드웨어를 선택할 수 있도록 선택지를 제공하며, 멀티 아키텍처 시스템에서 실행되는 고성능 애플리케이션을 쉽게 개발할 수 있도록 지원한다.

티모시 윌리엄스(Timothy Williams) 아르곤 컴퓨테이셔널 사이언스 부문 차장은 “인텔 맥스 시리즈 GPU 가속기를 사용하는 개발 시스템에서 초기 애플리케이션 성능이 향상되었다"며, "해당 애플리케이션은 인텔 oneAPI 컴파일러와 라이브러리를 바탕으로 개발된 애플리케이션이다"라고 말했다.

이어 "리더십 등급의 컴퓨테이셔널 사이언스의 경우 인텔 라이브러리에 의해 가속화된 SYCL 및 파이토치(PyTorch) 등 파이썬 AI 프레임워크와 같은 멀티벤더, 멀티아키텍처 프로그래밍 표준 기반 코드 이식성이 제공하는 혜택을 중요시한다"며, "해당 기술을 바탕으로 내년 오로라 시스템에서 최초의 과학적 발견을 달성하기를 기대한다”고 덧붙였다.

새롭게 공개하는 인텔 2023 개발자 툴에는 oneAPI로 구동되는 CPU, GPU, FPGA를 위한 고성능 멀티 아키텍처 애플리케이션을 구축하기 위한 최신 컴파일러, 라이브러리, 분석 및 포팅 도구, 최적화된 인공지능 및 머신러닝 프레임워크가 포함되어 있다. 개발자는 툴을 사용해 목표하는 성능을 빠르게 달성하고, 단일 코드베이스를 사용해 시간을 절약, 혁신에 더 많은 시간을 쏟을 수 있다.

신규 oneAPI 툴은 개발자가 인텔 어드밴스드 매트릭스 익스텐션(Intel® AMX), 인텔® 퀵 어시스턴트 테크놀로지(Intel® QAT), 인텔 AVX-512, bfloat16 등을 지원하는 4세대 인텔 제온 스케일러블 프로세서 및 인텔 CPU 맥스 시리즈 프로세서, 하드웨어 기반 AV1 인코더를 사용하는 플렉스 시리즈를 포함한 인텔 데이터 센터 GPU, 데이터 유형 유연성을 갖춘 맥스 시리즈 GPU, 인텔 Xe 매트릭스 익스텐션(Intel® XMX), 벡터 엔진, 인텔 Xe Link 및 기타 기능 등과 같은 인텔 하드웨어의 고급 기능을 활용할 수 있도록 지원한다.

MLPerf DeepCAM 딥러닝 추론 및 학습 성능 벤치마크에서 AMD 제품을 기준으로 엔비디아는 2.4배 높은 성능을, 인텔 oneAPI 딥 뉴럴 네트워크 라이브러리(oneDNN)2 기반 인텔 AMX를 사용한 인텔 제온 CPU 맥스는 3.6배 높은 성능을 달성했다.
MLPerf DeepCAM 딥러닝 추론 및 학습 성능 벤치마크에서 AMD 제품을 기준으로 엔비디아는 2.4배 높은 성능을, 인텔 oneAPI 딥 뉴럴 네트워크 라이브러리(oneDNN)2 기반 인텔 AMX를 사용한 인텔 제온 CPU 맥스는 3.6배 높은 성능을 달성했다.

고급 소프트웨어 성능은 인텔 포트란 컴파일러(Intel® Fortran Compiler)는 포트란2018 등 포트란 언어 표준을 지원하며, OpenMP GPU 지원을 확대해 표준 준수 애플리케이션 개발 속도 제고. 확장된 OpenMP 오프로드 기능을 갖춘 인텔 oneAPI 매스 커널 라이브러리(oneMKL)로 휴대성 향상. 인텔® oneAPI 딥 뉴럴 네트워크 라이브러리(oneDNN)는 인텔 AMX, 인텔 AVX-512, VNNI 및 bfloat16을 포함한 4세대 인텔 제온 및 인텔 맥스 CPU 프로세서의 고급 딥러닝 기능을 지원한다.

6개 맥스 시리즈 GPU에 오프로드되고 하나의 oneAPI 도구로 최적화된 인텔 제온 맥스 CPU 상에서 실행되는 대규모 원자 및 분자 병렬 시뮬레티어(LAMMPS) 워크로드 성능의 경우, 3세대 인텔 제온 혹은 AMD 밀란 대비 최대 16배 높은 성능을 기록했다.
6개 맥스 시리즈 GPU에 오프로드되고 하나의 oneAPI 도구로 최적화된 인텔 제온 맥스 CPU 상에서 실행되는 대규모 원자 및 분자 병렬 시뮬레티어(LAMMPS) 워크로드 성능의 경우, 3세대 인텔 제온 혹은 AMD 밀란 대비 최대 16배 높은 성능을 기록했다.

풍부한 SYCL 지원과 강력한 코드 마이그레이션 및 분석 도구는 개발자들이 멀티 아키텍처 시스템을 위한 코드를 더 쉽게 개발할 수 있도록 지원해 생산성을 향상한다.

인텔 oneAPI DPC++/C++ 컴파일러는 엔비디아 및 AMD GPU용 코드플레이(Codeplay) 소프트웨어의 신규 플러그인을 지원, SYCL 코드 작성을 간소화하고 이러한 프로세서 아키텍처 전반에서 코드 이식성을 확대한다. 이를 통해 플랫폼 간 생산성 향상을 위한 통합 툴이 포함된 통합 구축 환경을 제공한다. 인텔과 코드플레이는 엔비디아 GPU용 oneAPI 플러그인을 시작으로 제품을 우선 지원할 방침이다.

오픈소스 SYCLomatic을 기반으로 하는 인텔 DPC++ 호환성 도구에 100개 이상의 CUDA API가 추가되어 더욱 간편하게 CUDA에서 SYCL 코드 마이그레이션이 가능하다. 사용자는 인텔 VTune™ 프로파일러(Intel® VTune™ Profiler)를 통해 MPI 불균형을 식별할 수 있다.

인텔 어드바이저(Intel® Advisor)는 인텔 데이터 센터 GPU 맥스 시리즈에 자동 루프라인 분석 기능을 추가, 메모리, 캐시 또는 컴퓨팅 병목 현상과 원인을 식별하고 우선순위를 지정한다. CPU에서 GPU로 오프로드 시 데이터 전송 재사용 비용을 최적화하기 위한 실용적인 통찰력을 제공한다.

2023 oneAPI 및 AI 도구의 새로운 기능
2023 oneAPI 및 AI 도구의 새로운 기능

48%의 개발자가 두 종류 이상의 프로세서를 사용하는 이기종 시스템을 목표로 하고 있기 때문에, 실제 워크로드의 범위와 규모가 증가하는 문제를 해결하기 위해서는 보다 효율적인 멀티 아키텍처 프로그래밍이 필요하다.

개발자는 인텔의 표준 기반 멀티 아키텍처 도구를 사용하고 개방되고 통합된 프로그래밍 모델인 oneAPI를 사용해 CPU 및 가속기를 위한 하드웨어, 성능, 생산성 및 코드 이식성을 자유롭게 선택할 수 있다. CUDA와 같은 독점적 프로그래밍 모델을 위해 작성된 코드는 다른 하드웨어로의 이동성이 부족하며, 조직을 폐쇄적인 생태계에 가두는 고립된 개발 환경을 초래한다.

툴의 자세한 설명(보기)을 참고하면 된다. 이 툴은 인텔 디벨로퍼 클라우드(Intel Developer Cloud-보기) 및 공식 리테일 채널을 통해 제공한다.

한편, 새로운 센터 오브 엑셀런스가 다수 설립되며 생태계 내 oneAPI를 채택하는 비율이 증가하고 있다. 그 중 하나는 케임브리지 대학교의 오픈 제타스케일 랩(Open Zettascale Lab)으로, 중요한 엑사스케일 후보 코드를 CASTEP, FENiCS 및 AREPO를 포함한 OneAPI로 이식하는 것에 초점을 맞추고 있다.

해당 센터는 코드를 컴파일, 포팅, 및 성능 최적화를 위한 API 방법론과 도구를 교육하는 전문가와 함께 워크샵을 제공한다. 현재 총 30곳의 oneAPI 센터 오브 엑셀런스가 설립됐다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지