클라우드에서 데이터 센터, 임베디드 에지 장치에 이르기까지 모든 환경에서 실시간 초고속으로 추론을 구현

다양한 애플리케이션에 보다 높은 성능을 갖춘 인공지능(AI) 및 딥러닝 모델을 개발할 수 있게 됐다.

매스웍스(MathWorks)는 GPU 코더(GPU Coder)를 통해 매트랩(MATLAB)과 엔비디아 텐서RT(TensorRT)를 통합한다고 27일(현지시각) 발표했다. 양사의 협력으로 엔지니어 및 과학자들은 매트랩에서 딥러닝 응용 프로그램의 배포를 위한 고성능 뉴럴 네트워크 추론 엔진, 하이퍼스케일 데이터센터, 임베디드, 자율주행 플랫폼, 로봇 등에 훈련된 신경망을 빠르게 검증, 배포하고 각 산업에서 요구하는 다양한 애플리케이션에 보다 높은 성능을 갖춘 인공지능(AI) 및 딥러닝 모델을 개발할 수 있게 됐다.

또한 매트랩은 이미지 및 음성 인식, 자연어 처리, 동영상 및 비주얼 검색 및 맞춤 제안 등 프레임워크 전반에서 초고속으로 추론을 구현해 효율적인 제품 및 서비스를 개발할 수 있으며, 딥러닝 모델을 신속하게 학습, 검증 및 배포하기 위한 완전한 워크플로우를 제공한다. 또한 함수와 툴을 사용하여 중간 결과를 시각화하고 딥러닝 모델을 디버그(debug)할 수 있으며, 엔지니어 및 일반 개발자도 추가 프로그래밍 없이 GPU 리소스를 사용할 수 있으므로 성능 튜닝보다는 응용 프로그램 개발에 더욱 집중할 수 있게 된 것이다.

매스웍스 데이비드 리치(David Rich) 이사는 “이미지, 스피치, 센서 및 사물인터넷(IoT) 기술이 빠르게 발전함에 따라, 개발팀은 향상된 성능 및 효율성을 제공하는 AI 솔루션을 모색하고 있다. 뿐만 아니라, 딥러닝 모델의 복잡성이 점차 증가하고 있어, 엔지니어에게 엄청난 압박으로 작용한다.”라며, “이번 매스웍스와 엔비디아의 기술 통합으로 개발팀은 매트랩 및 엔비디아 GPU를 이용해 딥러닝 모델을 학습시킴으로써 클라우드에서 데이터 센터 및 임베디드 디바이스에 이르는 모든 환경에 걸쳐 실시간 예측을 구현할 수 있을 것으로 기대된다.”라고 말했다.

한편 엔비디아 텐서RT와 GPU 코더의 통합은 매트랩에서 개발된 딥러닝 모델이 높은 처리량 및 낮은 지연 시간으로 주요 프레임 워크에서 숙련된 모델을 추론하는 동안 CPU보다 최대 100 배 빠르게 엔비디아 GPU에서 실행될 수 있도록 있도록 한다. 또 텐서플로우(TensorFlow)와 비교해, 매트랩에서 생성된 쿠다(CUDA) 코드는 텐서RT와 결합돼 딥러닝 예측에 있어 5배 향상된 성능으로 알렉스넷(Alexnet)을 배포하고, 1.25배 향상된 성능으로 VGG-16을 배포할 수 있다.

참고) 모든 벤치마크는 매트랩 R2018a에서 GPU 코더, 텐서RT 3.0.1, 텐서플로우 1.6.0, 쿠다 9.0 및 cuDNN 7, 엔비디아 타이탄 Xp(NVIDIA Titan Xp) GPU, 리눅스(Linux) 12 코어(Core) 인텔 ®(Intel ®) 제온®(Xeon®) E5-1650 v3 PC, 64GB RAM과 함께 실행됐다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지