엔비디아, 젯슨TX 대비 2배 향상된 딥러닝 구현, 제트팩 3.1 발표
엔비디아, 젯슨TX 대비 2배 향상된 딥러닝 구현, 제트팩 3.1 발표
  • 최광민 기자
  • 승인 2017.07.25 15:22
  • 댓글 0
이 기사를 공유합니다

내비게이션 및 모션 컨트롤과 같은 실시간 애플리케이션에서 딥러닝 성능을 최대 2배 가량 향상시킨다.
이미지:엔비디아

엔비디아(한국대표 이용덕)가 젯슨 TX1 및 TX2용 리눅스(Linux) 기반 소프트웨어 제품군인 '제트팩(JetPack) 3.1'을 25일 공개했다.

텐서RT(TensorRT) 2.1 및 cuDNN 6.0으로 업그레이드된 제트팩 3.1은 가속화된 배치 사이즈 1을 활용할 수 있는 비전 가이드 내비게이션 및 모션 컨트롤과 같은 실시간 애플리케이션에서 딥 러닝 성능을 최대 2배 가량 향상시킨다. 

제트팩 3.1의 개선된 기능은 젯슨이 배포할 수 있는 인텔리전스 수준을 이전보다 비약적으로 향상시켜, 배달 로봇, 원격현실감(telepresence), 동영상 분석 등 새로운 세대의 자동화 기계(autonomous machines) 구현이 가능해질 전망이다.

최근 엔비디아는 로봇공학의 발전을 촉진하기 위해 첨단 인공지능의 트레이닝 및 실전 배포용 올인원 플랫폼인 아이작 이니셔티브(Isaac Initiative)를 공개한 바 있으며, 올해 초 엔비디아가 발표한 엣지 컴퓨팅용 플랫폼인 젯슨 TX2(Jetson TX2)는 기능 면에서 상당한 발전을 달성한 것이다.

젯슨 TX2 플랫폼(사진:엔비디아)

네트워크 엣지에 위치한 원격 사물인터넷(IoT) 장치에서는 종종 네트워크 범위(network coverage), 지연율(latency) 및 대역폭(bandwidth)이 저하되는 현상이 발생한다. 보통 사물인터넷 장치가 데이터를 클라우드로 중계하는 게이트웨이 역할을 하는 것에 비해, 엣지 컴퓨팅은 보안이 적용된 온보드 연산 리소스에 접근하기 때문에 사물인터넷의 가능성을 새롭게 정의할 수 있다. 

엔비디아의 젯슨 임베디드 모듈은 초당 1테라플롭(TELOP)의 서버급 성능을 구현하며, 젯슨 TX2에서는 10와트 미만의 전력에서 2배의 인공지능 성능을 전달한다. 이번 테그라(Tegra)용 리눅스(L4T) R28이 포함된 제트팩 3.1은 장기적인 지원을 제공하는 젯슨 TX1 및 TX2용 소프트웨어 제품군으로 TX1 및 TX2용 L4T 보드 지원 패키지(BSPs)는 고객 제품화에 적합하다.

공유된 리눅스 커널 4.4 코드 기반 두 제품 간의 호환성 및 원활한 포팅을 제공한다. 제트팩 3.1부터 개발자들은 TX1과 TX2에서 전부 동일한 라이브러리, API 및 도구 버전을 이용할 수 있으며, cuDNN 5.1에서 6.0으로 업그레이드 및 CUDA 8로 유지보수 업데이트가 이루어진 것 외에도, 제트팩 3.1에는 스트리밍 애플리케이션 구축을 위한 최신 비전 및 멀티미디어 API가 포함되어 있다. 호스트 PC로 제트팩 3.1을 다운로드하면 젯슨에 최신 BSP 및 도구를 적용할 수 있다.

아울러 최신 버전의 텐서RT가 포함된 제트팩 3.1은 젯슨에 최적화된 런타임 딥 러닝 추론을 배포할 수 있다. 텐서RT는 네트워크 그래프 최적화, 커널 퓨전, 반정밀도 FP16을 지원함으로써 추론 성능을 향상시킨다. 텐서RT 2.1에는 멀티 가중치 배칭 등 젯슨 TX1 및 TX2의 딥 러닝 성능과 효율성은 대폭 향상시키고 지연율은 감소시키는 핵심 기능 및 기능 개선이 포함되어 있다.

배치 사이즈 1의 현격히 개선된 성능은 GoogLeNet의 지연율을 5ms로 감소시킨다. 지연율에 민감한 애플리케이션의 경우, 각 프레임이 시스템에 도착하는 즉시 처리되기 때문에 배치 사이즈 1은 가장 낮은 지연율을 제공하게 된다. 텐서RT 2.1은 GoogLeNet 및 ResNet 이미지 인식 추론을 위한 처리량에 있어서 텐서RT 1.0 대비 2배 이상을 달성할 수 있다.

표 설명, 젯슨 TX2 Max-Q 및 Max-P 전력 프로파일을 이용한 GoogLeNet 및 ResNet 50의 추론 처리량. 텐서RT 2.1은 GoogLeNet 및 ResNet에서 텐서RT 1.0 대비 2배 많은 추론 처리량을 기록

텐서RT 2를 적용하면, 젯슨 TX2는 Max-P 성능 프로파일에서 GoogLeNet의 지연율이 5ms를, Max-Q 효율성 프로파일에서는 지연율이 7ms를 기록하게 되며, ResNet은 보통 이미지 분류에서 텐서RT 2.1을 통해 2배 이상 개선된 런타임 성능을 구현하는 GoogLeNet를 능가하는 정확도 향상을 위해 사용된다. 

텐서RT 1.0과 텐서RT 2.1을 비교한 젯슨 TX2 딥 러닝 추론 지연율 측정값

또한 젯슨 TX2의 8GB 메모리 용량 덕분에, ResNet과 같은 복잡한 네트워크에서조차 최대128까지 대형 배치 사이즈 실행이 가능하다. 이처럼 지연율이 감소되면, 고속 드론, 선박의 충돌 방지, 자동화 내비게이션 등 실시간에 가까운 반응성을 요구하는 애플리케이션에서도 딥 러닝 추론 접근 방식이 활용될 수 있다.

텐서RT 2.1은 사용자 플러그인 API를 통해 맞춤형 네트워크 레이어를 지원, ResNet, 리커런트 뉴럴 네트워크(RNN), You Only Look Once(YOLO) 및 Faster-RCNN 등 확장된 지원을 제공하는 첨단 네트워크 및 기능을 구동할 수 있다.

사용자는 코드를 통해 사용자 정의 ‘IPlugin’으로 고유한 공유 객체를 구성할 수 있으며, CUDA 커널을 이용한 맞춤형 프로세싱을 적용할 수 있으며, 텐서RT 2.1은 이 기능을 이용해 객체 감지 강화를 위한Faster-RCNN 플러그인을 구현할 수 있다. 

뿐만 아니라, 텐서RT는 LSTM(Long Short Term Memory) 유닛을 위한 새로운 RNN 레이어와 시계열 시퀀스의 메모리 기반 인식 향상을 위한 GRU(Gated Recurrent Unit)을 제공하며, 이처럼 강력하고 새로운 레이어 유형들을 통해 임베디드 엣지 애플리케이션에서 첨단 딥 러닝 애플리케이션을 배포하는 작업을 가속화할 수 있다.

엔비디아 아이작 로봇 시뮬레이터는 고도로 현실적인 시뮬레이션 상황에서 로봇 트레이닝을 진행할 수 있다.(사진 엔비디아)

최근 엣지에서의 인공지능 역량이 빠르게 증가하면서, 엔비디아는 로봇공학 및 인공지능 분야에서 최첨단 기술을 선도하기 위한 아이작 이니셔티브를 도입한 바 있다. 아이작은 시뮬레이션, 자율 내비게이션 스택, 배포용 임베디드 젯슨 등 인텔리전트 시스템의 개발 및 구축을 위한 엔드-투-엔드 로봇기술 플랫폼이다.

자율 인공지능 개발을 위해 시작된 아이작은 로보틱스 레퍼런스 플랫폼(Robotic Reference Platform)들을 지원한다. 이러한 젯슨 기반 플랫폼으로는 드론, 무인육상차량(UGV), 무인선박(USV) 및 인간지원로봇(HSR) 등이 있다. 레퍼런스 플랫폼은 실전에서 실험이 가능한 젯슨 기반의 기본 기술을 제공하며, 아이작 프로그램은 앞으로 새로운 플랫폼 및 로봇을 포함하는 방향으로 확대될 예정이라고 한다.

인공지능 연구 및 개발을 위한 젯슨이 탑재된 로보틱스 레퍼런스 플랫폼

한편 인공지능 배포를 시작하려면 제트팩 3.1에는 cuDNN 6 및 텐서RT 2.1이 구성되어 있다. 젯슨 TX1 및 젯슨 TX2용 모두 엔비디아 공식 개발자 페이지(https://developer.nvidia.com/embedded/jetpack)를 통해 이용 가능하다. 싱글 배치 추론의 저지연 성능이 2배 가량 향상되고, 맞춤형 레이어 등 새로운 네트워크를 지원하는 젯슨 플랫폼은 엣지 컴퓨팅에 가장 최적화되어 있다. 

엔비디아 개발자 페이지를 통해 인공지능 개발을 시작하는 입문자들은 이미지 인식, 객체 감지 및 세분화 등 딥 러닝 비전 기초요소의 트레이닝 및 배포를 주제로 한 Two Days to a Demo 시리즈를 참고할 수 있다. 제트팩 3.1을 이용하면 이와 같은 딥 비전 기초요소의 성능을 상당히 개선시킬 수 있다.

 

참고) JetPack 3.1 릴리스 정보 및 다운받기(바로가기)


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.