엔비디아 옴니버스 아바타(Omniverse Avatar)로 실시간 대화형 AI 비서 개발 지원

AI 옴니버스 아바타 플랫폼으로 구현된 젠슨황 아바타

9일(현지시간) 엔비디아 연례행사 'GTC 2021'에서 기조연설로 나선 젠슨 황(Jensen Huang) 엔비디아 창립자 겸 CEO가 대화형 AI 아바타를 생성하기 위한 기술 플랫폼인 엔비디아 옴니버스 아바타(Omniverse Avatar)를 발표했다.

옴니버스 아바타는 엔비디아의 음성 AI, 컴퓨터 비전, 자연어 이해, 추천 엔진 및 시뮬레이션 기술을 연결한다. 옴니버스 플랫폼에 생성된 아바타는 다양한 주제를 보고, 말하고, 대화하고, 언어의 의도를 자연스레 이해할 수 있는 레이 트레이싱 3D 그래픽이 포함된 대화형 캐릭터다.

옴니버스 아바타는 대부분의 산업 분야에 쉽게 맞춤화 할 수 있는 AI 비서 제작을 가능케 한다. 이는 식당 주문, 은행 거래, 개인 약속 및 예약 등 매일 수십억 건의 고객 서비스 상호작용을 통해 비즈니스 기회를 확대하고 고객 만족도를 높일 수 있도록 지원한다.(아래는 옴니버스 아바타 플랫폼으로 구현된 젠슨 황 아바타의 Q&A 시연 영상)

 

이날 젠슨 황 CEO는 “지능형 가상 비서의 시대가 다가왔다. 옴니버스 아바타는 엔비디아의 기본 그래픽, 시뮬레이션 및 AI 기술을 결합하여 지금까지 만들어진 가장 복잡한 실시간 애플리케이션을 만든다. 협동 로봇과 가상 비서의 사용 사례는 놀랍고 광범위하다”라고 말했다.

옴니버스 아바타는 현재 7만 명 이상의 사용자가 있는 오픈베타 버전의 3D 워크플로우용 가상세계 시뮬레이션 및 협업 플랫폼인 엔비디아 옴니버스의 일부다.

이번 GTC 기조 연설에서 젠슨 황은 고객 지원을 위한 기술인 옴니버스 아바타 프로젝트 토키오(Project Tokkio), 차량의 상시 작동 지능형 서비스인 엔비디아 드라이브 컨시어지(NVIDIA DRIVE Concierge) 및 화상 회의를 위한 서비스인 프로젝트 맥신(Project Maxine)의 다양한 예시를 공유했다.

프로젝트 토키오의 첫 번째 시연에서 장난감 모양을 한 젠슨 황의 아바타가 동료들과 생물학 및 기후 과학과 같은 주제로 실시간 대화에 참여하는 영상을 공개하기도 했다. 두 번째 시연에서는 야채 버거, 감자튀김, 음료를 주문하는 두 고객을 보고, 대화하고, 이해할 수 있는 레스토랑 키오스크의 고객 서비스 아바타를 선보였다.

이번 시연은 엔비디아 AI 소프트웨어와 현재 세계 최대의 맞춤형 언어모델인 메가트론 530B(Megatron 530B)로 구동되었다.

드라이브 컨시어지 AI 플랫폼의 시연 영상에서, 중앙 대시보드 화면의 디지털 비서는 운전자가 정시에 목적지에 도착하도록 최적의 주행모드를 선택할 수 있도록 도와주고, 차량의 주행거리가 100마일 아래로 떨어지면 미리 알림을 설정해 달라는 요청에 따르는 모습을 보였다.

이외에도 젠슨 황은 가상 협업과 콘텐츠 생성 애플리케이션에 최첨단 비디오와 오디오 기능을 추가하는 프로젝트 맥신을 공개했다. 시끄러운 카페에서도 배경 소음없이 선명하게 영상통화가 가능하고, 통화 목소리는 같은 억양으로 독일어, 프랑스어, 스페인어로 실시간 번역까지 된다.

옴니버스 아바타 핵심 요소는 음성 AI, 컴퓨터 비전, 자연어 이해, 추천 엔진, 얼굴 애니메이션 및 그래픽 기술을 사용한다.

음성 인식은 여러 언어의 음성을 인식하는 소프트웨어 개발툴인 엔비디아 리바(Riva)를 기반한다. 리바는 또한 텍스트-투-스피치(TTS) 기능을 사용하여 사람과 유사한 음성 응답을 생성하는 데 사용되기도 한다.

자연어 이해는 인간의 언어를 인식, 이해 및 생성할 수 있는 메가트론 530B 대규모 언어모델을 기반한다. 메가트론 530B는 훈련을 거의 또는 전혀 받지 않고도 문장을 완성하고, 많은 주제 영역의 질문에 답하고, 길고 복잡한 이야기를 요약하고, 다른 언어로 번역하고, 특별한 훈련 없이도 많은 영역을 처리할 수 있는 사전 훈련된 모델이다.

추천 엔진은 기업이 대량의 데이터를 처리할 수 있는 딥러닝 추천 시스템을 구축하여 보다 스마트한 제안을 할 수 있도록 하는 프레임워크인 엔비디아 멀린(Merlin)에서 제공한다.

인식기능은 비디오 분석을 위한 컴퓨터 비전 프레임워크인 엔비디아 메트로폴리스(Metropolis)에 의해 활성화된다.

아바타 애니메이션은 엔비디아 비디오2페이스(Video2Face) 및 오디오2페이스(Audio2Face)와 2D 및 3D AI에 기반한 얼굴 애니메이션 및 렌더링 기술로 구동된다.

이러한 기술은 애플리케이션으로 구성되고 엔비디아 통합 컴퓨팅 프레임워크(Unified Compute Framework)를 사용하여 실시간으로 처리된다. 확장 가능 및 사용자 지정이 가능한 마이크로서비스와 제공되는 이 기술은 엔비디아 플릿커맨드(Fleet Command)를 통해 어느 장소에서도 안전하게 배포, 관리 및 이용할 수 있다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지