리바 커스텀 보이스는 많은 기업이 적은 양의 데이터를 사용해 몇 주가 아닌 몇 시간 내에 리바와 함께 표현 가능한 맞춤형 AI 음성을 개발할 수 있도록 한다.

단 하루 만에 30분 분량의 오디오 데이터로 인간과 유사한 맞춤형 음성을 만들 수 있는 음성 AI 소프트웨어 '리바 커스텀 보이스(Riva Custom Voice)'가 선보였다.

지난 9일부터 11일(현지시간)까지 개최된 엔비디아 연례행사 'GTC 2021'에서 선보인 엔비디아 리바 커스텀 보이스는 많은 기업이 적은 양의 데이터를 사용해 몇 주가 아닌 몇 시간 내에 리바와 함께 표현 가능한 맞춤형 음성을 개발할 수 있도록 한다.

리바 커스텀 보이스는 최신 버전의 엔비디아 리바 음성 AI 소프트웨어개발키트(SDK)에서 사용할 수 있다.

리바 SDK에는 세계 최고 수준의 자동 음성 인식 및 다양한 악센트와 도메인에 맞게 커스텀 가능한 텍스트-투-스피치 기능이 포함되어 있다. 또한, 클라우드, 데이터센터, 엣지에서 수십 만개의 스트림으로 음성 서비스를 확장할 수 있는 기능도 제공한다.

리바 개요

이를 통해 기업은 리바 커스텀 보이스를 사용해 고유한 음성을 가진 가상 비서를 개발할 수 있다. 컨택센터(콜센터)에서는 이를 이용해 고객에게 서비스를 제공할 수 있는 고유한 음성을 신속하게 개발할 수 있다.

특히, 이 플랫폼은 음성과 언어에 장애가 있는 사람들을 지원하기 위해 다양한 애플리케이션을 만드는데 활용할 수 있다.

엔비디아 AI 소프트웨어 담당 부사장인 카리 브리스키(Kari Briski)는 “AI가 인간과 같은 상호작용을 하도록 만드는 것이 가장 큰 과제였다”라며 “산업별 전문 용어를 사용하고 있는 회사들은 이제 음성 AI를 사용해 고객의 독특한 목소리를 듣고 대응할 수 있으며, 더 매력적이고 즐거운 상호작용을 이끌어 낼 수 있다”고 말했다.

엔비디아의 대화형 AI 소프트웨어는 3년도 채 되지 않아 25만 번 이상 다운로드 되고, 다양한 업계에서 널리 채택됐다.

엔비디아 리바는 소규모 연구 및 개발을 위해 엔비디아 NGC 컨테이너 레지스터리에서 무료(다운)로 제공된다. 개발자는 지금 리바 오픈베타 프로그램에 참여해 소프트웨어를 사용해보고 추가적인 기능에 대한 알림을 받을 수 있다.

엔비디아는 대규모 배포를 원하는 고객과 엔비디아 전문가의 기술 지원을 원하는 고객을 위해 엔비디아 리바 엔터프라이즈 프로그램을 발표했으며, 사용 사례에 맞게 사용자 지정되고 실시간 성능을 제공하는 음성 AI 애플리케이션을 구축하기 위한 GPU 가속 SDK는 내년 초에 제공될(보기) 예정이다.

글로벌 엔터프라이즈 클라우드 커뮤니케이션, 비디오 미팅, 협업, 연락센터 솔루션의 선두 공급업체인 링센트럴(RingCentral)은 보다 매력적인 회의 환경을 구축하기 위해 비디오 회의 라이브 캡션 기능에 리바 자동 음성 인식을 사용하고 있다.

링센트럴의 제품 및 엔지니어링 담당 부사장 겸 총괄 매니저인 나트 나타라잔(Nat Natarajan)은 “우리의 목표는 회의를 스마트하게 만드는 것이며, 엔비디아 리바를 통해 다양한 억양 별 정확성을 높이기 위해 엔비디아 GPU에서 전사(transcription) 모델을 훈련할 수 있다.

미래에는 여러 개의 동시 스트림이 존재할 것으로 예측되며, 리바는 이를 300밀리초 이내에 실시간으로 실행하여 쉽게 확장할 수 있다. 우리는 엔비디아와 미래를 위해 협력하게 된 것을 기쁘게 생각한다”고 말했다.

세계 최대 금융 서비스 회사 중 하나인 핑안(Ping An)은 가상 비서를 통해 대기시간을 줄여 고객 경험을 개선하고 있다. 리바를 사용하면 정확도가 지속적으로 향상되는 실시간 음성 애플리케이션을 구축할 수 있다.

핑안 수석 과학자인 샤오 징(Jing Xiao)는 “우리는 챗봇 비서를 사용하여 매일 수백 만 건의 고객문의에 대응한다. 엔비디아의 사전 훈련된 자동 음성 인식 모델을 사용하여 데이터를 더욱 정밀하게 조정함으로써 시스템 정확도를 5% 향상했으며, 더욱 매력적이고 진정한 서비스를 제공할 수 있게 됐다”고 말했다.

수십 개의 소프트웨어 제조업체들도 생산에 엔비디아 대화형 AI를 사용하고 있다. 고소프트 컨택 센터(Gosoft Contact Center)는 20개 이상의 비즈니스 도메인을 갖고 있는 CP 올(CP All)과 협력하고 있다.

CP 올은 태국에 만 개이상의 세븐일레븐 편의점을 운영하고 있다. 총 24만 건의 전화는 태국어로 훈련된 매우 정확한 AI 보이스봇의 도움을 통해 하루에 처리된다.

플라북 에듀케이션(Plabook Education), 데이터 몬스터(Data Monster)는 잘못 발음된 단어를 식별하고 읽기 정확도를 측정하는 AI으로 작동하는 디지털 아바타 읽기 도우미를 통해 아이들이 읽기를 배울 수 있도록 미국 전역의 학군과 협력하고 있다.

GTC 기조연설에서 엔비디아 창립자 겸 CEO인 젠슨 황은 리바 커스텀 보이스의 시연영상과 리바의 음성 AI 기능을 선보였다. 아래 영상에서는 단 30분의 데이터로 인간과 같은 새로운 음성을 생성하는 모습을 확인할 수 있다.

 

한편, 리바는 또한 프로젝트 토키오(Project Tokkio), 드라이브 컨시어지(Drive Concierge), 프로젝트 맥신(Project Maxine)을 통해 대화형 아바타를 만들기 위한 플랫폼인 옴니버스 아바타(Omniverse Avatar)와 함께 소개됐다. (아래는 GTC 2021 NVIDIA CEO 젠슨황의 전체 키노트 영상)


 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지