AI 음성인식과 구현 플랫폼의 고도화와 자연어처리 기술이 초거대 언어 인공지능 모델로 진화해 나감에 따라 음성 기반 에이전트는 그 어느 때보다 똑똑해지고 지능화되고 있다

 인공지능은 WWW.에서 '월드와이드보이스웹(WWvW)'으로 진화시킨다
 인공지능은 WWW.에서 '월드와이드보이스웹(WWvW)'으로 진화시킨다

월드와이드웹(WWW.)과 브라우저는 우리의 삶에 스며들어 필요한 거의 모든 정보와 사회화하고 소통하는 방법, 그리고 우리가 비지니스를 수행하는 방법 등 거의 모든 분야에서 혁명을 일으켰다.

이제, 인공지능(AI) 음성인식과 구현 플랫폼의 고도화와 자연어 처리(NLP) 기술이 초거대 언어 인공지능 모델로 진화해 나감에 따라 음성 기반 에이전트는 그 어느 때보다 똑똑해지고 지능화되고 있다. 또한 개발하기 쉽고 저렴하게 만드는 새로운 도구를 사용하여 새로운 혁신의 세계를 접하고 있다.

여기에, 스탠포퍼드대학교의 OVAL(Stanford Open Virtual Assistant Laboratory) 연구팀이 사람들이 음성을 사용하여 전적으로 탐색할 수 있는 WWW.의 새로운 버전인 월드 와이드 보이스 웹(World Wide Voice Web. 이하, WWvW)을 개발하고 제안했다.

현재, 약 9천만 명의 미국인들은 이미 AI 스마트 스피커를 사용하여 음악과 뉴스를 스트리밍하고 식료품을 주문하고, 약속을 잡고, 조명을 조절하는 등의 작업을 수행하고 있다.

그러나 적어도 미국에서는 알렉사를 창조한 아마존과 구글 어시스턴트를 개발한 구글이라는 두 회사가 ‘음성 웹’으로의 이러한 음성 게이트웨이를 근본적으로 통제한다. 사실상, 벽으로 둘러싸인 정원이라 할 수 있다.

이러한 과점(寡占, oligopolies)들은 기술 소유자들이 경쟁 회사 제품들보다 그들 자신의 제품을 선호하도록 하는 불균형과 편견을 만들어낸다. 이들은 어떤 콘텐츠를 사용할지, 그리고 회사와 고객 사이의 중개자 역할을 할 때 어떤 수수료를 부과할지를 고민하고 있다.

무엇보다도, 그들의 독점적인 스마트 스피커는 접속되어 있는 동안 마음만 먹으면 엿들을 수 있기 때문에 개인 사생활 또는 비지니스 등의 모든 대화는 항상 노출된다는 가정(assumption)하에 들었다.

여기에, 스탠퍼드 인간중심 인공지능연구소(Stanford Institute for Human-Centered Artificial Intelligence)와 스탠퍼드 OVAL의 교수이자 스탠퍼드 컴퓨터공학과 모니카 램(Monica Lam) 교수가 이끄는 연구팀은 '지니(Genie)'라는 프라이버시 보호 가상 비서 및 독점 음성인식 플랫폼에 대한 대안을 제공할 수 있는 비용 효율적인 음성 에이전트 개발 플랫폼을 개발하고 오픈 소스로 공개했다.

모니카 램(Monica Lam) 교수(사진:스탠퍼드대)
모니카 램(Monica Lam) 교수(사진:스탠퍼드대)

본지에서는 이를 보다 이해하기 쉽게 인터뷰 형식으로 정리해 본다.

그러면 OVAL 연구팀이 개발 제안한 ‘WWvW’는 무엇일까?

WWW(World Wide Web)와 마찬가지로 새로운 WWvW는 분산되어 있다. 조직은 모든 가상 비서가 액세스할 수 있는 웹사이트에 음성 에이전트에 대한 정보를 게시한다. 램 교수는 WWvW에서 음성 에이전트는 서비스와 애플리케이션에 대한 정보를 제공하는 웹 페이지와 같고 가상 비서는 브라우저라고 말한다.

이러한 음성 에이전트는 챗봇이나 콜센터 에이전트로도 사용할 수 있으므로 컴퓨터나 전화로도 액세스할 수 있다. 월드 와이드 웹과 마찬가지로 새로운 WWvW도 분산되어 있다. 모든 가상비서가 액세스할 수 있는 음성 에이전트에 대한 정보를 웹 사이트에 게시한다.

다시 요약하자면 램 교수는 "WWW에서 음성 에이전트는 웹 페이지와 같아서 서비스와 애플리케이션에 대한 정보를 제공하며, 가상 도우미는 브라우저라고 말할 수 있습니다"라며, "이러한 음성 에이전트는 챗봇이나 콜센터 에이전트로도 사용할 수 있으므로 컴퓨터나 전화로도 액세스할 수 있습니다"라고 설명했다.

램교수는 특히 "WWvW는 기술적으로 능숙하지 않거나, 읽고 잘 쓰지 못하거나, 심지어 문자언어를 하지 못하는 사람들을 포함하여 WWW보다 훨씬 더 많은 사람들에게 도달할 수 있는 잠재력을 가지고 있습니다"라고 강조했다.

또한 램 교수는 "선택된 시장과 언어에서만 이용할 수 있는 아마존과 구글이 주도하는 상업적 음성 웹과 달리, 분권화된 WWvW는 사회가 큰 금전적 수익을 얻지 못하는 교육과 다른 인도주의적 요인을 포함한 모든 언어와 모든 용도에서 음성 정보와 서비스를 제공할 수 있도록 권한을 부여합니다"라고 밝혔다.

이러한 도구가 이전에 만들어지지 않은 이유는 무엇일까?

램 교수는 이에 대해 "음성 기술을 만드는 것은 매우 어렵습니다. Amazon과 Google은 각각의 비서에게 AI 자연어 처리 기술을 제공하고 수천 명의 직원을 고용하여 교육 데이터에 주석을 달기 위해 엄청난 돈과 리소스를 투자했습니다"라며, "이 기술 개발 프로세스는 비용이 많이 들고 노동 집약적이어서 상업용 스마트 음성 비서를 제공하려는 모든 사람에게 엄청난 진입 장벽을 만들고 있습니다"라고 말했다.

연구팀의 지니(Genie)는 어떻게 구현되나?

지난 6년 동안 램 교수는 OVAL에서 스탠포드 박사과정 학생인 지오반니 캄파냐(Giovanni Campagna), 컴퓨터 공학 교수인 제임스 랜데이(James Landay), 컴퓨터 과학 및 언어학 교수인 크리스토퍼 매닝(Christopher Manning)과 함께 현재의 솔루션보다 훨씬 효율성이 높은 새로운 음성 에이전트 개발 방법론을 개발한 것이다.

이 연구를 기반으로 한 연구팀의 ‘오픈 소스 지니 사전 훈련된 에이전트 생성기(open-source Genie Pre-trained Agent Generator)’는 음성 에이전트 개발에 있어 다른 언어로 된 비용과 자원을 획기적으로 절감한다.

램 교수는 "상호 운용성은 장치가 서로 원활하게 상호 작용할 수 있도록 하는 핵심 구성 요소입니다"라며, "Genie 기술의 핵심에는 딥러닝을 사용하는 씽톡(ThingTalk-다운)이라는 가상 비서용으로 만든 분산 프로그래밍 언어가 있습니다. 이를 통해 여러 가상 비서, 웹 서비스 및 IoT 장치의 상호 운용성을 가능하게 하는 것입니다"라고 설명했다.

현재, 지니(다운)는 음악 재생, 팟캐스트, 뉴스, 레스토랑 추천, 알림, 타이머와 같은 가장 인기 있는 음성 기술과 700개 이상의 IoT 장치 지원에 대해 사전 훈련된 에이전트를 보유하고 있다. 이러한 에이전트는 누구나 공개적으로 사용 가능하며, 다른 유사한 서비스에 적용될 수 있다.

행사 이미지 캡처
행사 이미지 캡처

한편, 램 교수가 주도하는 OVAL 연구팀은 11일(현지시간) 그들의 연구를 논의하고 월드 와이드 보이스 웹의 디자인을 제안하기 위한 온라인 라이브 컨퍼런스를 개최한다.

이 컨퍼런스(보기)는 누구나 참가할 수 있다. 이날 행사에서는 머신러닝, 자연어 처리, 컴퓨터-인간 상호 작용, IoT 장치에 대한 전문 지식을 갖춘 학계 및 산업계의 연사들의 발표와 참석하는 패널리스트는 음성 생태계 구축, 사전 훈련된 에이전트 및 음성 웹의 사회적 가치에 대해 논의된다.

특히, 가장 관심이 집중된 지니(Genie)의 라이브 데모도 진행할 예정이다.

마지막으로 램 교수는 "세계 모든 연구진이 'World Wide Voice Web' 구축에 참여하기를 바랍니다"라며, “원래 월드와이드웹은 처음에는 천천히 성장했지만, 한번 잡으면 멈출 수가 없었습니다. 'World Wide Voice Web' 역시 동일한 결과를 얻을 수 있기를 기대합니다"라고 당부했다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지