에이아이더, 음성 합성과 복제 서비스를 AI 스피커와 같이 실생활과 다양한 비즈니스 영역에서 쉽게 접할 수 있는 시기가 곧 올 수 있을 것!

10분 녹음으로 인공지능으로 '음성복제'가 가능한 '와이즈클로닝 봇(Wise Cloning-Bot)'
10분 녹음으로 인공지능으로 '음성복제'가 가능한 '와이즈클로닝 봇(Wise Cloning-Bot)'

인공지능(AI) 도입에 필요한 컨설팅과 맞품형 솔루션을 제공하는 AI기술 기업 에이아이더(대표 김수화)는 인공지능 음성 복제 솔루션 '와이즈클로닝 봇(Wise Cloning-Bot)'을 출시했다고 29일 밝혔다.

와이즈클로닝 봇은 AI로 사람의 음성을 복제하는 서비스를 제공하는 것으로 봇은 집대성 된 음성 정보를 전이학습(Transfer Learning)하며, 특정 사람의 목소리 특성의 파라미터를 딥러닝 기술로 추출하고 패턴화해 인식 및 합성하며, 텍스트는 개인의 음색과 억양을 학습하는 AI 알고리즘을 통해 음성으로 재현된다. 

일반적으로 텍스트를 사람의 목소리로 바꿔주는 음성 복제의 기존 방식은 아파트 관리사무소와 지하철 등에서 우리가 흔히 듣던 기계음 안내 방송이 일반적이었지만 사람의 목소리를 단 시간 안에 분석하고 복제하여 그 사람의 음성을 복제하는 것은 쉽지 않다. 보통 음성 복제에 필요한 시간은 4시간 정도이지만 와이즈클로닝 봇은 음성 분석과 합성 시간을 10분으로 단축시키며, 10분 내 음성 분석과 합성 복제는 음성 복제 기술을 다양한 분야에 적용이 확산될 것으로 예상된다.

예를 들어, 음성복제 기술로 광고에 나오는 대사를 사전에 모델 후보 별로 시뮬레이션 하는 것이 가능하고 광고 모델 음성을 10분 정도 학습하면, 모델이 말하는 것과 동일한 음성을 얻을 수 있다. 또 엄마의 목소리로 아이에게 책을 읽어 주는 서비스, 기일에 부모님의 목소리로 이야기 듣기 등 적용 가능 영역은 무궁무진하다.

특히, 개발된 음성복제 기술은 신호를 통해 음성의 인식과 재현이 이뤄지기 때문에 언어에 대한 구분과 제약이 없는 것이 특징으로 특정 언어에만 국한되지 않고 모든 언어에 적용이 가능하기 때문에 해외 시장 확대가 용이한 기술이기도 하다.

김수화 에이아이더 대표는 “아직 사람의 감정을 완벽히 표현하지는 못 하지만, 앞으로 감정의 요소까지 딥러닝하여 음성을 복제 할 수 있게 될 것”라며, “음성 합성과 복제 서비스를 AI 스피커와 같이 실생활과 다양한 비즈니스 영역에서 쉽게 접할 수 있는 시기가 곧 올 수 있다”고 전했다.

한편 에이아이더는 자연어 처리 머신러닝 기반 챗봇 서비스 등 언어처리 분야의 인공지능 기술이 뛰어난 회사로 음성 복제 영역으로 사업을 확장해 나가고 있으며, 광고 이미지와 모델 적합도를 음성 복제 기술을 시험 중이다. 이는 음성복제 기술로 광고에 나오는 대사를 습득하고 10분 후 모델이 말하는 것과 동일한 음성을 얻을 수 있는 솔루션이다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지