AI를 음성합성기에 적용하면서도 GPU가 없이 CPU만으로도 작동이 가능하도록 개발했으며, 음성합성기의 음질은 한층 더 높이고, 성우의 녹음시간은 단축

AI 음성합성기 개요

음성 분야에서 차별화된 기술 개발로 세계시장에서 No. 1이되기 위해 노력하고 있는 음성 전문 기업 리드스피커코리아(구, 보이스웨어, 대표 이종석)는 인공지능(AI) 기술이 적용된 차별화된 음성합성기를 개발 완료했다고 22일 밝혔다.

최근 AI기술이 음성합성기에도 적용되면서 기존의 연결 합성방식(USS, Unit Selection Synthesis)과 통계기반 파라미터 합성방식(SPSS, Statistical Parametric Speech Synthesis)에 비해 음질은 더욱 향상되고 음성합성기의 개발 기간은 더욱 단축됐다.

AI이 적용된 음성합성기는 입력되는 문자(Text)로부터 전처리 과정이나 파라미터(운율 정보, 음향정보, 음의 길이 정보 등)를 추출하는 과정이 없이 음성 신호 예측을 하나의 학습 모델로 진행하기 때문에 자연스러운 합성음을 만들 수 있는 장점이 있다. 그러나 인공지능(AI)의 적용으로 인해 연산량이 많아서 GPU(그래픽처리장치)가 요구되는 등 제약사항이 있다. 일반적으로 GPU는 고가이기 때문에 AI 기술이 적용된 음성합성기를 사용하려면 고가의 장비가 필요하게 됐다.

리드스피커코리아는 20년 이상 음성기술을 개발해 온 경험을 기반으로 AI를 음성합성기에 적용하면서도 GPU가 없이 CPU만으로도 작동이 가능하도록 개발했으며, 음성합성기의 음질은 한층 더 높이고, 성우의 녹음시간은 단축함으로써 음성합성기 개발을 빨리할 수 있도록 했다.

그리고 제작된 음성합성기에 대해서도 합성음에 대한 미세조정을 한다거나 고객이 원하는 발음에 대해 사용자 사전을 통해 해당 발음이 가능하도록 개발했다. 일반적으로 AI기술이 적용된 음성합성기는 전처리 과정이 없어 사용자 사전에 대한 처리를 할 수 없다.

따라서 리드스피커코리아의 AI 기술이 적용된 음성합성기는 GPU가 없는 플랫폼에서도 동작이 가능해 서버에서부터 PC, 단말기까지 다양하게 활용할 수 있으며, GPU를 탑재하지 않아도 되기 때문에 저비용으로 시스템을 구성할 수 있고, 또한 사용자 사전을 통해 사용자가 원하는 발음도 가능한 장점이 있다.

리드스피커코리아는 이런 장점을 활용하면 중소기업이나 소상공인 등 소규모 사업체에서도 AI기술이 적용된 고품질의 음성합성기를 사용할 수 있게 되어, 인공지능(AI) 기술이 적용된 음성합성기의 대중화가 가능할 것으로 생각한다고 밝혔다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지