마인즈랩, AI 음성 생성 서비스 오픈, 기존 음성합성(TTS)과는 질적으로 차별화…실제 인물 목소리와 90% 이상 유사한 목소리 빠르게 구현

콜센터 자동 ARS 음성처럼 로봇 같이 어색한 기계 음성을 실제 사람의 목소리처럼 만들 수는 없을까? 

이미지 편집:본지
AI 목소리, 기계음 대신 사람처럼 자연스럽게 만든다(이미지 편집:본지)

인공지능 전문기업 마인즈랩(대표 유태준)은 자사의 인공지능(AI) 서비스 플랫폼 마음에이아이(maum.ai)에서 AI 음성 생성 서비스를 12일 오픈했다. 마인즈랩이 자체 개발을 마치고 이번에 오픈한 AI 음성 생성 서비스를 통해 사용자는 최소 20분, 최대 1시간 이내의 음성 데이터만을 가지고도 실제 인물의 목소리와 90% 이상 유사한 목소리를 만들 수 있다.

글로벌 최고 수준의 딥러닝 알고리즘을 기반으로 한 마인즈랩의 AI 음성생성 서비스는 마인즈랩의 서비스 플랫폼인 마음에이아이 홈페이지에서 이용할 수 있다. 

지금까지 대기업이나 AI 전문가들만의 전유물로 여겨졌던 AI 음성 기술을 중소기업이나 소상공인은 물론 일반 사용자들까지 대중적으로 활용할 수 있도록 AI로 음성을 만드는 모든 과정을 쉽고 직관적으로 만들었다. AI 음성생성 시 필수적인 머신러닝 과정 역시 자동화했기 때문에, 사용자는 음성 파일을 업로드하거나 웹사이트 상에서 음성 녹음을 마치기만 하면 된다.

특히 이 과정에서 마인즈랩은 녹음 품질이 양호하지 않고, 확보된 녹음 분량 역시 제한적인 역사적 인물의 음성의 음성까지 높은 품질로 구현하는 데 성공했으며, 이러한 음성생성 기술을 기반으로 한 다양한 산업 맞춤형 서비스도 제공하고 있다.

마인즈랩은 지난 4일 금융위원회로부터 보험 신청 및 심사 업무 등 기존 금융회사의 핵심 업무를 대행하는 핀테크 회사인 ‘지정대리인’으로 선정되며 음성봇 상용 서비스 오픈에도 집중하고 있다. 이 외에도 교육, 게임, 유튜브 영상 등 다양한 분야의 콘텐츠를 제작할 때도 AI 음성생성 서비스를 활용할 수 있다는 설명이다.

이번 서비스 개발을 총괄한 최홍섭 마인즈랩 상무는 “기존 TTS 방식을 사용한 콜센터 ARS나 안내방송처럼 기계음이 뚜렷한 음성은 고객들이 친근감을 느끼지도 못하고, 획일화된 음성 특성상 기업의 브랜드 가치를 살리기도 어려웠지만 이러한 한계를 AI 음성으로 극복할 수 있으며, 마인즈랩의 AI 음성 생성 기술은 글로벌 탑티어 기업의 기술 수준과 비교해도 밀리지 않을 정도의 완성도를 보이고 있으며, 이 모든 과정을 누구나 쉽게 곧바로 경험할 수 있다는 데에서도 큰 차별점이 있다”고 설명했다.

이어 “마음에이아이의 모토인 ‘쉽게 쓰는 AI, 바로 쓰는 AI’에 맞춰 이번에 오픈한 음성 생성 서비스 이외에도 음성인식, 이미지 인식, 챗봇, 기계독해(MRC) 등 인공지능 전 영역을 서비스화할 예정”이라고 말했다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지