딥러닝 기반 음성합성 기술에 CUDA 최적화 적용하여 실시간 서비스 속도 비약적 향상...구글, 페이스북 등 글로벌 기업 수준의 상용화 성공

이미지:본지
쿠다 로고 이미지:본지

인공지능 서비스(AI as a Service) 기업 마인즈랩(대표 유태준)이 쿠다(CUDA Compute Unified Device Architecture) 아키텍처를 활용해 자사의 AI Voice 기술(음성생성, Text to Speech) 서비스 품질을 비약적으로 발전시켰다고 28일 밝혔다.

마인즈랩 연구진들은 오픈소스 생태계에서 구글과 페이스북의 개발자들과 의견을 주고받으며, CUDA 코드의 수정 및 테스트를 통한 최적화에 기여했으며, 이 과정에서 공식적으로 마인즈랩이 제안한 코드가 파이토치(PyTorch) 및 텐서플로우(Tensorflow)에 추가되기도 하였다고 한다.

또한 현재 가장 높은 수요의 자사 AI 엔진 중 하나인 'AI Voice'의 속도를 수십배 이상 향상시켰으며, 이는 국내 최고 수준이자, 구글, 페이스북 등 글로벌 기업 수준의 상용화에 성공했다고 밝혔다.

마인즈랩 CUDA팀 이중건 팀장은 “상업적으로 가치가 높은 최신 딥러닝 기반 음성생성 기술은 기존에 1초의 음성을 만들기 위해 1분의 시간이 소요되어 상용화하기 어려웠는데, CUDA 기술을 일찌감치 연구함으로써 음성생성 시간을 약300배 향상시키는 데 성공했다”고 밝히며, “인공지능 기술 연구개발이 아직 초창기에 있는 만큼 향후 상용 서비스 적용이 본격화 됨에 따라 속도 개선을 위한 CUDA기술의 수요가 폭발적으로 늘어날 것으로 예상한다"고 말했다.

한편, 마인즈랩은 해당 기술의 잠재적 중요성에 대해 일찌감치 파악하고, 빠르게 대처하여 전폭적인 투자를 통해 글로벌 수준의 기술력을 확보한 상황으로, 향후 음성생성 기술 뿐 아니라 음성인식, 챗봇, 안면인식, 영상처리 등 현재 상용으로 서비스하고 있는 다양한 엔진들에도 적용할 예정이다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지