개발된 AI 음성인식을 위한 음성변환 모델관련 연구 논문은 오는 5월 12일부터 17일까지 영국 브라이튼에서 개최되는ICASSP 2019에서 발표될 예정

ICASSP 2019(International Conference on Acoustics, Speech, and Signal Processing)(행사홈페이지 캡처)
ICASSP 2019(International Conference on Acoustics, Speech, and Signal Processing)(행사홈페이지 캡처)

인공지능(AI) 딥러닝 기법은 많은 양의 다양한 데이터를 학습시킬수록 그 성능이 더욱 좋아지게 된다. 하지만 현실적으로 학습데이터를 새로 수집하는 데에는 많은 시간과 인력, 그리고 재원이 들어가는 한계점이 있으므로 이를 해결하기 위하여 현재 보유한 학습데이터를 변환하여 새로운 데이터를 늘리는 '데이터 증강 기법'을 사용하게 된다.

이는 음성인식에도 마찬가지인데 새로운 음성데이터셋 즉, 음성과 텍스트가 쌍을 이루고 있는 데이터를 모으기보다는 기확보한 음성데이터를 다양한 방법으로 변환하여 사용하는데, 기존의 변환기술로는 음의 높낮이 변화나 노이즈 등 많은 부분이 닮아 있어 학습데이터로서 가치가 제한적이었다.

이에 인공지능(AI) 헬스케어 업체인 뷰노(대표 이예하)가 인공지능 딥러닝 학습효과가 개선된 음성변환 모델 개발에 성공했다. 개발된 인공지능 음성인식을 위한 음성변환 모델관련 연구 논문은 오는 5월 12일부터 17일까지 영국 브라이튼(Brighton)에서 개최되는 음성 및 신호처리 분야 국제 저명 학회지인 ICASSP 2019(International Conference on Acoustics, Speech, and Signal Processing)에서 발표될 예정이다.

이번 연구를 주도한 왕지성 뷰노 연구원이 새로운 음성인식 기술을 소개하고 있다(사진:뷰노)
이번 연구를 주도한 왕지성 뷰노 연구원이 새로운 음성인식 기술을 소개하고 있다(사진:뷰노)

뷰노는 자체 개발기술로 기존의 변환기법에 부가하여 언어특징과 음성 아이덴티티를 이용하는 기법으로 새로운 특징을 갖는 음성데이터로 변환하는데 성공하였다. 이는 적은 양의 데이터셋으로도 충분한 학습 데이터를 생성할 수 있어 인공지능 딥러닝에 큰 기여를 하게 되며, 실제 벤치마크 데이터인 월 스트리트 저널(Wall Street Journal)로 실험한 결과 최종 인식 성능이 드라마틱하게 개선된 결과를 확인했다.

한편 이번 연구를 주도한 뷰노의 왕지성 연구원은 “국내 음성인식 개발환경에서는 영어권과는 달리 기구축된 한국인 음성 데이터셋이 제한되어 있다. 이번 개발기술로 다양한 음성데이터셋을 생성할 수 있어 음성인식 성능이 비약적으로 향상될 것으로 기대된다”고 밝혔으며, 실제 본 기술을 적용한 의료기록 음성인식 솔루션을 이대목동병원과 함께 성공적으로 개발을 완료했으며, 현재 이대목동병원을 비롯한 다수 병원에서는 본 소프트웨어를 사용하여 전사 업무에 활용하고 있다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지