KAIST, 97.5%의 높은 화자 인식률로 스마트 가전, 통신, 의료 등 각종 산업에 활용 기대

개발한 머신러닝 기반 고민감 유연 압전 음성센서 개요(사진:KAIST)
머신러닝 기반 고민감 유연 압전 음성센서 개요(사진:KAIST)

입출력 방식으로 음성을 사용해 자유로운 양방향 소통이 가능한 음성 센서 기술은 차세대 미래 기술과 접목이 가능한 직관적 유저 인터페이스의 핵심 기술로 주목받고 있다. 리서치앤마켓(Research AndMarkets) 등 주요 조사 기관들은 글로벌 음성 센서 시장은 오는 2022년 대략 160억 달러(약 18조원)로 예측 기간 2018년부터 3.56 %의 CAGR로 성장할 것으로 예상되며, 통신, 의료, 가전, 금융, 보안 등 거의 모든 산업에 적용될 전망이다.

예를 들어, 음성 센서는 의료 기기를 기존보다 훨씬 효과적이고 안전하게 만드는 동시에 의료 기기 작동을 단순화하는 것을 주 목적으로 의료 분야에서도 중요한 역할을 수행하고 있다. 하지만, 현재 산업계에서 사용되는 콘덴서 마이크로폰은 정전용량을 측정하여 음성 신호를 받아들이는데, 이 콘덴서 타입은 공진형 센서에 비해 낮은 민감도 때문에 인식 가능 거리가 제한적이며 화자 인식률이 낮다는 한계가 있다.

이에 국내 KAIST(총장 신성철) 신소재공학과 이건재 교수와 전기및전자공학부 유창동 교수 공동 연구팀이 인공지능 기반의 화자(話者) 인식용 유연 압전 음성센서를 개발했다. 이번 연구를 통해 개인별 음성 서비스를 스마트 홈 가전이나 인공지능 비서, 생체 인증 분야 등 차세대 기술에 활용 가능할 것으로 기대된다.

그림은 인공지능을 통한 화자 인식 개략도로 우선적으로 알고리즘을 이용해 음성 정보들을 학습시킨 후 테스트 정보가 주어지면 학습된 정보 중 무엇과 얼마나 유사한지 계산하여 화자를 인식하는 방식을 이용해 97.5%의 인식률을 확인하였다.
그림은 인공지능을 통한 화자 인식 개략도로 우선적으로 알고리즘을 이용해 음성 정보들을 학습시킨 후 테스트 정보가 주어지면 학습된 정보 중 무엇과 얼마나 유사한지 계산하여 화자를 인식하는 방식을 이용해 97.5%의 인식률을 확인하였다.

이번 연구에서 이 교수 연구팀은 인간의 달팽이관을 모사해 주파수에 따라 다른 영역이 진동하는 사다리꼴의 얇은 막을 제작했다. 음성신호에 따른 공진형 진동을 유연 압전 물질을 통해 감지하는 자가발전 고민감 음성 센서를 개발했다. 연구팀의 음성 센서는 기존 기술 대비 2배 이상 높은 민감도를 가져 미세한 음성 신호를 원거리에서도 감지할 수 있다. 또한 다채널로 신호를 받아들여 하나의 언어에 대해 복수 개의 데이터를 얻을 수 있다.

이 기술을 기반으로 누가 이야기하는지 찾아내는 화자인식 시스템에 적용해 97.5%의 화자인식 성공률을 무향실에서 달성했고 기존 기술 대비 오류를 75% 이상 줄였다.(아래는 스피커 인식을 위한 KAIST 압전 음향 센서 관련 영상이다)

화자인식 서비스는 음성 분야에 세상을 바꿀 기술로 기대를 받고 있다. 기존 기술은 소프트웨어 업그레이드를 통한 접근으로 인식률에 한계가 있었지만 연구팀의 기술은 하드웨어 센서를 개발함으로써 능력을 크게 향상시켰다. 추후 첨단 소프트웨어를 접목한다면 다양한 환경에서도 화자 및 음성 인식률을 높일 수 있을 것으로 예상된다.

이건재 교수는 “이번에 개발한 머신러닝 기반 고민감 유연 압전 음성센서는 화자를 정확하게 구별할 수 있기 때문에 개인별 음성 서비스를 스마트 가전이나 인공지능 비서에 접목할 수 있을 것이며 생체 인증 및 핀테크와 같은 보안 분야에서도 큰 역할을 할 수 있을 것이다”고 말했다.

이건재 교수(사진:KAIST)
이건재 교수(사진:KAIST)

한편 이번 연구 결과는 국제 학술지 ‘나노 에너지(Nano Energy)’ 9월호에 ‘민감도’와 ‘화자인식’ 논문 두 편으로 동시 게재됐고 현재, 관련 기술은 실용화 단계에 있다. (민감도 논문 : Basilar Membrane-Inspired Self-Powered Acoustic Sensor Enabled by Highly Sensitive Multi Tunable Frequency Band, 화자인식 논문 : Machine Learning-based Self-powered Acoustic Sensor for Speaker Recognition)

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지