통화 음성을 음향적 파워 스펙트럼으로 특징량 분석 산출

이미지:본지
언어 종류에 관계없이 대화 상황을 추정하는 AI(이미지:본지)

28일부터 29일까지 일본 다카오카시에서 개최되는 일본전자정보통신학회(IEICE) 음성 연구회에서 후지쯔연구소(FUJITSU LABORATORIES)는 기존 언어 의존 정보를 사용하지 않고 자연스러운 대화 음성 데이터를 인공지능(AI)으로 발성의 편향을 감지하고 분석하는 기술을 28일 발표했다.

기관, 기업 등의 컨택센터(콜센터)에서는 불친절한 응대와 대기 시간이 길어져 고객과 직원 간의 트러블과 클레임 등이 발생할 경우에는 숙련도 높은 관리자가 조기에 인계하는 등의 지원이 필요하다.

이 기술은 AI가 대화를 분석하여 고객 응대에서 문제 발생을 감지하고 관리자에게 통보하는 기술이다. 그러나 기존에는 언어 의존 정보인 키워드를 사용하기 때문에 언어마다 키워드 탐지 처리의 개발이 필요했으며 여러 언어에 대한 대응은 더욱 어려웠다.

그림1

또한 기존 개발해온 대화분석기술에서는 문제 발생시 특유의 부정적 내용 등 키워드와 대화 전체의 스트레스 상태를 감지함으로써 응대 트러블 등 문제발생을 감지하고 있었다. 이에 대해 언어 의존 정보인 키워드의 대체로 언어에 의존하지 않는 정보로서 문제 발생시 화자가 많이 발성하는 소리의 짝인 발성의 편향을 감지하는 딥러닝 기술이다.(그림 1)

본 기술에서는, 통화 음성을 입력해 언어에 의존하지 않는 음향적인 음성 정보인 파워 스펙트럼을 기본으로 한 특징량을 산출한다.  마찬가지로 언어에 의존하지 않는 백색 소음(White noise)을 기반으로 음성의 특성을 나타내는 양자화 테이블을 작성해 특징량을 양자화하고 그 결과를 하나의 층을 반복 사용하는 회귀형 신경망의 일종이며, 음성과 같은 시계열 데이터에 대해 사용할 수있는 모델 LSTM(Long short-term memory)에 의한 학습·판정함으로써 발성의 편차를 나타내는 상징을 검출한다.(그림 2).

그림 2
그림 2

여기에 높은 양자화 정확도를 실현하기 위해 백색 소음을 기반으로 양자화 테이블을 만들 때 필요한 현장 학습 방식을 개발했다. 이 방법은 적용 대상에서 음성의 특징량에 맞는 양자화 점 분포의 적응 처리를 수행하고(그림 3) 사용되지 않는 양자화 점을 줄여 음성의 특징량에 많은 양자화 점을 할당하고 음성의 특징량의 양자화점이 선택되는 수에 큰 쏠림이 없도록 했다.

그림 3
그림 3

연구팀은 실제 컨택센터의 일본어 대화 데이터(442 통화 분)를 이용한 평가 실험에서 언어 별 키워드 검색을 이용하는 종래 기술과 동일한 약 90 % 의 응대 문제 발생 감지 정확도를 확인했다. 또한 언어에 맞게 개발 및 사전 학습을 할 필요 없이 영어 모의 대화 데이터(232 통화 분)과 중국어 모의 대화 데이터(160 통화 분)를 이용한 평가 실험에서도 동일한 검지 정밀도를 실현했다.

한편 후지쯔연구소는 이번에 개발한 AI 기술을 더 많은 언어 대화 데이터를 이용한 검증을 통해 컨택센터 또는 고객 창구에서 AI 기술을 활용한 응대 문제 감지 기능으로 실용화를 목표로 한다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지