엔씨 연구팀의 운율 제어(prosody control) 기술로 이들은 보다 심도 깊은 연구로 합성음이 따라 할 수 있는 가장 역동적이고 다양한 감정을 담은 발화 모델을 개발한 것

사진은 아래
사진은 볼 카운트, 구질 등의 해설 시 중계체 합성음이 적용된 아래 영상 캡처

아주 전문적인 분야에 그것도 야구 중계를 인공지능이 하는지, 사람이 하는지 분간이 안되는 음성합성기술이 개발됐다.

엔씨소프트(대표 김택진, 이하 엔씨)가 자사 음성합성 기술을 바탕으로 개발한 ‘중계체’ 음성합성 기술을 공식 블로그를 통해 10일 공개했다.

이 음성합성 기술은 엔씨 인공지능(AI) 센터 산하 Speech AI Lab(실장 조훈영)의 보이스 컨버젼 (Voice Conversion)팀과 음성합성팀에서 개발한 ‘중계체’ 음성합성 기술로 감정 표현의 수준 및 강도(level) 제어, 다양한 감탄사, 생동감 넘치는 음성합성 등을 특징으로 한다. 야구, 축구, 농구와 e-스포츠 등 다양한 종목의 경기 정보 전달과 해설 등에 활용 가능하다.

중계체 음성합성은 스포츠 캐스터가 경기를 중계하는 느낌을 구현한 기술이다. 뉴스와 안내문 등에 사용되는 ‘낭독체’나 일반적인 대화를 구현한 ‘대화체’와 달리 경기 상황에 맞는 감탄사, 자연스러운 간투어, 발화 오류/반복 등을 통해 다양한 감정을 표현한다.

예를 들어, 프로 야구 경기를 시청하면 경기를 중계하는 스포츠 캐스터가 있다. 캐스터는 경기의 흐름에 따라 다양한 발화의 형태를 선보인다. 선수를 소개할 때는 글을 읽듯이 말하지만, 타자가 홈런을 치거나 주자가 아쉽게 아웃이 됐을 때는 격한 감정을 표현하기도 한다. 아래는 ‘중계체’ 음성합성 기술 적용 예) 

“때렸습니다~ 우중간 안타입니다!” (강도 약하게)

 “때렸습니다~ 담장을 넘었습니다~ 박민우의 솔로 홈런!” (강도 강하게)

즉, 사람의 다양한 억양을 표현하고 제어하는 엔씨 연구팀의 운율 제어(prosody control) 기술로 이들은 보다 심도 깊은 연구로 합성음이 따라 할 수 있는 가장 역동적이고 다양한 감정을 담은 발화 모델을 개발한 것으로 캐스터의 발화 스타일을 따라 감정 표현의 수준과 강도를 조절하고, 여러 종류의 감탄사를 합성할 수 있는 '스포츠 중계체'라는 또 하나의 발화 스타일로 정의하면서 이 합성음으로 야구를 중계할 수 있는 정도의 상용화 모델을 구현한 것이다.

기존 음성합성에서 많이 사용되는 낭독체, 대화체와 차이는 낭독체는 글을 읽는 말투(발화 스타일)이며, 대화체는 실제 사람들이 대화할 때 나타나는 발화 스타일이다. 상대방의 말에 공감하는 감탄사, 말하는 도중 생각할 시간을 갖거나 말을 이을 때 사용하는 ‘음…’, ‘그…’, ‘저…’와 같은 간투어, 감정 표현, 발화 오류, 단어를 반복하는 발화 반복 등을 포함한다. (아래 영상은 선수 소개 시 중계체 합성음)

이처럼 이 중계체는 선수 소개, 경기 진행에 대한 상황 설명 등을 할 땐 낭독체 또는 대화체 성격을 띠지만, 경기가 흥미진진하게 진행될 때는 일반적인 감정 표현 수준을 벗어나 ‘네~ 쳤습니다. 홈런입니다~’ 등 극도의 기쁨을 나타내거나 ‘아~!’, ‘이런!’ 등 허탈감과 격한 감정을 표현하는 다양한 레벨의 감탄사가 포함되기도 한다.(아래 영상은 선수 소개 시 중계체 합성음) 

야구를 보면 동일하게 타자가 공을 친 상황에서도 안타인지 홈런인지에 따라 캐스터의 상황 전달 분위기는 각각 다르다. 만약 9회말 아슬아슬하게 지고 있는 팀이 홈런을 쳤을 때를 상상해보면, 캐스터의 톤에는 조금 더 흥분감이 느껴질 것이다. 음성 합성은 같은 스타일 내에서도 표현 강도를 세부적으로 조절할 수 있다. 따라서 실제 캐스터처럼 상황에 어울리도록 중계체 합성음의 표현 강도를 조절하면 생동감 넘치는 상황을 더 잘 전달할 수 있는 것이다. (아래 영상은 볼 카운트, 구질 등의 해설 시 중계체 합성음)

이번 엔씨의 중계체 음성합성 기술은 e-Sports 게임 중계나 축구, 농구 등 스포츠 장르 전 분야에 걸쳐 응용될 수 있으며, 여러 가지 종류의 야구 게임에서도 In-game 정보 전달이나 게임 진행 상황에 대한 해설 등 다양하게 활용될 수 있다.

특히, 인공지능(AI)이 적용된 텍스트를 음성으로 변환하는 엔씨의 음성합성(TTS, Text to Speech) 기술은 입력되는 문자로부터 전처리 과정이나 운율 정보, 음향정보, 음의 길이 정보 등 파라미터를 추출하는 과정없이 자연어 처리(NLP)와 음성 신호 예측을 하나의 학습 모델로 진행하기 때문에 짧은 시간내 자연스러운 합성음을 만들 수 있는 장점이 있어 다양한 분야에서 그 적용이 가속되고 있다. (아래 영상은 안타, 홈런, 주자 이동 상황 발생 시 중계체 합성음)

아주 가까운 미래, 특별한 경우를 제외하고는 교육, 게임 나레이션, 홍보 영상, 오디오북, 캐릭터 대화, 스마트 디바이스, 음성챗봇 등 다양한 영역에서 더 이상의 성우 또는 스케줄 바쁜 유명인의 목소리와 많은 시간과 여기에 소요되는 높은 비용은 염려 안해도 될 것 같다.

실제, 엔씨의 TTS(Text-To-Speech)와 생성적 적대 신경망(GAN) 기반으로 한 보코더(Vocoder) 기술은 합성음이 자연스러워지고 음질이 깨끗해짐에 따라 실제 사람이 읽어 주는 것 같다는 평가를 받고 있다. 다양한 분야에서 이 음성합성 기술이 사용되고 있다. 이와 더불어 더 사람과 유사한 합성음에 대한 수요도 증가했다.

예를 들어, 게임 내 영상인 시네마틱 무비(Cinematic movie)와 인게임 컷 씬(In-game cut-scene)에서는 캐릭터(인물) 간의 복합적인 감정이 표현된 대사가 오가거나, 캐릭터 특성에 어울리는 발화 스타일이 필요하다. 또한 글 내용(의문문, 감탄문 등)에 따라 톤(발랄, 차분 등), 발화 속도, 운율 조절 등이 필요하기도 하다.

여기에, 적용된 운율 제어는 음성합성 연구 분야에서 점점 더 활발하게 연구될 것으로 전망된다. 이번 엔씨의 중계체 음성합성이라는 세부 영역은 운율 연구를 위한 매우 흥미로운 발화 현상들을 포함하고 있는 것이다. 엔씨는 향후 더 디테일한 운율 제어 기술들을 확보하기 위해 연구를 부단히 이어가고 있다고 밝혔다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지