이 기술은 생성적 적대 신경망(GAN) 기반으로 한 뉴럴 보코더(Neural Vocader)기술로 아주 가까운 미래에 특별한 경우를 제외하고는 교육, 게임 나레이션, 홍보 영상, 오디오북, 캐릭터 대화, 스마트 디바이스, 음성챗봇 등 다양한 영역에서 성우 또는 스케줄 바쁜 유명인의 목소리와 많은 시간과 여기에 소요되는 높은 비용은 염려 안해도 될 듯...

이미지:엔씨소프트
이미지:엔씨소프트

인공지능(AI)이 적용된 텍스트를 음성으로 변환하는 음성합성(TTS, Text to Speech) 기술은 입력되는 문자로부터 전처리 과정이나 운율 정보, 음향정보, 음의 길이 정보 등 파라미터를 추출하는 과정없이 자연어 처리(NLP)와 음성 신호 예측을 하나의 학습 모델로 진행하기 때문에 짧은 시간내 자연스러운 합성음을 만들 수 있는 장점이 있어 다양한 분야에서 그 적용이 가속되고 있다. 

아주 가까운 미래, 특별한 경우를 제외하고는 교육, 게임 나레이션, 홍보 영상, 오디오북, 캐릭터 대화, 스마트 디바이스, 음성챗봇 등 다양한 영역에서 더 이상의 성우 또는 스케줄 바쁜 유명인의 목소리와 많은 시간과 여기에 소요되는 높은 비용은 염려 안해도 될 것 같다. 

엔씨소프트가 게임 개발 과정에 전문성우의 도움이 필요없는 수준으로 더 빠른 속도, 가벼운 모델, 매우 자연스러운 음질 등 AI 음성합성 기술을 진화시켰다. 이 기술은 생성적 적대 신경망(Generative Adversarial Networks, GAN) 기반으로 한 뉴럴 보코더(Neural Vocader)기술로 ‘VocGAN’을 오는 10월 25일부터 29일까지 중국 상하이에서 가상으로 열리는 음성인식·합성 분야 세계 최고의 권위있는 국제학회 인터스피치 2020(INTERSPEECH 2020)에서 정식 발표한다. 

이미지:엔씨소프트
이미지:엔씨소프트

이 연구 및 개발 기술은 '계층적 적대 신경망을 이용한 고음질 실시간 보코더 VocGAN(VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Network)'이란 제목으로 발표된다. ‘VocGAN’은 엔씨소프트 AI센터 산하 Speech AI Lab(실장 조훈영)의 음성합성팀에서 자체 개발한 기술로 녹음 음성과 실제 음성의 구분이 어려운 수준의 완벽한 음질과 빠른 속도와 가벼운 모델이 특징이다. 또 '뉴럴 보코더' 기술이란 AI 합성음을 잡음없이 더 깔끔하게 만드는 기술을 뜻한다.

엔씨소프트의 'VocGAN'을 통해 만든 AI합성음은 생동감 있는 발화 스타일과 감정 표현 등 실제 목소리와 구분하기 힘든 수준으로 엔씨소프트는 음성합성 기술을 다양한 영역에 활용하고 있다. 실제로 ‘블레이드 앤 소울(Blade and soul)’ 프론티어 월드 튜토리얼 영상 '안내서'의 내레이션은 모두 합성음으로 게이머와 더 가까워진 자연스러운 AI 음성합성 기술을 구현한 것이다.(아래는 지난 7월 'VocGAN'을 통해 제작된 '블레이드 & 소울 게임' 홍보 내레이션 영상이다')

기존의 게임내 내레이션은 모두 전문 성우가 직접 대사를 익혀 녹음하고 검수하는 과정이 필요했다. 하지만, 엔씨소프트는 'VocGAN'을 통해 더이상 이런 과정이 필요없게 됐고, 결과적으로 제작시간이 단축되는 효과를 불러왔다. 또 엔씨소프트는 사내방송을 통해 AI합성음으로 한권의 책을 소개하는 ‘엔씨 AI 북스’를 운영하기도 했다. 

연구팀은 'VocGAN'의 음성합성 기술은 초기 단계부터 게임 캐릭터의 다이내믹한 감정 표현과 발화 스타일을 생성해 내는 데 집중했다. 게임 캐릭터의 성격을 입체적으로 표현하기 위해서는 극적이고 다양한 발화 스타일이 필수적이며, 각 서비스의 성격에 따라 다르다. 이를 실현하기 위한 기술 난이도의 차이를 극복했다.

 'VocGAN'의 음성합성 기술로 구현된 경상도 사투리 (여자)

'VocGAN'의 음성합성 기술로 구현된 전라도 사투리 (남자)

또한 사투리 음성으로 소개하는 소설 ‘위저드 베이커리’. 음성합성팀은 사내 방송을 통해 매주 한 권의 책을 AI 합성음으로 소개하는 ‘엔씨 AI 북스’를 운영했다. 약 1년간 서비스를 통해 음질과 자연성(naturalness)을 검토할 수 있었고, 지속적으로 모델을 튜닝하는 과정을 거쳤으며, 임직원이나 게임 캐릭터 등의 목소리를 생성하고 사투리를 합성하는 등 다양한 시도를 통해 상용화에 필요한 노하우를 쌓았다.

이와 함께, 깨끗한 음질을 만들 수 있는 뉴럴 보코더 기술 ‘VocGAN’을 개발하면서 품질과 연구의 효율성이 크게 향상되었다. 기존에 사용하던 보코더의 경우, 충분한 성능을 발휘하기 위해선 화자가 추가될 때마다 모델을 추가로 학습해 적응시키는 과정이 필요했다. 즉, 화자가 30명이라면 보코더 모델이 30개 필요하고 매번 추가로 학습하는 번거로운 과정을 거쳐야 했다.(아래는 'VocGAN'을 통해 제작된 영상으로 9월부터 메가박스 코엑스점과 성수점 내 전광판에서 상영되는 무빙툰 홍보 영상 '러브 둥둥 시리즈'영상이다.)

하지만 연구팀은 'VocGAN'을 개발하면서는 새로운 화자가 생겨도 보코더는 별도로 학습할 필요없이 기존 모델을 공유해 사용할 수 있게 됐다. 이러한 변화로 인해 학습에 필요한 시간은 물론이고 GPU 등 보코더를 위한 비용도 크게 줄일 수 있었다. 또한 품질도 크게 향상돼 대중에게 서비스할 수 있을 만큼의 추진력을 얻게 된 것이다.

포스트 코로나 시대, 영상 제작의 수요는 더 커질 것으로 누구든 손쉽게 영상을 만들 수 있고, 더 많은 사람이 영상으로 커뮤니케이션할 것이다. 대화하듯 자연스러운 음성을 출력하는 것을 강점으로 하는 엔씨소프트의 음성합성 기술은 앞으로 활용 범위가 더 넓어질 것으로 예상된다. 실제로 엔씨소프트는 '블레이드 & 소울' 외에 다른 IP의 게임 공략 영상이나 공지 영상에도 이 기술이 사용될 예정이며, 엔씨의 웹툰 플랫폼 '버프툰'의 홍보 영상에서도 AI 음성합성 기술을 만나볼 수 있다.

VocGAN 모델 세부 구조(사진:엔씨 Speech AI Lab)
VocGAN 모델 세부 구조(사진:엔씨 Speech AI Lab)

엔씨소프트의 Speech AI Lab 음성합성팀은 "궁극적인 목표는 게임 속 수많은 캐릭터의 음성을 AI로 생성하는 것입니다. 또한 게임 캐릭터를 실감나게 만드는 요소 중 하나는 생생하고 자연스러운 목소리입니다. 이는 게이머들이 게임 속 작은 변화도 금방 감지할 수 있습니다"라며, "엔씨소프트의 AI 기술로 구현된 음성이 귀에 거슬리지 않고, 게임의 몰입감을 높이는 수준까지 도달할 수 있도록 퀄리티를 향한 도전은 계속될 것입니다"라고 밝혔다.

이어 "엔씨소프트는 흥미롭고 근본적인 변화를 만들고 음성이라는 매력적이고도 편리한 수단을 통해 사람과 사물이 다양한 형태로 교감하는 미래를 만들어 나가고자 합니다"라고 덧붙였다.

한편, 엔씨소프트는 'VocGAN' 음성합성 기술을 활용한 덕분에 애니메이션 싱크를 맞추기 위한 발화 스타일이나 어조 등을 유연하게 조절하는 것이 가능해졌으며, 대사를 쉽게 수정할 수 있어 영상 제작 작업의 효율성을 전반적으로 높일 수 있다. 또한 수백 가지의 각기 다른 합성음을 생성할 수 있는 일련의 과정 즉, 음성 데이터의 축적에서 딥러닝 모델 학습, 합성음 생성 테스트와 서비스의 배포까지 클라우드에 자동화되어 있다.

아울러 최소한으로 서버 비용을 절감하기 위해 합성 모델의 경량화와 연산량의 최적화를 목표로 연구에 더욱 노력을 기할 것이며, 음성합성 기술을 다양한 응용 서비스에 적용해 그 활용 범위를 넓혀갈 계획이다. 이는 유저들이 사용하는 다양한 애플리케이션에 'VocGAN'기술을 적용해 본 경험은 새로운 기술의 발전을 가져올 것이며, 음성합성 기술이 한 단계 성숙하는 계기가 될 것으로 예상된다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지