고품질 보컬 신디사이저에 필요한 기능을 모두 갖추고 있다. 인공지능 및 샘플 기반의 하이브리드 기술에 의해 만들어진 강력한 음성 합성 엔진과 치밀하게 설계된 직관적인 사용자 인터페이스가 통합됐으며, 딥러닝 기술로 작동하는 새로운 유형의 노래 음성 합성 솔루션이다.

최근 국내에서는 김광석·김현식·신해철 등 세상을 떠난 전설적인 가수들의 생전 음원 데이터를 학습해 인공지능(AI)이 복원한다. 또 1996년 세상을 떠난 김광석의 목소리로 2002년 발표된 김범수의 ‘보고싶다’를 부르는 티저 영상이 지난 1일 공개되면서 화제를 모으기도 했다. 

일본에 본사를 둔  음악 애호가와 경험이 풍부한 다국적 엔지니어들로 구성된 AI 스타트업 드림토닉스(Dreamtonics. CEO Kanru Hua)는 지난달 25일 '신시사이저 V 스튜디오 1.1.0 (Synthesizer V Studio)' 및 인공지능(AI) 버전의 '신시사이저 V 사키' 음성 데이터베이스를 업데이트했다.

신시사이저 V 스튜디오 1.1.0 는 고품질 보컬 신디사이저에 필요한 기능을 모두 갖추고 있다. 인공지능 및 샘플 기반의 하이브리드 기술에 의해 만들어진 강력한 음성 합성 엔진과 치밀하게 설계된 직관적인 사용자 인터페이스가 통합됐으며, 딥러닝 기술로 작동하는 새로운 유형의 노래 음성 합성 솔루션이다.

이 새로운 기술은 사용자에게 실제 인간 가수의 음질과 거의 구분할 수 없는 음질을 제공한다. 악보를 입력하고 '자동 조정' 버튼을 누르면 사전에 인간의 목소리를 학습한 AI가 '가창(singing)'과 "비브라토(vibrato)'등의 표현을 자동으로 적용하고 노래한다. 실제 작업 프로세스는 AI 싱어가 노래하는 방법을 제안하고, 인간이 그것을 수정하는 단계가 반복돼 완성된다.

업데이트된 소프트웨어는 기존 표준(non-AI) 음성 데이터베이스와 계속 호환되며, 두 가지 유형의 음성은 동일한 사용자 인터페이스를 통해 지원되므로 표준 음성에서 AI 음성으로 전환하는 사용자에게 과정을 최소한으로 줄여준다.(아래는 신시사이저 V 스튜디오 라이브 랜더링 시연으로 노랫소리 편집은 즉시 렌더링 된다. 내장된 강력한 시각화 옵션은 재생 버튼을 누르지 않고도 실시간 피드백을 얻을 수 있다. 정교한 멀티 스레드 프로그램 구성에 따라 어떤 부분을 재생할지 편집기가 똑똑하게 감지하므로, 작품의 재생을 원하는 시간에 대기 시간없이 확인할 수 있다.)

일본에서 AI에 의한 노랫소리 합성은 이전부터 있었지만, 일반 크리에이터가 자유롭게 접할 수 있는 소프트웨어로는 거의 나와 있지 않았다. 대부분은 대학이나 기업등이 내부에서 사용했고, 겉으로 드러나는 것은 출력된 음성 뿐이었다. 특히, 유명한 것으로는 일본 마이크로소프트의 '린나(りんな)', 야마하의 'AI 보컬로이드(Vocaloid)'등이 있다. AI 보컬로이드는 일본의 쇼와 시대를 대표하는 전설적인 가수이자 배우 미소라 히바리(美空ひばり)'의 노랫소리를 재현해 주목을 받기도 했다.

그 중에서도, 2016년에는 나고야 공업대학의 신시(Sinsy), 20년 2월에는 프리 소프트의 뉴트리노(NEUTRINO)가 AI 노래 합성 소프트로서 무료로 일반에 공개되기도 했다. 여기에 드림토닉스의 '신시사이저 V AI'가 상업용으로 합류했다.

Sinsy와 NEUTRINO와 비교했을 때, 신시사이저 V AI의 강점이라고 할 수 있는 점은 조작성과 다른 음악 제작 소프트웨어와의 연계의 편의성이다. Sinsy나 NEUTRINO는 악보를 입력하면 인간처럼 불러주지만 악보를 편집하는 기능은 없다. 노랫소리를 합성하는 엔진만의 소프트웨어로, 악보나 출력 음성의 편집은 별도 솔루션을 도입해야 한다.

'신시사이저 V AI'는 보컬 작성 소프트웨어로서의 기능을 모두 갖추고 있다. GUI로 악보를 입력해 바로 재생할 수 있고 출력 음성도 자유롭게 편집할 수 있다. 이런 AI 노랫소리 합성 솔루션은 지금까지 없었다.(아래는 신시사이저 V 스튜디오 시연 영상)

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지