이 모델에는 세 가지 구성 요소가 있다. 음성을 구어에서 자주 반복되는 소리를 나타내는 개별 단위로 변환하는 인코더와 이전에 본 것을 기반으로 다음, 분리(separation) 단위를 예측하도록 훈련된 자동 회귀, 단위 기반 언어 모델 및 단위를 음성으로 변환하는 디코더를 포함한다.

BERT, RoBERTA 및 GPT-3와 같은 텍스트 기반 인공지능(AI) 언어 모델은 최근 몇 년간 큰 발전을 이루었다.

그들은 서면 단어를 입력으로 제공하면 사실상 어떤 주제에도 매우 현실적인 텍스트를 생성할 수 있으며, 몇 가지 라벨이나 예제(BART 및 XLM-R 등)만을 사용하여 정서·감정 분석, 번역, 정보 검색, 추론, 요약 등 다양한 어려운 자연어 처리(NLP) 애플리케이션에 대해 미세 조정할 수 있는 유용한 사전 훈련 모델을 제공한다.

그러나 이러한 응용 프로그램은 주로 AI 모델 학습에 매우 큰 텍스트 데이터 세트가 있는 언어로 제한된다는 과제가 있다.

여기에, 페이스북 AI가 텍스트에 대한 의존에서 벗어나고 이를 해결하는 혁신적인 최초의 고성능 자연어처리 모델인 '생성적 화자 언어 모델(Generative Spoken Language Model. 이하, 이하, GSLM)'을 개발하고 오픈 소스로 공개했다.

GSLM은 표현학습의 최근 혁신을 활용해 레이블이나 텍스트 없이 원시 오디오 신호에서 직접 작동할 수 있는 것이다.

음성 NLP
음성 NLP

즉, 텍스트 데이터 집합이 없는 언어일지라도 잠재적으로 지구상에서 사용되는 모든 언어에 대해 텍스트 없이 NLP 애플리케이션의 새로운 시대를 연 것이다. 또한, GSLM은 구어 표현의 전체 범위를 통합하는 NLP 모델의 개발을 가능하게 한다.

이전에는 NLP 애플리케이션을 음성 입력에 연결한다는 것은 먼저, ASR(Automatic Speech Recognition) 시스템을 훈련해야 한다는 것을 의미했다. 이 시스템은 리소스 집약적인 작업으로 오류를 유발하고 일상적인 언어 상호 작용을 제대로 인코딩하지 못했으며, 단지 소수의 언어만 사용할 수 있었다.

특히, 페이스북 AI는 텍스트 없는 NLP로 ASR을 쓸모없게 만들고, 음성 입력에서부터 음성 출력에 이르기까지 엔드 투 엔드 방식으로 전환한 것이다. 이는 미취학 아동들이 텍스트가 아닌 말로 즉, 오디오 상호작용을 통해서 언어를 학습하는 능력이 이 개발이 가능하게 한 것이다.

현재, 페이북 AI는 기본 GSLM 모델을 공유하고 있으며, 이 모델에는 세 가지 구성 요소가 있다. ▷음성을 구어에서 자주 반복되는 소리를 나타내는 개별 단위로 변환하는 인코더 ▷이전에 본 것을 기반으로 다음, 분리(separation) 단위를 예측하도록 훈련된 자동 회귀 ▷단위 기반 언어 모델 및 단위를 음성으로 변환하는 디코더를 포함한다.

이미지:본지DB
이미지:본지DB

일반적으로 NLP 분야는 학습 모델에 텍스트를 사용해 왔다. 이것은 학습에 적합한 방대한 텍스트 데이터 세트를 가지고 있는 영어와 같은 언어에서는 매우 잘 작동한다. 그러나 세계 언어의 대부분은 이러한 광범위한 데이터 세트가 부족하며, 이는 그들이 NLP 기술의 혜택을 대부분 누릴 수 없었다는 것을 의미한다.

이러한 역학을 뒤집은 것은 신호 처리, 음성 처리, NLP 및 심리언어학에 대한 전문지식을 갖춘 페이스북 AI 연구자로 구성된 다학제 팀에는 매우 흥미로운 도전이었다고 한다. 텍스트 없는 입력에 대한 AI 언어 모델을 훈련시킴으로써 몇 가지 이유로 새로운 지평을 연 것이다.

첫째, 텍스트 없는 NLP 기술은 AI를 더 포괄적이고 현재보다 더 다양한 언어를 모델링할 수 있게 해야 한다. 이 접근법은 모든 구어에 대한 훈련 모델의 가능성을 열어준다.

둘째로, 구두 언어의 완전한 표현성에 접근함으로써, 모델은 뉘앙스와 억양을 통합해야 하고, 아이러니, 분노, 불확실성을 부호화해야 한다. 그리고 웃음, 하품, 그리고 입 모양과 같은 발성을 적용해야 한다. 이는 텍스트 없는 NLP는 구술 언어의 풍부한 표현성 때문에 영어처럼 텍스트가 풍부한 언어에서도 훈련 모델에 텍스트를 사용하는 것보다 실제로 더 효과적으로 작동한다.

셋째, ASR에 대한 주석이나 교육 없이 팟캐스트, 라디오 쇼 및 소셜 오디오 앱과 같은 오디오 우선 경험에 대한 모델을 학습할 수 있어야 한다. 텍스트 없는 NLP는 예를 들어, 다국어 비디오 게임을 위한 온라인 표현 번역 또는 아카이브된 오디오의 콘텐츠 검색 및 요약과 같이 이전에는 상상도 못했던 일련의 응용 프로그램의 가능성을 열어준다.

마지막으로, 이러한 모델들은 발달 심리학자들과 언어 및 언어 임상의들이 유아들이 말하는 것을 배우고 말하는 것을 이해하는 능력이 다른 언어로 이용 가능한 언어 입력의 차이에 의해 어떻게 영향을 받는지 예측하는 데 도움이 될 수 있다.

이미지:페이스북
이미지:페이스북

이처럼 GSLM은 이러한 광범위한 연구 목표를 진전시키는 데 도움이 되는 것 외에도 오늘날 NLP 분야의 커뮤니티들에게 보다 쉽고 구체적인 혜택을 제공한다. 연구자들은 간단한 음원 예측 과제로 모델을 사전 훈련하고 텍스트가 필요 없이 엔드 투 엔드 작업에 맞게 미세 조정하기만 하면 된다.

이는 최초의 오디오 전용 음성 대 음성 번역 시스템을 가능하게 한 것이다. 페이스북은 추가적으로 더 많은 작업에서 감정 분석, 문서 검색, 요약 등과 같은 표준 NLP 작업의 텍스트 없는 버전으로 발전시킬 것이라고 밝혔다.

먼저, GSLM은 기본 모델을 구축하고 두 가지 간단한 종단 간 작업에서 이를 평가하는 것으로 시작된다.

첫 번째는 분리(separation) 재합성인데, 여기서 입력파는 유사 텍스트라고 부르는 일련의 세퍼레이션 단위로 인코딩된 다음 모델의 '음성'에서 입력을 재합성하는 데 사용된다. 두 번째는 언어 모델이 인코더를 통한 입력 프롬프트에서 무조건 또는 조건부로 새로운 의사 텍스트를 샘플링하는 데 사용되는 음성 생성이다.

모델의 아키텍처. 인코더는 음성 파형을 이산 단위(S2u)로 변환하고 디코더는 반대 매핑(u2S)을 수행하며 단위 기반 언어 모델은 단위 시퀀스의 분포(의사 텍스트)를 모델링한다.(출처: 이하,페이스북 및 논문 캡처)
모델의 아키텍처. 인코더는 음성 파형을 이산 단위(S2u)로 변환하고 디코더는 반대 매핑(u2S)을 수행하며 단위 기반 언어 모델은 단위 시퀀스의 분포(의사 텍스트)를 모델링한다.(출처: 이하,페이스북 및 논문 캡처)

GSLM 모델은 CPC, wav2vec 2.0 및 HuBERT의 세 가지 최첨단 인코더를 테스트한 다음 k-means 클러스터링 및 중복 제거(연속적인 동일한 단위 제거)를 테스트했다. 또한, 언어 모델링을 위해 표준 인과적 트랜스포머(Transformer)를 사용했고 디코더로 구글의 텍스트 음성 변환(TTS) 시스템인 ‘타코트론(Tacotron)2’를 사용했다.

특히, 모델은 6000시간의 ASR의 벤치마크인 Libri-Light 및 오디오북의 대규모 컬렉션(Librispeech)에 대한 인코더 및 단위 기반 언어 모델(uLM)을 훈련하고 대규모 데이터 세트인 다국어 리브리스피치(LibriSpeech) 및 데이터셋 LJ스피치(LJspeech)로 디코더를 학습했다.

전체 스택은 텍스트나 레이블이 없는 원시 오디오의 자체 감독으로 학습되었으며 언어 모델 및 텍스트 음성 변환 구성 요소는 원 오디오에서 파생된 의사 텍스트에 대해 훈련되었다.

이는 다른 모델들과 비교할 때, 생성된 의사 텍스트를 분석할 수 없었다. 왜냐하면 단위들은 문자나 음소(phoneme)와 일대일로 매핑하지 않기 때문이다. 좋은 모델은 일반적으로 100개 이상을 사용하며, 음소보다 짧은 음성 확장을 인코딩한다. 이에 페이스북 연구팀은 생성된 오디오를 다시 텍스트로 변환하기 위해 사전 훈련된 ASR을 사용했다.

이를 통해 ASR에 의해 재전송된 음소와 원래 입력의 음소를 비교한 음소 오류율(PER)을 이용한 재동기화 오디오의 지능성을 측정할 수 있을 뿐만 아니라 곡선(AUC) 아래(그림)의 영역을 사용하여 조건부 또는 무조건적으로 생성된 오디오의 언어 품질과 다양성을 측정할 수 있었다.

두 가지 평가 지표인 AUC와 PER.
두 가지 평가 지표인 AUC와 PER.

AUC는 언어 모델의 창의성의 정도라고 정의하는 다양한 범위의 온도에 걸친 문장들을 샘플링 함으로써 얻어진다. 온도가 낮을수록 모델이 더 강해지고 온도가 높을수록 모형의 변수가 증가한다.

이러한 측정을 수행하면서 연구팀은 몇 가지를 발견했다. 첫째, 양자화(quantizatio)가 얼마나 많은 개별 단위를 사용하는지가 중요하다. 높은 수는 높은 비트 레이트의 비용으로도 음향 수준에서 더 나은 결과를 산출한다.

둘째, 언어적 차원에서도 비슷한 추세에 있지만, 어떤 경우에는 너무 많은 단위를 사용하는 것은 오히려 해가 된다. 셋째, 다른 인코더는 매우 다른 결과를 생성했으며, HuBERT는 최상의 전체 결과를 제공했다.

넷째, 자동 생성 메트릭은 사람과 잘 관련되어 있다. 마지막으로 이러한 메트릭은 빠른 반복을 위한 좋은 프록시 역할을 하는 제로 리소스 음성 벤치마크(Zero Resource Speech Benchmark)의 더 빠른 계산 제로 샷 메트릭에 의해 예측되었다.

3개의 인코더(wav2vec, CPC 및 HuBERT)에 대한 자동 및 인적 메트릭스(낮은 것이 더 좋다)와 비교를 위한 LogMel은 3개의 사전 크기(50, 100 및 200)에서 k-평균을 사용하여 정량화된다. x축은 단위의 결과 비트 전송률입니다.
3개의 인코더(wav2vec, CPC 및 HuBERT)에 대한 자동 및 인적 메트릭스(낮은 것이 더 좋다)와 비교를 위한 LogMel은 3개의 사전 크기(50, 100 및 200)에서 k-평균을 사용하여 정량화된다. x축은 단위의 결과 비트 전송률.

인코더가 발견한 단위는 음소가 아니지만 동일한 속성을 많이 가지고 있다. 그들은 스피커 및 채널 정보를 무시하면서 음성 대조를 인코딩한다('pa'와 'ba'를 구별하는 것과 같이).

또한 음소와 마찬가지로 억양이나 리듬과 같이 표현력이 강한 글로벌 음성 속성을 무시하는 경우가 많다. 이것은 운율로 알려져 있다. 그래서 우리의 두 번째 단계는 인코더와 디코더를 개선하여 운율을 포착하는 것이다.

게다가, 음소와 마찬가지로 그들은 종종 억양과 리듬과 같은 표현력이 있는 더 세계적인 언어 특성을 무시한다. 이것을 운율(prosody)라고 한다. 그래서 연구팀의 두 번째 단계는 인코더와 디코더를 개선하여 운율을 캡처하는 것이다.

이를 위해, 연구팀은 고유한 잠재 표현을 얻기 위해 벡터 양자화를 활용하는 가변 자동 인코더를 훈련시킨다. 이른바 VQ-VAE 시스템은 위에서 설명한 분리형(중복 제거되지 않은) 유사 전화 장치, VQ-VAE의 양자화 된 피치 및 학습된 스피커 임베딩을 입력하는 단순화된 텍스트-음성 시스템과 함께 피치(F0) 정보를 제공한다.

비지도 분리 인코더-디코더 아키텍처에서 의사 텍스트 단위는 왼쪽 상단에, 양화된 피치 단위는 가운데에, 스피커는 하단에 각각 인코딩된다. 오른쪽에서 디코더는 파형을 재구성
비지도 분리 인코더-디코더 아키텍처에서 의사 텍스트 단위는 왼쪽 상단에, 양화된 피치 단위는 가운데에, 스피커는 하단에 각각 인코딩된다. 오른쪽에서 디코더는 파형을 재구성

연구팀은 LJspeech(단일 화자) 및 VCTK(다중 화자)에서 이 아키텍처를 평가했으며 HuBERT 기반 장치가 객관적인 메트릭과 주관적인 평가 점수 모두에서 매우 좋은 결과를 제공한다는 것을 다시 확인했다.

원본 오디오(GT, GT) 및 세 가지 유형의 이산 장치(CPC, HuBERT, VQ-VAE)와 비교하여 두 개의 데이터 세트(LJ: 단일 스피커 및 VCTK: 다중 스피커)에 대해 교육했을 때 시스템의 성능으로 연구팀은 인간 평가자(평균 의견 점수, MOS)와 함께 전 세계적으로뿐만 아니라 자동 기술을 사용하여 콘텐츠, F0 및 스피커의 3차원을 따라 크기를 평가했다.
원본 오디오(GT, GT) 및 세 가지 유형의 이산 장치(CPC, HuBERT, VQ-VAE)와 비교하여 두 개의 데이터 세트(LJ: 단일 스피커 및 VCTK: 다중 스피커)에 대해 교육했을 때 시스템의 성능으로 연구팀은 인간 평가자(평균 의견 점수, MOS)와 함께 전 세계적으로뿐만 아니라 자동 기술을 사용하여 콘텐츠, F0 및 스피커의 3차원을 따라 크기를 평가했다.

또한 음성 및 운율 단위가 높은 수준의 화자 독립성을 달성함에 따라 모델은 원래 입력의 음성 단위와 운율을 유지하면서 출력 스피커 임베딩을 변경하여 음성 전송을 수행할 수 있었다.

음성 코덱으로 사용되어 음성 임베딩과 단위 및 운율에 대한 분리 코드만 전송할 수 있다. 시스템은 훨씬 낮은 비트 전송률을 사용하면서 현재 음성 코덱과 유리하게 비교되었다. 정확히는 압축 품질이 비슷한 표준 코덱인 Opus와 비교하면 20배, 벡터 양자화 변형 자동 인코더를 사용하는 최신 연구 음성 코덱과 비교하면 2배다.

연구팀의 마지막 단계는 표현적 운율을 LM에 통합하고 음성의 내용 측면과 운율 측면을 공동으로 모델링하는 것이다. 입력 및 출력 레이어에 여러 헤드가 있는 멀티스트림 인과적 트랜스포머(causal Transformer)를 도입했다. 여기에서는 유사 전화(pseudo-phone) 단위, 지속 시간 및 양자화된 피치의 세 가지 채널을 사용했다.

멀티스트림 인과적 트랜스포머. 여기서 이산 유사 전화 단위 u는 지속 시간 d와 양자화된 로그 피치(feh)로 보완된다.
멀티스트림 인과적 트랜스포머. 여기서 이산 유사 전화 단위 u는 지속 시간 d와 양자화된 로그 피치(feh)로 보완된다.

연구팀의 기준 모델에서와 같이, 이 운율-GSLM은 오디오북의 원시 파형으로부터 학습된다. 이러한 추가 채널과 작업을 추가하면 유닛의 복잡도 점수 측면에서 LM 성능이 향상된다. 또한, 시스템이 동일한 프롬프트(음성 내용과 샘플을 지속시간과 음색만 부과하는 경우)에 대해 여러 현실적인 운율적 인페인팅(Inpainting)을 생성할 수 있다는 것을 보여줬다.

운율적 ‘인페인팅’ 과제는 연구팀이 의사음성 단위를 고치고, 그에 대한 다른 운율을 생성하도록 하는 것이다(여기서 운율의 처음 3초도 고정되어 있다).
운율적 ‘인페인팅’ 과제는 연구팀이 의사음성 단위를 고치고, 그에 대한 다른 운율을 생성하도록 하는 것이다(여기서 운율의 처음 3초도 고정되어 있다).

이상으로 더 자세한 내용은 아래 첨부된 발표 논문을 참고하면 된다.

한편, 페이스북 AI는 이 연구가 계속됨에 따라, 다음 목표는 텍스트 기반 방법과 ASR이 가장 어려움을 겪고 있는 가볍고 자발적인 음성 및 대화의 데이터 세트에 GSLM을 적용하는 것이다.

또한, 구어 요약이나 구어 정서(감정) 분석, 정보 검색 작업과 같은 라벨링된 데이터가 거의 없는 상황에서 훈련된 다운스트림 작업을 사전 학습하는 데 GSLM이 효과적인 방법이 될 수 있음을 보여주고자 한다고 밝혔다.

특히, 구술 언어가 서면 언어보다 제공하는 표현력과 의미의 미묘함에 있어서 엄청난 이점을 활용하는 것으로 페이스북의 목표는 세계 어느 언어에 대해서도 모델을 학습시키는 것이 가능하도록 하는 것이다. 이를 통해 인간의 사고를 이해하는 데 거의 무한한 잠재적 데이터가 수집되고 활용하는 것이라고 덧붙였다.

한편, 이 음성 기반 자연어처리 기술 및 연구는 지난 2월에 아카이브를 통해 1단계로 '원시 오디오의 생성적 구어 모델링(Generative Spoken Language Modeling from Raw Audio-다운)', 2단계로 7월 27일 '이산 분리된 자체 지도 표현에서 음성 재합성(Speech Resynthesis from Discrete Disentangled Self-Supervised Representations-다운)', 3단계로 지난 7일(현지시간) '텍스트 없는 운율 인식 생성 구어 모델링(Text-Free Prosody-Aware Generative Spoken Language Modeling-다운)'이란 제목으로 발표됐다.

현재,  코드 및 사전 훈련된 모델은 깃허브(다운)를 통해 공개돼 누구나 사용할 수 있으며, 이 모델에 대한 업데이트를 공유할 수 있다.

관련기사

저작권자 © 인공지능신문 무단전재 및 재배포 금지