메타 AI의 이 모델은 음성, 이미지, 텍스트 등의 각 분야에서만 성능을 낼 수밖에 없었던 기존 모델 방식의 패러다임을 완전히 바꾼 것으로 주변 세계를 관찰하면서 사람처럼 학습하는 인공지능을 눈앞에 두게 된 것!...

레이블링(Labeling) 된 이미지, 텍스트, 오디오 및 기타 데이터 소스를 통해 명시적으로 학습하는 대신 환경을 직접 관찰하여 학습하는 자기지도학습(Self-supervised learning. 자체 감독)은 최근 다양한 분야에서 인공지능(AI)의 진화에 중요한 동인이 되고 있다.

그러나 사람들은 정보를 얻는 방법(시각 또는 소리 등)에 관계없이 유사한 방식으로 학습하는 것처럼 보이지만 실제로는 자기지도학습 알고리즘이 이미지, 음성, 텍스트 및 기타 정보로부터 학습하는 방식에는 큰 차이가 있다.

이러한 차이는 자기 지도 학습의 발전을 보다 광범위하게 적용하는 데 상당한 장벽으로 작용하고 있다. 예를 들어, 이미지를 이해하도록 설계된 강력한 AI 알고리즘은 텍스트와 같은 다른 양식(분야)에 직접 적용할 수 없기 때문에 여러 양식을 동시에 같은 속도로 추진하기는 어렵다.

여기에, 메타(Meta, 구 페이스북) AI가 세계 최초로 음성, 이미지, 텍스트를 동시에 인식하는 고성능 인공지능 자기 지도 알고리즘인 'data2vec'을 개발하고 오픈소스로 공개했다.

특히, 이 알고리즘은 이전의 단일 목적 최고의 음성, 이미지 및 텍스트 각각의 AI 모델을 능가했다고 한다. 메타 AI는 인기있는 이미지넷(ImageNet) 컴퓨터 비전 벤치마크에서 이 모델을 테스트해 기존 방법보다 우수한 성능을 보였다.

또한, 음성에서는 메타의 자체 원시 음성 구조 학습 모델인 wav2vec 2.0(다운)이나 휴버트(HuBERT-) 보다 더 나은 성능을 보였다. 텍스트의 경우, GLUE 벤치마크에서 테스트했으며 구글 버트(BERT)의 재 구현 모델인 로버타(RoBERTa-다운)와 마찬가지로 성능이 뛰어났다고 한다.

여전히, 대부분의 지도학습 기반 모델은 레이블링된 데이터로만 작동한다. 그러나 모델이 원하는 모든 일에 대해 레이블이 지정된 데이터를 수집하는 것은 어렵다. 예를 들어, 영어 음성 및 텍스트에 대한 레이블링된 대규모 데이터 세트를 만드는 데 많은 노력을 기울였지만 지구상에서 사용되는 수천 개의 언어에 대해 이 작업을 수행하는 것은 거의 불가능한 것이다.

data2vec은 이미지, 음성 및 텍스트에 대해 동일한 방식으로 학습(이미지:메타)
data2vec은 이미지, 음성 및 텍스트에 대해 동일한 방식으로 학습(이미지:메타)

Data2vec는 모달리티(modality)에 관계없이 입력 데이터의 자체 표현을 예측하도록 모델을 훈련함으로써 이를 단순화 했다. 시각적 토큰, 단어 또는 소리를 예측하는 대신 신경망의 레이어에 집중함으로써 단일 알고리즘에서 완전히 다른 유형의 목적을 함께 작동할 수 있도록 한 것으로 학습 작업에서 분야별 목표에 대한 의존성을 제거한 것이다.

여기서, 메타AI는 표현을 직접 예측하는 것은 그리 간단하지 않았다. 다양한 양식에서 신뢰할 수 있는 작업에 대한 기능에 강력한 정규화를 정의해야 했다.

메타 AI는 먼저 이미지, 텍스트 또는 음성 발화에서 대상 표현을 계산하기 위해 교사 네트워크(Teacher Network)를 사용했다. 다음으로, 입력의 일부를 마스킹하고 학생 네트워크(Student Network)로 프로세스를 반복한 다음 교사 네트워크의 잠재된 표현을 예측한다. 즉, 학생 네트워크가 교사 네트워크의 내부 표현 값을 예측하도록 학습한다는 것이다.

결론적으로 이 모델은 음성, 이미지, 텍스트 등의 각 분야에서만 성능을 낼 수밖에 없던 기존 모델 방식의 패러다임을 완전히 바꾼 것으로 주변 세계를 관찰하면서 사람처럼 학습하는 인공지능을 눈앞에 두게 된 것이다.

자기 지도 학습은 서로 다른 다양한 학습 목표를 통해 컴퓨터 비전, 이미지 및 기타 개별 분야에서 큰 진전을 이루었다. 특히, 이 모델의 접근법의 핵심은 보다 일반적으로 학습하는 것이며, 완전히 익숙하지 않은 작업을 포함하여 많은 다양한 작업을 수행할 수 있게 됐다는 것이다.

우리는 인공지능이 학습 데이터에 나타난 동물들을 인식할 뿐만 아니라 그들이 어떻게 생겼는지 말해주면 새로운 동물들을 인식하도록 적응하기를 원한다. Data2vec는 이 같은 다른 요구에서도 잘 작동할 수 있으며 현존하는 각 분야의 최고의 알고리즘보다 더 잘 작동한다는 것을 보여줬다.

이번 메타AI의 Data2vec는 더 일반적인 자기지도학습을 위한 길을 열었으며, AI가 비디오, 기사, 오디오 녹음을 사용하여 축구 경기나 빵을 굽는 다른 방법과 같은 복잡한 주제에 대해 배울 수 있는 세계로 더 가깝게 다가간 것이다.

그리고 AI가 어떤 작업을 수행하기 위해 수천 개의 언어에 대한 음성 인식 모델을 교육하기 위해 주석이 달린 예제를 수집하는 것은 어렵고 때로는 불가능하다. 이처럼 필수적이었던 레이블링된 데이터를 거의 필요로 하지 않는 보다 일반적인 인공지능(General Model Architectures)을 향한 중요한 단계로 평가 된다.

한편, 이번 연구 및 개발 논문은 'data2vec : 음성, 비전 및 언어에서의 자기 지도 학습을 위한 일반적인 프레임 워크(A General Framework for Self-supervised Learning in Speech, Vision and Language-다운)'란 제목으로 지난 20일 발표됐다. 소스코드는 현재, 깃허브(다운)를 통해 공개돼 있다.  

 

참고로 일반적인 인공지능에서 구글 딥마인드(DeepMind)가 지난해 7월 '퍼시버: 반복적 관심을 통한 일반적인 지각(Perceiver: General Perception with Iterative Attention-다운)'란 제목으로 발표한 트랜스포머를 기반으로 하는 모델 '퍼시버 (Perceiver)'도 이미지, 포인트 클라우드, 오디오, 비디오 및 비디오+오디오 등 다양한 모달리티에 걸친 분류 작업에 대해 강력하고 전문화된 모델을 능가하는 경쟁력을 갖추고 있다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지