웃을 때 입술 구부러지는 등 특징점 최적화 매핑

이 모델은 미묘한 표정 변화를보다 잘 포착하여 분위기를 더 잘 측정한다(사진:MIT, 편집:본지)

인공지능이 인간의 얼굴 표정을 분석하고 감정을 해석하는 시대이다. 이에 따라 반응하는 로봇과 컴퓨터가 개발됐다.

개인의 건강과 생활을 모니터링하고, 교실에서는 학생의 관심을 측정하고, 특정 질병의 징후를 진단하고, 유용한 로봇 동반자를 개발하는 등의 AI 응용 프로그램이 하루가 다르게 진화하고 있다.

하지만 다양한 요인(要因)에 따라 사람들이 감정을 감지하고 표현한다는 것이 과제이다. 인종, 문화, 성별 및 연령대에 따라 일반적인 차이점은 확인할 수 있다.

그러나 다른 차이점은 더욱 세분화돼 있으며 인간은 순간에 따른 표현, 말, 행복 또는 슬픔에 대한 미묘한 변화를 가져온다.

또 인간의 두뇌는 본능적으로 이러한 편차를 포착한다. 하지만 기계는 어려운 문제이다.

딥러닝 기술은 최근 몇 년 동안 미묘한 부분을 포착하기 위해 개발됐지만 여전히 다양한 인구 집단에서 정확하거나 적응력이 떨어진다.

최근 MIT 미디어 랩 연구팀이 컴퓨터가 인간처럼 자연스럽게 감정을 해석하는 데 한 걸음 더 다가가는 머신러닝 모델을 개발했다.

이 모델은 수천 개의 얼굴 이미지를 학습하면서 이러한 작은 표정 변화를 포착할 때 기존 시스템보다 매우 우수하고 인간의 분위기를 더 잘 감지한다. 또 연구팀은 약간의 추가 학습데이터를 사용해 완전히 새로운 사람들 그룹에 모델을 적용할 수 있다고 한다.

일반적으로 우리가 소셜 인텔리전스를 갖춘 로봇을 원한다면 인간과 같이 기분과 감정에 지능적이고 자연스럽게 반응하도록 해야 한다.

기존 정서적 컴퓨팅 모델은 '모든 크기에 맞는(one-size-fits-all)' 일률적인 개념을 사용하지만 연구팀은 다양한 얼굴 표정을 묘사하는 한 데이터 세트의 이미지를 학습시켰다. 여기에 많은 신경망 모델이 각각 별도의 처리 작업을 전문으로 하고 하나의 출력을 생성하도록 훈련됐다.

예를 들어 웃을 때 입술이 구부러지는 등의 다양한 방식과 같은 특징을 최적화하고 전체적인 새로운 이미지 세트에 대해 특징 점의 최적화를 매핑(mapping)하는 것이다.

그 대신 연구팀은 '전문가(experts 이하 MoE)'라는 기술을 개인화 모델 기술과 결합하여 사람들의 보다 세밀한 얼굴 표정 데이터를 채굴할 수 있게 했다. 이 두 기술이 감성 컴퓨팅을 위해 결합된 것은 이번이 처음이라고 한다.

한편, 연구팀은 모델을 위해 각 MoE를 정서 컴퓨팅 응용 프로그램을 위해 설계된 비디오 채팅 플랫폼에서 대화하는 사람들에 적용된 공개 데이터베이스 레콜라(RECOLA) 데이터베이스의 18 개의 개별 비디오 중 하나와 일치시켜 MoE를 개인화했다. 9 개의 주제를 사용해 모델을 학습시키고 다른 9 개의 모델에서 모든 비디오를 개별 프레임으로 분류하고 평가했다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지