인기 있는 영어 하위 레딧(Reddit)에서 추출되고 기존 분노, 놀람, 혐오, 기쁨, 두려움, 슬픔 등의 6가지를 27개의 감정 카테고리로 분류하고 레이블이 지정된 58,000개의 댓글로 인간 주석이 달린 대규모 데이터 세트

이미지:본지 DB 및 픽사베이, 편집:본지
이미지:본지 DB 및 픽사베이, 편집:본지

감정은 사람들이 행동하고 관계를 형성하는 방식에 영향을 미치는 사회적 상호 작용의 가장 핵심적인 측면이라고 할 수 있다. 또한, 단 몇 단어만으로 우리는 다양하고 미묘하고 복잡한 감정을 표현할 수 있다.

따라서 인공지능에서 사람의 감정을 이해한다는 것과 그 감정에 대응할 수 있도록 하는 것은 스마트 스피커에서 화자의 감정을 인식하고, 운행 중 운전자와 승객의 현재 감정을 파악할 수 있으며, 기업은 옴니 채널에서의 실시간 고객의 감정을 인식해 향상된 고객 지원, 로봇 등 다양한 AI 애플리케이션 구현이 가능해진다.

지난 10년 동안 자연어처리(NLP) 연구에서는 언어 기반 감정 분류를 위한 여러 데이터 세트를 제공해왔다. 이들 중 대부분은 수동으로 구성되며, 표적 영역(뉴스 헤드라인, 영화 자막, 심지어 동화 등)을 다루고 상대적으로 작거나 6가지 기본 감정(분노, 놀람, 혐오, 기쁨, 두려움, 슬픔)의 데이터 세트는 1992년부터 제공되기 시작했다.

그러나 이러한 감정 데이터 세트는 인간 감정 분류에 대한 기본(초기)적인 탐색을 가능하게 했지만, 인공지능에서 미세하고 세분화된 감정 표현과 이해는 더 넓은 범위의 미래 잠재적 응용을 촉진하고 보다 광범위한 감정 세트에 대한 대규모 데이터 세트의 필요성이 강조돼 왔다.

여기에, 구글 AI가 지난해 발표한 '고이모지: 미세한 감정의 데이터 세트(GoEmotions: A Dataset of Fine-Grained Emotions)' 연구를 기반으로 인기 있는 영어 하위 레딧(Reddit)에서 추출되고 27개의 감정 카테고리로 레이블이 지정된 58,000개의 댓글로 인간 주석이 달린 대규모 데이터 세트인 '고이모지(GoEmotions)'를 지난 28일(현지시간) 발표하고 오픈 소스로 공개했다.

GoEmotions의 감정 분류로  중립을 포함하여 28개의 감정 범주(이미지:구글AI)
GoEmotions의 감정 분류로 중립을 포함하여 28개의 감정 범주(이미지:구글AI)

고이모지는 현재까지 주석이 달린 가장 크고 세분화된 영어 감정 데이터 세트로서 인간 심리학 및 AI에 데이터 적용 가능성을 염두에 두고 설계됐다. 특히, 긍정적인 감정(기쁨) 1개만 포함하는 기본 6가지 감정과 달리 긍정 12개, 부정 11개, 모호한 4개 감정 범주 및 1개의 중립(neutral) 감정 분류가 포함되어 있다.

구글 AI는 공개한 이 데이터 세트는 세분화된 감정 예측을 위해 수동으로 주석을 단 대규모 데이터 세트로 언어 기반 인공지능 감정 연구자 또는 개발자들에게 귀중한 자원이 되고 광범위한 사용자 감정을 다루는 창의적인 인공지능 감정 중심 애플리케이션을 구축할 수 있기를 바란다고 밝혔다.

한편, 이 데이터 세트의 기반이된 논문(다운)은 지난해 6월 발표됐다. 고이모지를  사용하여 신경 모델 아키텍처(TensorFlow Model Garden에서 사용 가능-다운)를 훈련하고 대화형 텍스트 기반으로 이모티콘을 제안하는 작업에 적용하는 과정을 자세한 듀토리얼(다운)과 함께, 데이터 세트 고이모지(GoEmotion-다운)와 모델 카드(다운)는 현재 깃허브를 통해 공개돼 있다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지