미쓰비시 전기의 AI 플랫폼인 '마이사트(Maisart)' 콤팩트 AI 기술을 접목해 문맥 의존적 자연어 생성을 통해 인간과 고도로 자연스럽고 직관적인 상호작용을 위한 멀티모달 센싱 정보를 분석

기술의 개요(경로 안내 시스템 적용 예)
기술의 개요(경로 안내 시스템 적용 예)

미쓰비시 전기가 멀티모달 센싱 정보(차재 기기 나 로봇 등의 다양한 기기가 여러 센서를 통해 수집된 정보)를 자연 언어로 변환하는 장면 인식 능력에 기초해 인간과 매우 자연스럽고 직관적인 상호작용이 가능한 세계 최초로 AI '장면인식 인터랙션' 기술을 개발했다고 22일(현지시간) 발표했다.

또한 이 기술을 적용해 응용 프로그램의 하나로 사람과 자동차 간 자연스러운 말로 대화하는 경로 안내 시스템을 구축했다.

이 기술은 자사의 인공지능 플랫폼인 '마이사트(Maisart)' 콤팩트 AI 기술을 접목해 문맥 의존적 자연어 생성을 통해 인간과 고도로 자연스럽고 직관적인 상호작용을 위한 멀티모달 센싱 정보를 분석한다. 카메라로 캡처한 영상과 마이크로 녹음된 오디오 정보, 라이다(LiDAR)로 측정한 위치정보 등 멀티모달 센싱 정보를 기반으로 상황별 객체 및 이벤트를 인식하는 기술이다.

미쓰비시전기는 이러한 다양한 범주의 정보의 우선순위를 정하기 위해, 장면들을 정확하게 묘사하기 위한 적절한 단어 선택을 지원하기 위해 중요한 단일한 정보의 가중치를 자동으로 지원할 수 있는 주의력 다중모달 퓨전 기술을 개발했다. 또 공통 테스트 세트를 이용한 벤치마크 테스트에서 다중 모드 퓨전 기술은 오디오와 시각 정보를 사용하여 시각 정보만을 사용하는 경우보다 29% 높은 '이미지 설명 평가(CIDEr, Consensus-Based Image Description Evaluation) 점수(기기가 이해한 내용을 인간이 이해한 내용과 얼마나 유사한지를 나타내는 척도를 나타내는)를 획득했다.

한편, 미쓰비시 전기의 어텐셜 멀티모달 퓨전(Anterestal Multiodal Fusion)과 장면 이해 기술, 문맥 기반 자연 언어 생성의 조합은 다양한 상황에서 사용자와 매우 직관적인 상호작용을 위한 강력한 엔드투엔드(End-to-End) 장면 인식 인터랙션 시스템을 실현한다.


 

저작권자 © 인공지능신문 무단전재 및 재배포 금지