모델은 음성 설명을 사용하여 이미지 내의 객체를 선택하는 방법을 학습한다.

MIT 컴퓨터 과학자들은 이미지의 구두 설명을 기반으로 이미지 내의 객체를 식별하는 방법을 개발했다.(사진:MIT)
MIT 컴퓨터 과학자들은 이미지의 구두 설명을 기반으로 이미지 내의 객체를 식별하는 방법을 개발했다.(사진:MIT)

MIT 컴퓨터 과학자들은 이미지의 구두 설명을 기반으로 이미지 내의 객체를 식별하는 방법을 개발했다고 18일(현지시각) 밝혔다. 이 기술은 이미지와 오디오 캡션이 주어지면, 모델은 설명되는 이미지의 관련 영역을 실시간으로 강조 표시한다.

일반적인 음성 인식 기술과 달리, 이 모델은 훈련된 예제의 수작업 글자와 주석을 요구하지 않는다. 대신 녹음된 음성 클립과 원본 이미지 안의 물체에서 직접 단어를 학습하고 서로 연결하는 것으로 모델은 현재 수백 개의 다른 단어와 개체 유형만 인식할 수 있지만 MIT 연구원들은 언젠가 그들의 결합된 언어-객체 인식 기술이 수많은 시간 동안 수작업의 고통을 덜어주고 음성 및 이미지 인식에서 새로운 문을 열 수 있기를 기대한다고 밝혔다.

예를 들어, 애플 시리(Siri) 및 구글 보이스(Google Voice)와 같은 음성 인식 시스템에는 수천 시간의 음성 녹취 데이터가 필요하다. 이러한 데이터를 사용하여 시스템은 음성 신호를 특정 단어로 매핑하는 방법을 학습한다. 그러한 그 접근법은 새로운 용어가 우리의 어휘소(어휘 목록을 이루는 단위) 안으로 들어오게 되고, 시스템을 재교육해야 할 때 특히 문제가 된다.

MIT 컴퓨터 과학 및 인공지능 언어 연구소(CSAIL, Computer Science and Artificial Intelligence Laboratory) 연구원인 데이비드 하와트(David Harwath)와 스포켄(Spoken)은 "우리는 언어 인식을 좀 더 자연스러운 방법으로 하고 싶었습니다. 인간이 사용할 수 있는 이점이 있는 추가 신호와 정보를 활용하면서 말입니다. 하지만 머신러닝 알고리즘은 일반적으로 접근할 수 없었으며, 우리는 세계를 돌아다니며, 보고 있는 것과 말하는 것과 비슷한 방식으로 모델을 훈련하는 아이디어를 얻었습니다."라고 말했다.

연구팀은 최근 유럽 컴퓨터 비전 컨퍼런스에 이 모델을 설명하는 논문을 공동 발표했다. 논문에서 연구자들은 "빨간 머리를 가진 하얀 등대가 파란 드레스를 입고 금발 머리와 파란 눈을 가진 어린 소녀"의 이미지에 그들의 모델에 보여준다. 그러면 이 모델은 이미지에서 어떤 픽셀이 "소녀", "금발 머리", "파란 눈", "파란 드레스", "하얀등대" 및 "빨간 지붕"이라는 단어와 일치하는 픽셀을 연관시키는 방법을 학습했다. 오디오 캡션이 내레이션 되면 모델은 설명 된 대로 이미지의 각 오브젝트를 강조해 표시한다.

이 응용 프로그램 중 하나는 이중 언어 주석 작성자가 없어도 여러 언어 간의 번역을 학습한다. 현재 전 세계적으로 통용되는 것으로 추정되는 7,000 개 언어 중 100 개 정도만 음성 인식을 위한 충분한 녹음 데이터를 가지고 있다. 그러나 두 명의 다른 언어 사용자가 동일한 이미지를 묘사하는 상황에서 모델은 이미지의 객체에 해당하는 언어 A의 음성 신호를 학습하고 언어 B의 동일한 객체에 해당하는 신호를 학습하면서 두 신호와 일치하는 단어가 서로 번역되어 있다고 가정할 수 있는 것이다.

지난 2016년에 MIT의 연구자들은 필사 인식에 의존하지 않는 음성 인식 시스템을 교육하기 위한 새로운 접근법을 개발했다. 대신, 그들의 시스템은 오디오 녹음물의 큰 컬렉션에서 캡처된 이미지와 음성 이미지의 설명을 분석한다(사진:MIT)
지난 2016년에 MIT의 연구자들은 필사 인식에 의존하지 않는 음성 인식 시스템을 교육하기 위한 새로운 접근법을 개발했다. 대신, 그들의 시스템은 오디오 녹음물의 큰 컬렉션에서 캡처된 이미지와 음성 이미지의 설명을 분석한다(사진:MIT)

또한 지난 2016년 연구에서는 연구자들은 특정 단어와 특정 픽셀 패치를 연관 시키도록 모델을 수정했으며, 동일한 데이터베이스에서 모델을 교육했지만 총 400,000 개의 이미지 캡션 쌍이 추가되었으며, 그들은 테스트를 위해 무작위로 1,000 쌍을 보유했다. 또 훈련 과정에서 모델은 유사하고 부정확한 이미지와 캡션이 제공됐다.

하지만 이번에는 이미지 분석을 위해 콘볼루션 신경망(CNN, Convolutional Neural Network)이 이미지를 픽셀 패치로 구성된 셀 그리드로 나누고 오디오 분석 CNN은 스펙트로그램을 1 초 또는 2 초 분량의 세그먼트로 나누었다. 또 올바른 이미지와 캡션 쌍을 사용하여 모델은 그리드의 첫 번째 셀을 오디오의 첫 번째 세그먼트에 일치시킨 다음 동일한 셀을 두 번째 오디오 세그먼트와 일치시키는 식으로, 각 그리드 셀 전체에서 모든 시간 세그먼트, 각 셀 및 오디오 세그먼트에 대해 신호가 객체에 얼마나 가깝게 일치하는지에 따라 유사성 점수를 제공한다.

한편 이번 연구에서 가장 큰 문제는 훈련 중에 모델이 음성과 이미지 간의 실제 정렬 정보에 액세스 할 수 없다는 것이었으며, 하와트 연구원은 "이번 연구에서 가장 큰 공헌으로는 영상과 자막이 속한 네트워크와 그렇지 않은 네트워크를 간단하게 가르쳐줌으로써 이러한 교차-측면(오디오 및 비주얼) 정렬을 자동으로 추론 할 수 있음을 보여준 것으로 예측은 어디에서나 시작되지만 교육을 받으면 음성 단어와 시각적 객체 간의 의미론적 의미를 나타내는 정렬로 수렴됩니다."라고 전했다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지