세상의 상호 작용을 인간처럼 환경에서 학습하고 환경과 상호 작용할 수 있는 머신을 가능하게 하는 데 한 단계 더 가까워진 것!...

CSAIL연구팀은 장면에 있는 물체 간의 기본 관계를 이해하고 텍스트 설명에서 장면의 정확한 이미지를 생성할 수 있는 모델을 개발(이미지:MIT)
CSAIL연구팀은 장면에 있는 물체 간의 기본 관계를 이해하고 텍스트 설명에서 장면의 정확한 이미지를 생성할 수 있는 모델을 개발(이미지:MIT)

"책상 위에 컴퓨터 모니터 앞에 있는 전화기 왼쪽에 볼펜이 있다" 이처럼 인간은 사물을 볼 때 사물과 사물 간의 관계를 이해하고 필요에 따라 그 항목에 따르는 작업을 수행할 수 있다.

그러나 많은 인공지능 모델은 개별 객체 간의 얽힌 관계를 이해하지 못한다. 예를 들어, 부엌에서 누군가를 돕기 위해 설계된 서비스 로봇은 "스토브 왼쪽에 있는 주걱을 들어 도마 위에 올려놓으십시오!"와 같은 명령을 따르는 데 객체 간 관계에 대한 이해부족으로 작업을 진행할 수 없다.

이 문제를 해결하기 위한 일환으로 미국 메사추세츠공과대학교(MIT) 컴퓨터과학인공지능연구소(Computer Science and Artificial Intelligence Laboratory, CSAIL) 연구팀은 장면에서 물체 간의 근본적인 관계를 이해하는 인공지능 머신러닝 모델을 개발했다.

연구원들이 개발한 프레임워크는 물체와 그 관계에 대한 텍스트 설명을 기반으로 장면의 이미지를 생성할 수 있다.
연구원들이 개발한 프레임워크는 물체와 그 관계에 대한 텍스트 설명을 기반으로 장면의 이미지를 생성할 수 있다.

모델은 개별 관계를 한 번에 하나씩 표현한 다음 이러한 표현을 결합하여 전체 장면을 설명하는 것으로 서로 다른 관계로 배열된 여러 객체가 포함된 경우에도 모델은 정확하게 인식한다고 한다.

이를 통해 산업용 로봇이 창고에 물건을 쌓거나 기기를 조립하는 것과 같이 복잡한 다단계 작업을 수행해야 하는 상황에도 적용될 수 있다. 즉, 인간처럼 환경에서 학습하고 환경과 상호 작용할 수 있는 머신을 가능하게 하는 데 한 단계 더 가까워진 것이다.

연구팀이 개발한 프레임워크는 "파란색 의자 왼쪽에 있는 나무 탁자"와 같이 물체와 그 관계에 대한 텍스트 설명을 기반으로 장면 이미지를 생성할 수 있다. 이 문장을 각각의 개별 관계를 설명하는 두 개의 작은 조각, "파란색 의자의 왼쪽에 있는 나무 테이블"과 "파란색 의자의 오른쪽에 있는 빨간색 소파"로 나눈 다음 각 부분을 개별적으로 모델링한다.

그런 다음 장면의 이미지를 생성하는 최적화 프로세스를 통해 이러한 조각이 결합된다.

연구팀의 에너지 기반 모델이라고 하는 머신러닝 기술을 사용하여 장면 설명에서 개별 객체 관계를 나타내며, 이 기술을 통해 하나의 에너지 기반 모델을 사용하여 각 관계 설명을 인코딩한 다음 모든 객체와 관계를 추론하는 방식으로 함께 구성할 수 있다.

일반적인 AI시스템은 모든 관계를 전체적으로 취하여 설명에서 한 번에 이미지를 생성한다. 그러나 이러한 접근 방식은 더 많은 관계가 있는 설명과 같은 배포 외 설명이 있는 경우 실패한다. 모델은 실제로 더 많은 관계를 포함하는 이미지를 생성하기 위해 한 번의 샷을 조정할 수 없기 때문이다.

그러나 모델은 개별적인 더 작은 모델을 함께 구성할 때 더 많은 수의 관계를 모델링하고 새로운 조합에 적응할 수 있다.

이 시스템은 반대로도 작동한다. 이미지가 주어지면 장면의 개체 간의 관계와 일치하는 텍스트 설명을 찾을 수 있다. 또한 해당 모델을 사용하여 장면의 개체를 재 정렬하여 새 설명과 일치하도록 이미지를 편집할 수 있다.

특히, 연구팀은 자신의 모델을 텍스트 설명이 제공되고 해당 객체와 해당 객체의 관계를 표시하는 이미지를 생성하는 다른 딥러닝 방법과 비교했다. 각 사례에서 연구팀의 모델은 기준을 능가했다고 한다.

또한, 이전에 본 적이 없는 장면의 모델 이미지와 각 이미지에 대한 여러 가지 다른 텍스트 설명을 보여주었고 이미지의 객체 관계와 가장 잘 일치하는 설명을 성공적으로 식별할 수 있었다.

인간은 몇 가지 예만 볼 수 있지만 모델은 그 몇 가지 예에서 유용한 정보를 추출하고 결합하여 무한한 조합을 만들 수 있다. 이 모델에는 더 적은 수의 데이터에서 학습하지만 더 복잡한 장면이나 이미지 생성으로 일반화할 수 있다.

결론적으로 주변 세계의 구성적 특성을 처리할 수 있는 시각적 표현을 개발하는 것은 컴퓨터 비전의 주요 공개 문제 중 하나다. 연구팀은 이미지에 묘사된 객체들 사이의 다중 관계를 명시적으로 모델링하는 에너지 기반 모델을 제안함으로써 이 문제에 상당한 진전을 이룬 것이다.

한편, 연구팀의 이번 연구 결과는 현지시간 6일부터 14일까지 개최되는 세계 최고 권위의 인공지능(AI) 학회인 신경정보처리시스템학회(Neural Information Processing systems. NeurIPS)2021’에서 '시각적 관계 작성 방법 학습(Learning to Compose Visual Relations-다운)'란 제목으로 발표된다. 현재, 이 코드는 깃허브(다운)를 통해 공개돼 있다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지