얀 르쿤 비전의 핵심 구성 요소에 기반한 '이미지 조인트 임베딩 예측 아키텍처( I-JEPA)'라는 첫 번째 AI 모델인 이 모델은 픽셀 자체를 비교하는 것이 아니라 이미지의 추상적 표현을 비교하는 외부 세계의 내부 모델을 생성하여 학습..

뉴욕대 교수로 메타의 수석 AI 과학자 얀 르쿤(사진:메타)
뉴욕대 교수로 메타의 수석 AI 과학자 얀 르쿤(사진:메타)

메타(Meta)가 기존 이미지 생성 AI 모델들을 뛰어넘는 미완성 이미지를 더 정확하게 분석하고 완성할 수 있는 새로운 '인간과 같은(human-like)' 인공지능 모델과 구성 요소를 오픈소스로 13일(현지시간) 공개했다.

이 모델인 I-JEPA는 다른 생성형 AI 모델처럼 주변 픽셀만 보는 것이 아니라 외부 세계에 대한 배경 지식을 사용하여 이미지의 누락된 부분을 채운다.

이 접근 방식은 뉴욕대학교(NYU) 교수이자 메타의 최고 AI 과학자 얀 르쿤(Yann LeCun)이 AI 시스템이 동물과 인간처럼 학습하고 추론할 수 있도록 하겠다는 비전에 주창한 인간과 유사한 추론을 통합한 것으로, 이 모델은 AI 생성 이미지에서 추가 손가락이 있는 손과 같은 공통적인 오류를 방지하는 데 도움이 된다.

인공지능 분야의 대표적인 석학인 얀 르쿤의 비전에 기반한 이 최초의 AI 모델은 보다 인간과 유사한 AI를 지향한다는 것을 특징으로 한다.

지난해 얀 르쿤은 가장 진보된 AI 시스템의 주요 한계를 극복하기 위한 새로운 아키텍처를 제시했다. 그의 비전은 세상이 어떻게 작동하는지에 대한 내부 모델을 학습하여 훨씬 더 빠르게 학습하고, 복잡한 작업을 수행하는 방법을 계획하고, 낯선 상황에 쉽게 적응할 수 있는 머신을 만드는 것이다.

얀 르쿤 비전의 핵심 구성 요소에 기반한 '이미지 조인트 임베딩 예측 아키텍처(Image Joint Embedding Predictive Architecture. 이하, I-JEPA)'라는 첫 번째 AI 모델인 이 모델은 픽셀 자체를 비교하는 것이 아니라 이미지의 추상적 표현을 비교하는 외부 세계의 내부 모델을 생성하여 학습한다.

이미지 기반 조인트 임베딩 예측 아키텍처(I-JEPA)는 단일 컨텍스트 블록을 사용하여 동일한 이미지에서 비롯된 다양한 대상 블록의 표현을 예측한다. 컨텍스트 인코더는 눈에 보이는 컨텍스트 패치만 처리하는 비전 트랜스포머(ViT)다. ▷예측기는 컨텍스트 인코더의 출력을 가져와 특정 위치에서 대상의 위치 토큰(색상으로 표시됨)에 따라 대상 블록의 표현을 예측하는 좁은 ViT이다. ▷대상 표현은 타겟 인코더의 출력에 해당하며, 가중치는 컨텍스트 인코더 가중치의 지수 이동 평균을 통해 각 반복마다 업데이트된다.
이미지 기반 조인트 임베딩 예측 아키텍처(I-JEPA)는 단일 컨텍스트 블록을 사용하여 동일한 이미지에서 비롯된 다양한 대상 블록의 표현을 예측한다. 컨텍스트 인코더는 눈에 보이는 컨텍스트 패치만 처리하는 비전 트랜스포머(ViT)다. ▷예측기는 컨텍스트 인코더의 출력을 가져와 특정 위치에서 대상의 위치 토큰(색상으로 표시됨)에 따라 대상 블록의 표현을 예측하는 좁은 ViT이다. ▷대상 표현은 타겟 인코더의 출력에 해당하며, 가중치는 컨텍스트 인코더 가중치의 지수 이동 평균을 통해 각 반복마다 업데이트된다.

I-JEPA는 여러 컴퓨터 비전 작업에서 강력한 성능을 제공하며, 널리 사용되는 다른 컴퓨터 비전 모델보다 훨씬 더 계산 효율적이다. 또한 I-JEPA로 학습한 표현은 광범위한 미세 조정 없이도 다양한 애플리케이션에 사용할 수 있다.

예를 들어, 16개의 A100 GPU를 사용하여 632M 파라미터의 시각적 변환기 모델을 72시간 이내에 훈련한 결과, 클래스당 12개의 라벨링된 예제만으로 이미지넷(ImageNet)에서 로우샷 분류를 위한 최첨단 성능을 달성했다. 다른 방법은 일반적으로 같은 양의 데이터로 학습할 때 2~10배 더 많은 GPU 시간이 소요되고 오류율도 훨씬 높다.

사전 트레이닝을 위한 GPU 시간의 함수로서 ImageNet-1k의 선형 평가 성능

또한 I-JEPA는 시맨틱 작업에서 수작업으로 만든 데이터 증강에 의존하는 이전의 사전 학습 접근 방식과도 경쟁력이 있다. 이러한 방법과 비교하여 I-JEPA는 물체 수 계산 및 깊이 예측과 같은 저수준 비전 작업에서 더 나은 성능을 발휘한다. 즉, 엄격한 귀납적 편향이 덜한 더 간단한 모델을 사용함으로써 I-JEPA는 더 다양한 작업에 적용할 수 있는 것이다.

한편, I-JEPA에 대한 논문 '조인트 임베딩 예측 아키텍처를 사용한 이미지의 자기 지도 학습(Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture-다운)'은 현지시간 18일부터 22일까지 캐나다 밴쿠버에서 열리는 '컴퓨터비전과 패턴인식 학술대회(CVPR 2023)'에서 발표될 예정이며, 학습 코드와 모델 체크포인트는 현재 깃허브를 통해 오픈 소싱(다운)하고 있다.

 

 

관련기사

저작권자 © 인공지능신문 무단전재 및 재배포 금지