고성능 이미지 분류 모델을 생산하기 위해 훨씬 적은 데이터와 컴퓨팅 리소스를 필요로 한다. 3일 동안 단일 8-GPU 서버로 DeiT 모델을 훈련하여, 학습에 외부 데이터를 사용하지 않고 널리 사용되는 이미지넷(ImageNet) 벤치마크에서 84.2 top-1 정확도를 달성했다.

페이스북은 최근에 인공지능(AI)의 많은 분야에서 획기적인 심층 신경망 아키텍처인 트랜스포머(Transformers)를 활용하는 컴퓨터 비전 모델을 훈련시키는 새로운 방법을 개발했다.

트랜스포머 모델은 자연어 처리(NLP) 및 기계 번역에서 최첨단 결과를 냈으며 페이스북 AI는 언어 인식, 상징 수학(Symbolic Mathematics) 및 프로그래밍 언어 간의 번역과 같은 작업과 새로운 기반을 개척하기 위해 아키텍처를 사용했다. 또 AI 연구 커뮤니티는 지난해 초 발표된 DETR 객체 탐지 아키텍처와 같은 프로젝트로 트랜스포머를 컴퓨터 비전 분야에 끌어들이기 시작했다.

데이터 효율적인 이미지 변환기(Data-efficient image Transformers. 이하, DeiT)라는 페이스북의 새로운 기술은 고성능 이미지 분류 모델을 생산하기 위해 훨씬 적은 데이터와 컴퓨팅 리소스를 필요로 한다. 3일 동안 단일 8-GPU 서버로 DeiT 모델을 훈련하여, 학습에 외부 데이터를 사용하지 않고 널리 사용되는 이미지넷(ImageNet) 벤치마크에서 84.2 top-1 정확도를 달성했다.

이 그래프는 페이스북의 접근 방식(Distillation 통한 DeiT 및 DeiT)을 이전의 시각적 트랜스포머 모델 및 최신 CNN과 비교하는 성능 곡선을 보여준다. 여기에 표시된 모델은 ImageNet에서 학습됐다.
이 그래프는 페이스북의 접근 방식(Distillation 통한 DeiT 및 DeiT)을 이전의 시각적 트랜스포머 모델 및 최신 CNN과 비교하는 성능 곡선을 보여준다. 여기에 표시된 모델은 ImageNet에서 학습됐다.

이러한 결과는 수년 동안 이미지 분류에 대한 접근방식이었던 최첨단 컨볼루션 신경망(CNN)의 성능과 비교된다.

이는 일반적인 학술 데이터 세트만 사용하여 이미지 분류를 위해 트랜스포머를 효율적으로 학습할 수 있다는 것을 보여줌으로써, 컴퓨터 비전 분야를 발전시키고, 트랜스포머를 새로운 사용 사례로 확장하며, 대규모 AI 모델을 훈련하기 위해 대규모 시스템에 접근할 수 없는 연구원과 엔지니어들이 이 작업을 더 쉽게 할 수 있도록 돕는다.

보통 이미지 분류는 이미지의 주요 내용을 이해하는 작업은 사람에게는 쉽지만 기계에게는 어렵다. 특히 DeiT와 같은 컨볼루션이 없는 트랜스포머는 이미지에 대한 통계적 우선순위가 많지 않기 때문에 어려운 작업이다. 일반적으로 서로 다른 객체를 분류하는 방법을 배우려면 많은 예제 이미지를 학습해야 한다. 그러나 DeiT는 수억 개의 이미지를 요구하는 대신 120만 개의 이미지로 효과적으로 학습할 수 있다.

DeiT의 첫 번째 중요한 요소는 학습 전략이다. 페이스북은 처음에 컨볼루션 신경망을 위해 개발된 기존 연구를 기반으로 적응시켰다. 특히, 훨씬 더 큰 데이터 세트에 대한 훈련을 시뮬레이션 하기 위해 데이터 증강 및 최적화를 시켰다.

마찬가지로 중요한 것은 트랜스포머 아키텍처를 수정하여 네이티브 디스틸레이션(Distillation)을 가능하게 했다. 디스틸레이션은 한개의 신경 네트워크(학생)가 다른 네트워크(교사)의 출력으로부터 학습하는 과정이다. 여기서 CNN을 트랜스포머의 교사 모델로 사용했다. CNN의 아키텍처는 이미지에 대한 더 많은 이전 정보를 가지고 있기 때문에 상대적으로 적은 수의 이미지로 훈련될 수 있다.

디스틸레이션을 사용하면 신경망의 성능이 저하될 수 있다. 학생 모델은 서로 다른 두 가지 목표를 추구한다. 레이블이 지정된 데이터 세트에서 학습(강력한 감독)과 교사로부터 학습하는 것이다.

페이스북은 트랜스포머에 Distillation 토큰을 추가한 것으로 분류 벡터 및 이미지 구성 요소 토큰과 상호 작용한다. 이 Distillation 토큰의 목적은 교사 모델 (CNN)에서 학습하는 것이다.
페이스북은 트랜스포머에 Distillation 토큰을 추가한 것으로 분류 벡터 및 이미지 구성 요소 토큰과 상호 작용한다. 이 Distillation 토큰의 목적은 교사 모델 (CNN)에서 학습하는 것이다.

이를 완화하기 위해 변환된 이미지 데이터와 함께 네트워크를 통해 흐르는 학습된 벡터 인 증류 토큰(Distillation Token)을 도입했다. 디스틸레이션 토큰은 모델에 디스틸레이션 출력에 대한 신호를 보내며 이는 클래스 출력과 다를 수 있다. 이 새로운 디스틸레이션 방법은 트랜스포머에만 해당되며 이미지 분류 성능을 더욱 향상시킨다.

페이스북 AI팀은 DeiT는 트랜스포머를 사용하여 컴퓨터 비전을 발전시키는 데 있어 중요한 진전이며, CNN의 성능은 지난 8 년 동안 컴퓨터 비전 작업에 대한 지배적인 접근 방식이었으며 많은 개선 및 조정의 혜택을 받았음에도 불구하고 CNN 성능과 같은 경쟁력이 있다고 밝혔다.

또 DeiT는 AI 연구의 민주화에도 도움이 될 것이며, 데이터 및 컴퓨팅 리소스에 대한 액세스가 제한된 개발자가 이러한 새 모델을 교육하거나 사용할 수 있음을 보여준 것으로 더 큰 연구자 커뮤니티의 발전을 촉진하는 데 도움이 되기를 바란다고 밝혔다.

한편, DeiT는 소르본 대학(Sorbonne University)의 매튜 코드(Matthieu Cord) 교수와 협력(연구 논문)하여 개발되었다. 페이스북은 현재 코드를 오픈 소스(다운)로 공개했다.

관련기사

저작권자 © 인공지능신문 무단전재 및 재배포 금지