고성능 이미지 분류 모델을 생산하기 위해 훨씬 적은 데이터와 컴퓨팅 리소스를 필요로 한다. 3일 동안 단일 8-GPU 서버로 DeiT 모델을 훈련하여, 학습에 외부 데이터를 사용하지 않고 널리 사용되는 이미지넷(ImageNet) 벤치마크에서 84.2 top-1 정확도를 달성했다.
페이스북은 최근에 인공지능(AI)의 많은 분야에서 획기적인 심층 신경망 아키텍처인 트랜스포머(Transformers)를 활용하는 컴퓨터 비전 모델을 훈련시키는 새로운 방법을 개발했다.
트랜스포머 모델은 자연어 처리(NLP) 및 기계 번역에서 최첨단 결과를 냈으며 페이스북 AI는 언어 인식, 상징 수학(Symbolic Mathematics) 및 프로그래밍 언어 간의 번역과 같은 작업과 새로운 기반을 개척하기 위해 아키텍처를 사용했다. 또 AI 연구 커뮤니티는 지난해 초 발표된 DETR 객체 탐지 아키텍처와 같은 프로젝트로 트랜스포머를 컴퓨터 비전 분야에 끌어들이기 시작했다.
데이터 효율적인 이미지 변환기(Data-efficient image Transformers. 이하, DeiT)라는 페이스북의 새로운 기술은 고성능 이미지 분류 모델을 생산하기 위해 훨씬 적은 데이터와 컴퓨팅 리소스를 필요로 한다. 3일 동안 단일 8-GPU 서버로 DeiT 모델을 훈련하여, 학습에 외부 데이터를 사용하지 않고 널리 사용되는 이미지넷(ImageNet) 벤치마크에서 84.2 top-1 정확도를 달성했다.
이러한 결과는 수년 동안 이미지 분류에 대한 접근방식이었던 최첨단 컨볼루션 신경망(CNN)의 성능과 비교된다.
이는 일반적인 학술 데이터 세트만 사용하여 이미지 분류를 위해 트랜스포머를 효율적으로 학습할 수 있다는 것을 보여줌으로써, 컴퓨터 비전 분야를 발전시키고, 트랜스포머를 새로운 사용 사례로 확장하며, 대규모 AI 모델을 훈련하기 위해 대규모 시스템에 접근할 수 없는 연구원과 엔지니어들이 이 작업을 더 쉽게 할 수 있도록 돕는다.
보통 이미지 분류는 이미지의 주요 내용을 이해하는 작업은 사람에게는 쉽지만 기계에게는 어렵다. 특히 DeiT와 같은 컨볼루션이 없는 트랜스포머는 이미지에 대한 통계적 우선순위가 많지 않기 때문에 어려운 작업이다. 일반적으로 서로 다른 객체를 분류하는 방법을 배우려면 많은 예제 이미지를 학습해야 한다. 그러나 DeiT는 수억 개의 이미지를 요구하는 대신 120만 개의 이미지로 효과적으로 학습할 수 있다.
DeiT의 첫 번째 중요한 요소는 학습 전략이다. 페이스북은 처음에 컨볼루션 신경망을 위해 개발된 기존 연구를 기반으로 적응시켰다. 특히, 훨씬 더 큰 데이터 세트에 대한 훈련을 시뮬레이션 하기 위해 데이터 증강 및 최적화를 시켰다.
마찬가지로 중요한 것은 트랜스포머 아키텍처를 수정하여 네이티브 디스틸레이션(Distillation)을 가능하게 했다. 디스틸레이션은 한개의 신경 네트워크(학생)가 다른 네트워크(교사)의 출력으로부터 학습하는 과정이다. 여기서 CNN을 트랜스포머의 교사 모델로 사용했다. CNN의 아키텍처는 이미지에 대한 더 많은 이전 정보를 가지고 있기 때문에 상대적으로 적은 수의 이미지로 훈련될 수 있다.
디스틸레이션을 사용하면 신경망의 성능이 저하될 수 있다. 학생 모델은 서로 다른 두 가지 목표를 추구한다. 레이블이 지정된 데이터 세트에서 학습(강력한 감독)과 교사로부터 학습하는 것이다.
이를 완화하기 위해 변환된 이미지 데이터와 함께 네트워크를 통해 흐르는 학습된 벡터 인 증류 토큰(Distillation Token)을 도입했다. 디스틸레이션 토큰은 모델에 디스틸레이션 출력에 대한 신호를 보내며 이는 클래스 출력과 다를 수 있다. 이 새로운 디스틸레이션 방법은 트랜스포머에만 해당되며 이미지 분류 성능을 더욱 향상시킨다.
페이스북 AI팀은 DeiT는 트랜스포머를 사용하여 컴퓨터 비전을 발전시키는 데 있어 중요한 진전이며, CNN의 성능은 지난 8 년 동안 컴퓨터 비전 작업에 대한 지배적인 접근 방식이었으며 많은 개선 및 조정의 혜택을 받았음에도 불구하고 CNN 성능과 같은 경쟁력이 있다고 밝혔다.
또 DeiT는 AI 연구의 민주화에도 도움이 될 것이며, 데이터 및 컴퓨팅 리소스에 대한 액세스가 제한된 개발자가 이러한 새 모델을 교육하거나 사용할 수 있음을 보여준 것으로 더 큰 연구자 커뮤니티의 발전을 촉진하는 데 도움이 되기를 바란다고 밝혔다.
한편, DeiT는 소르본 대학(Sorbonne University)의 매튜 코드(Matthieu Cord) 교수와 협력(연구 논문)하여 개발되었다. 페이스북은 현재 코드를 오픈 소스(다운)로 공개했다.
관련기사
- 페이스북 AI, 인간을 뛰어넘는 포커 실력을 보여주는 AI '레블(ReBeL)' 오픈 소스로 공개
- 페이스북AI, '지식 집약적 언어 작업' 벤치마크... 단일 소스에 11개 데이터 세트 정렬
- 페이스북 AI, 차등 개인정보보호 기능을 파이토치 모델에 학습시키기 위한 고속 머신러닝 라이브러리 오픈소스로 공개
- 보고, 듣고 판단하는 더 사람 같은 AI 구현 위한 페이스북 'AI 시청각 플랫폼' 오픈 소스로 공개
- [이슈] 페이스북 AI, 뉴욕대와 인공지능으로 'MRI 스캔 속도' 4배 더 빠르게
- 페이스북 AI, 딥러닝으로 하나의 컴퓨터 언어를 다른 언어로 번역하는 '트랜스코더' 오픈 소스로 공개
- 페이스북 AI, 딥페이크 꼼짝마라!... 100,000개 딥페이크 식별 '데이터 세트' 공개한다
- 페이스북 AI, 새로운 AI 챗봇... 뛰어난 성능과 사람처럼 구사하는 '블렌더' 오픈 소스로 공개
- 파이토치 새로운 모델 서비스 프레임워크 '토치서브(TorchServe)' 공개
- 페이스북 AI, 인공지능 개발자·연구자 위한... AI 대화식 시각화 도구 'HiPlot' 오픈 소스로 공개
- 페이스북 AI 연구소, 온라인 음성인식 위한 '머신러닝 프레임 워크' 오픈 소스로 공개
- [AI 리뷰] 페이스북 AI, 자가지도 학습과 다중 이미지 예측 통한 'COVID-19 악화 예측 AI' 오픈 소스로 공개
- [AI 리뷰] 페이스북 AI, 다국어 음성 AI 개발 위한 '8개 언어, 5만시간 오디오 세트' 오픈 소스로 공개
- [스페셜리포트] 101개국 구어와 문어, 실시간 번역하는 메타AI의 혁신적인 인공지능과 데이터셋 오픈소스로 공개