텍스트-이미지 또는 세그멘테이션 맵-이미지 애플리케이션을 위한 최신 모델에 비해 고갱2의 신경망은 훨씬 다양한 고품질 이미지를 생성

AI 페인팅 툴 고갱2의 진화
AI 페인팅 툴 고갱2의 진화

최근 딥러닝을 활용한 애플리케이션이 속속 등장하고 있다. 인공지능(AI) 활용의 대표적인 최신 사례로는  2019년 초 엔비디아 연구원이 개발한 아트 애플리케이션 ‘고갱(GauGAN)’을 꼽을 수 있다,

‘고갱'은 경관을 포함한 복잡하고 사실적인 이미지를 생성할 수 있는 최초의 시맨틱 이미지 합성 모델이다. 일종의 페인트 소프트웨어로, 바위와 호수, 나무 등을 지정해 간단히 선 처리만 하면 조건에 맞는 사진과 같은 이미지가 몇 초에 생성된다.

대략적인 스케치를 놀랍고 사실적인 장면으로 바꿔주는 이 AI 페인팅 웹 앱은 생성적 적대 신경망(GAN, generative adversarial networks)을 기반으로 실연하기 위해 개발됐다.

후기 인상주의 화가 폴 고갱(Paul Gauguin)의 이름을 딴 고갱(GauGAN)은 장면의 레이아웃을 묘사하는 레이블이 지정된 스케치인 분할 지도(segmentation map)로부터 포토리얼리스틱 이미지를 제작하는 애플리케이션이다.

사람들은 페인트 브러쉬와 페인트 버킷 툴을 통해 강, 풀, 바위, 구름을 포함한 라벨로 자신만의 풍경을 디자인할 수 있는 것이며, 스타일 트렌스퍼(style transfer) 알고리즘은 크리에이터들이 필터를 적용하거나 생성된 이미지의 색상 구성을 수정하거나 포토리얼리스틱 장면을 그림으로 전환할 수 있게 한다.

여기에, 23일(현지시간) 엔비디아가 짧은 단어만으로 사실적인 예술품을 만들어주는 최신 버전으로 진화 한 AI 페인팅 툴 '고갱2(GauGAN2)'를 공개했다.

새로운 고갱2 텍스트-이미지변환 기능은 엔비디아 리서치(NVIDIA Research)의 최신 엔비디아 AI 데모를 통해 체험할 수 있다. 다양한 텍스트 프롬프트와 스케치를 통해 고갱2는 사용자가 장면을 보다 세밀한 컨트롤과 빠른 장면 커스터마이징을 제공한다.

간단한 단어로 사실적인 예술품 생성하는 AI 페인팅 툴 ‘고갱2’
간단한 단어로 사실적인 예술품 생성하는 AI 페인팅 툴 ‘고갱2’

고갱2는 세그멘테이션 맵, 인페인팅과 텍스트-이미지 생성을 단일 모델에 결합하여 단어와 그림의 혼합을 사실적 예술로 바꾸는 강력한 도구다. 해당 데모는 최초로 단일 GAN 프레임워크 내에서 텍스트, 세멘틱 세그멘테이션(Semantic Segmentation), 스케치 및 스타일과 같은 여러 양식을 하나로 통합한다.

이 기술은 아티스트의 비전을 고품질 AI 생성 이미지로 더 빠르고 쉽게 전환할 수 있도록 돕는다.

상상한 장면의 모든 요소를 그릴 필요 없이 사용자는 ‘눈 덮인 산맥’과 같은 짧은 문구를 입력하여 이미지의 주요 특징과 테마를 빠르게 생성할 수 있다. 시작점은 스케치를 통해 특정 산을 더 높게 만들거나 전경에 몇 그루의 나무를 추가하거나 하늘에 구름을 추가하는 등 사용자 정의 또한 가능하다.

고갱2는 간단한 단어와 그림으로 사실적인 예술품을 생성한다
고갱2는 간단한 단어와 그림으로 사실적인 예술품을 생성한다

아티스트들은 고갱2를 사용하여 현실기반의 이미지뿐만 아니라 다른 세상의 풍경도 묘사할 수 있다. 예를 들어 두 개의 태양이 있는 스타워즈 시리즈의 상징적인 행성 타투인(Tatooine)의 풍경을 재현하기 위해 필요한 것은 사막, 모래언덕, 해라는 텍스트만으로 시작점을 만들고, 이를 기반으로 사용자는 두 번째 태양을 스케치해 넣을 수 있다.

고갱의 원리는 사용자가 텍스트 상자에 입력하는 모든 단어가 AI 생성 이미지에 더 많은 것을 추가하는 반복적인 과정이다. 고갱2의 AI 모델은 세계에서 가장 강력한 10대 슈퍼컴퓨터 중 하나인 엔비디아 DGX 슈퍼POD(DGX SuperPOD) 기반 엔비디아 셀린(Selene) 슈퍼컴퓨터를 사용해 훈련됐다.

천만 개의 고품질 풍경 이미지와 겨울, 안개 또는 무지개와 같이 단어와 단어가 해당하는 영상 간의 연결을 학습시키는 신경망이 사용됐다.

특히 텍스트-이미지 또는 세그멘테이션 맵-이미지 애플리케이션을 위한 최신 모델에 비해 고갱2의 신경망은 훨씬 다양한 고품질 이미지를 생성한다.

한편, 고갱2의 연구 데모는 아티스트를 위한 강력한 이미지 생성 도구의 미래를 보여준다. 엔비디아 RTX GPU가 있는 사람이라면 누구나 다운로드(다운)할 수 있는 고갱 기반의 엔비디아 캔버스(Canvas) 애플리케이션이 그 예시다. (아래는 시연영상)

 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지