이 모델은 GAN를 기반으로 SAT(Semantic-aware Attentive Transfer)와 LGR(Layout Graph Reasoning)의 2 개의 모듈 설계로 구성됐다. 여기서, 자세와 움직임을 제어하는 ​​방법으로 이미지에 비친 인물의 관절과 골격을 감지해 자세 정보를 전송하는 자세 추정 모델이 지금까지의 주류였지만 이번 AI기술은 자세 추정 이외에도 시맨틱 세분화 기술을 통합하고 있다.

사진에서 인물의 복장, 체형, 자세, 움직임을 편집할 수있는 AI모델 개발(사진:아래영상캡처)
사진에서 인물의 복장, 체형, 자세, 움직임을 편집할 수있는 AI모델 개발(사진:아래영상캡처)

현재, 중국의 디지털 이미지 데이터베이스로부터 개인을 자동으로 식별하는 생체 인식 애플리케이션인 AI 얼굴 인식, AI 모션인식 등의 기술은 거의 모든 타겟을 확실하게 포착할 수 있다.

이 기술로 특정(지정한) 인물의 검색과 특정 시간·장소에 출현하는 인물 검색, 특정 인물과 함께 있는(주변) 인물 검색이 모두 가능하기 때문에 범죄수사, 미아 찾기 등에 효과적이며, 상업시설의 쇼핑 손님의 행동 패턴과 분석과 마케팅이나 서비스 개선 등 세계에서 두 번째로 큰 중국 산업 시장에서 공공안전, 금융 서비스, 운송 및 소매 유통과 같은 분야에서 광범위하게 사용되고 있다.

이 시장은 메그비(Megvii), 센스타임(SenseTime), 이투 테크놀로지(Yitu Technology), 졸로즈(ZOLOZ), 딥글린트(DeepGlint) 등 중국의 대표적인 5개의 AI 이미지 인식스타트업이 주도하고 있다.

편집 전과 후
편집 전과 후

그 중 하나인 이투 테크놀로지(依图科技)가 최근 베이징항공항천대학(Beihang University)과의 공동연구에서 카메라로 촬영한 인물 사진의 사람을 생성적 적대 신경망(Generative Adversarial Network. 이하, GAN)을 이용하여 다른 복장, 체형, 자세, 움직임까지 변환하는 AI 기술을 아카이브를 통해 '원하는대로 다시 캡처(Re capture as You Want)'라는 제목으로 모델을 발표했다.

최근 스마트폰의 보급률이 높아지고 카메라 시스템이 더욱 강력해짐에 따라 사람들은 일상생활에서 편리하게 고해상도의 사진을 찍을 수 있다. 특히 이 기술은 인물 사진에서 자세·뷰, 체형, 의상 스타일을 쉽게 편집할 수 있는 인물 재편집 방법을 제시했다. 여기서, 자세와 움직임을 제어하는 ​​방법으로는 이미지에 비친 인물의 관절과 골격을 감지하여 자세 정보를 전송하는 자세 추정 모델이 지금까지의 주류였지만 이번 기술은 자세 추정 이외에 시맨틱 세분화 기술을 통합하고 있다.

모델의 개요. 오른쪽에 SAT와 LGR 모듈의 세부 정보가 표시(사진:논문 캡처)
모델의 개요. 오른쪽에 SAT와 LGR 모듈의 세부 정보가 표시(사진:논문 캡처)

이 모델은 GAN를 기반으로 SAT(Semantic-aware Attentive Transfer)와 LGR(Layout Graph Reasoning)의 2 개의 모듈 설계로 구성되어 있다. 여기서 SAT는 생성 된 신체 부분마다의 특징 량을 소스에서 대상으로 전달하는 역할을 하며, LGR은 눈에 보이지 않는 신체 부분을 추론하는 역할을 한다.

GAN에서 사용되는 모듈의 하나 생성기에서 복장, 체형, 자세, 운동을 복합적으로 편집하고 식별기 모듈과의 적대 현실적인 결과물을 생성할 수 있도록 학습한다. 학습에는 홍콩 중문 대학교 멀티미디어 연구소의 딥패션(DeepFashion- 다운) 데이터 세트와 Market-1501(다운) 데이터 세트를 사용했다. 학습 모델은 유사한 연구와 비교해서 정성, 정량 실험에서 더 좋은 결과를 나타냈다. 더 자세한 기술은 이 모델의 연구논문(Re capture as You Want- 다운)을 참고하면 된다.(아래는 모델을 소개한 영상)

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지