인공지능이 실시간 사람 동작과 개인 인식한다!...한양대 이영문 교수팀, 사람 포즈 인식·분석하는 AI ‘포즈플러스세그'

핵심은 성능을 전반적으로 향상시키는 학습 패러다임을 통한 연산량 증가 없이 사람 인식 및 포즈 추정에 있다. 또 기존 바운딩박스(bounding box: 이미지에서 물체가 어디에 위치하는지를 설명하는 방식 중 물체의 바운더리를 직사각형으로 표현하는) 방식의 개체 인식이 아닌 픽셀 방식의 객체 인식 그리고 포즈추정 모델을 동시에 학습하는 점

한양대학교(총장 김우승) 로봇공학과 이영문 교수 연구팀이 인공지능(AI)이 실시간으로 사람 및 사람의 포즈를 인식·분석하는 ‘포즈플러스세그(PosePlusSeg)’을 개발했다. AI가 사람을 인식함과 동시에 개별 행동을 추정할 수 있게 만든 기술이다.

AI가 사람의 행동을 파악하고 상황에 맞는 최적의 상호작용을 위해 사람을 정확히 인식하고 사람의 행동을 파악하는 기술이 필요하다. 하지만 기존의 기술로는 사람의 포즈에 따라 인식률이 달라지고, 특정영역 내 사람 수가 많아질 경우 연산량이 늘어나 분석 속도가 느려져 활용에 제약이 있었다.

두 개의 주요 파이프라인으로 구성된 제안된 접근 방식의 개요 (i) 포즈 추정 파이프라인은 강력한 키포인트 히트 맵과 신체 히트 맵을 사용하여 인간의 추정 포즈를 예측하고 (ii) 인스턴스 분할 파이프라인은 분할 마스크 및 마스크 오프셋을 사용하여 정의 인스턴스 수준 세분화.(이미지:논문캡처)

이 교수팀은 이 같은 문제를 해결하고자 사람을 먼저 찾고 신체부위를 찾아 포즈를 추정하는 기존 하향식(top-down) 방식 대신, 신체부위를 먼저 찾고 포즈를 추정하는 상향식(bottom-up) 방법을 사용했다.

이 기술은 모션캡쳐 영역에서 활용은 물론 향후 AI가 다수의 사람을 동시에 인식하고 개인별로 맞춤 서비스를 제공하는 애플리케이션 등 다양한 AI 영역에서 활용될 수 있을 것으로 예상된다.

포즈플러스세그의 핵심은 성능을 전반적으로 향상시키는 학습 패러다임(Multi-task Learning)을 통한 연산량 증가 없이 사람 인식 및 포즈 추정에 있다. 또 기존 바운딩박스(bounding box: 이미지에서 물체가 어디에 위치하는지를 설명하는 방식 중 물체의 바운더리를 직사각형으로 표현하는) 방식의 개체 인식이 아닌 픽셀 방식의 객체 인식 그리고 포즈추정 모델을 동시에 학습하는 점도 특징으로 꼽는다.

그 결과 포즈플러스세그는 대표적 하향식 방식인 메타(구 페이스북)의 사물을 감지하고 그 사물의 주변 경계선을 그려 식별하는 컨볼루션 신경망에 기반한 객체 감지 모델 'Mask R-CNN(논문 다운/ 소스 다운)' 처리속도(5 fps)보다 5배 이상 빠른(28fps) 수준으로 속도를 크게 향상시켰고, 이로 인해 AI의 실시간 인식·분석이 가능하게 만들었다.

한편, 니아즈 아메드(Niaz Ahmad), 자와드 칸(Jawad Khan), 김유현 연구원, 이영문 교수가 참여한 이번 연구는 지난달 28일부터 3월 1일 개최된 세계 최고 권위의 인공지능 학회인 AAAI 2022(Association for the Advancement of Artificial Intelligence 2022)에서 '포즈플러스세그를 이용한 인간 포즈 추정 및 인스턴스 분할(Joint Human Pose Estimation and Instance Segmentation with PosePlusSeg-다운)'란 제목으로 발표됐다. 현재, 소스 및 데이터 세트는 깃허브(다운)를 통해 공개돼 있다.

정한영 기자 hyjung@aitimes.kr

다른기사 보기

상단영역

본문영역

인공지능이 실시간 사람 동작과 개인 인식한다!...한양대 이영문 교수팀, 사람 포즈 인식·분석하는 AI ‘포즈플러스세그'

기사 댓글 0

비회원 로그인