퀄컴의 AI 기반 압축 기술, 비디오와 음성 모두에서 놀라운 향상... 생성적 적대 신경망 기반 차세대 코덱

퀄컴의 GAN 기반 코덱(상단 행)은 BPG 코덱(하단 행)보다 시각적으로 훨씬 더 만족스러운 더 적은 왜곡으로 더 높은 압축을 제공한다.(사진:퀄컴)

세상은 디지털화되고 있다. 인공지능(AI), 사물인터넷(IoT), 5G 등의 트렌드가 증가하면서 멀티미디어에 대한 수요가 증가함에 따라 효율적인 통신을 위해 압축이 필요한 엄청난 양의 데이터가 생성되고 있다.

예를 들어, 생성되고 소비되는 비디오 및 음성 데이터의 규모는 방대하다. 하루에 총 150억 분의 시간이 페이스북이 운영하는 인스턴트 메신저의 한 종류인 왓츠앱(WhatsApp) 통화에 사용되며, 시스코(Cisco) 연례 인터넷 보고서에 따르면 2022년까지 모든 소비자 인터넷 트래픽의 82%가 온라인 비디오가 될 것으로 예상하고 있다

이를 가능하게 하기 위해 원시 파일에 비해 차세대 비디오 압축표준 VVC(Versatile Video Coding) 압축으로 비디오 파일 크기가 약 1000배 감소하는 것과 같은 기술 혁신으로 인해 데이터 압축 기술이 수년 동안 비약적으로 향상되었다.

그러나 더 많은 데이터에 대한 수요가 단기간에 멈추지 않기 때문에 압축 기술의 발전은 그 어느 때보다도 중요하다. 이에 퀄컴은 새로운 비디오 및 음성에 대한 최신 인공지능(AI) 기반 압축 연구 중 일부를 공식 블로그를 통해 14일(현지시간) 발표했다.

압축에 인공지능이 필요한 이유

퀄컴은 레이블이 지정되지 않은 훈련 데이터를 가져와 동일한 분포에서 새 샘플을 생성하는 강력한 AI 기술인 비지도 학습에 대한 심층 생성 모델 연구를 수행했다.

이 기술을 통해 많은 사용 사례에 광범위하게 적용할 수 있지만 모델 자체가 입력 데이터의 저차원 기능 표현을 추출하고 학습하기 때문에 압축 및 압축 해제 응용 프로그램에 사용할 수 있었으며, AI 기반 압축이 기존 코덱에 비해 많은 장점을 가지고 있음을 확인했다고 한다.

예를 들어, AI 기반 압축은 더 나은 비율 왜곡 트레이드오프를 제공할 수 있다. 즉, 비디오의 경우 더 적은 비트로 동일한 수준의 시각적 품질을 제공할 수 있는 것이다. 여기서, 궁극적인 목표는 데이터를 가능한 한 축소하면서 원래 상태로 다시 디코딩할 수 있도록 하는 것이기 때문에 코덱을 평가하는 핵심 메트릭이다.

또 다른 이점은 가장 최신의 학습된 모델이 비교적 짧은 시간에 학습되고 배포를 위한 AI 가속 이외의 특수 목적 하드웨어가 필요하지 않기 때문에 새로운 AI 코덱을 업그레이드, 표준화 및 배포하기가 더 쉽다는 것이다. 또한 포인트 클라우드, 전방향 비디오 및 다중 카메라 설정과 같은 새로운 방식의 경우 신경 코덱을 더 쉽게 개발할 수 있다.

음성을 위한 최신 인공지능 압축 연구

퀄컴은 최첨단 음성 압축을 달성하기 위해 심층 생성 모델을 적용했다. 연구에서는 기존 코덱보다 낮은 비트 전송률을 달성하기 위해 종단 간 음성 압축을 위해 피드백 순환 변형 자동 인코더를 사용했다. 결과는 AI 솔루션을 사용하여 이미 음성을 상당히 압축하는 EVS 음성 코덱에 비해 비트 전송률이 2.6배 향상되었다는 것이다.

퀄컴 AI는 EVS 음성 압축과 동일한 음성 품질에서 2.6배 비트 전송률 압축을 달성

비디오에 대한 최신 인공지능 압축 연구 결과

퀄컴은 최첨단 비디오 압축을 달성하기 위해 심층 생성 모델을 적용했다. 비디오의 가까운 스틸 이미지 이미지 프레임에서 발견되는 상당한 양의 공간적 및 시간적 중복성을 압축하려고 시도하는 인간이 설계한 알고리즘을 사용하기보다는 엔드 투 엔드 딥러닝을 사용해 이미지와 비디오에 대한 AI 압축에서 아래와 같이 몇 가지 발전을 이루었다.

신경 B-프레임 코딩(Neural B-frame coding)

B- 프레임 또는 양방향 프레임은 이전 및 다음 프레임을 기반으로 비디오의 변경 사항을 코딩한다. 이것은 더 복잡한 계산과 조정을 필요로 하지만 압축 속도를 향상시킨다. 기존의 AI 연구 방법은 B-프레임 코덱을 구현할 때 결함이 있지만, 퀄컴의 새로운 솔루션은 코덱이 가중치를 공유하고 더 효율적이면서 최첨단 속도 왜곡 결과를 제공할 수 있게 해준다.

인스턴스 적응형 비디오 압축을 통한 전형적인 과적합(오버피팅, Overfitting)

비디오에서 볼 수 있을 것으로 예상되는 이미지의 유형이 매우 좁은 시나리오가 있으므로, AI 코덱을 과적합하여 훨씬 더 압축된 인코딩 비트 스트림을 제공할 수 있다. 훨씬 낮은 비트 전송률로 스트리밍할 수 있는 인기 있는 네플릭스(Netflix) 시리즈용 신경 코덱의 이점이 있다.

퀄컴의 연구는 구글의 선도적인 신경 코덱에 비해 BD 비율이 24%나 절감되는 등 최첨단 결과를 달성했다고 한다. 여기서, 중요한 것은 SOTA 결과를 그대로 유지하면서 디코딩 복잡성을 72%까지 줄일 수 있기 때문에 모바일 친화적 솔루션이라는 점이다.

가변 비트 레이트 이미지 압축

하드웨어 또는 네트워크 조건의 제한으로 인해 비디오 및 이미지는 종종 다양한 비트 레이트에서 인코딩됩니다. 가변 비트레이트 이미지 압축은 더 간단한 배포를 제공한다.

가변 비트레이트를 달성하기 위한 다양한 솔루션이 있지만 궁극적으로는 모든 비트레이트를 내장하는 단일 비트스트림을 생성하기 위한 단일 모델을 원한다. 가변 비트율 진행성 신경 영상 압축 솔루션은 HEVC (H.265/MPEG-4 AVC-Advanced Video Coding)와 유사한 성능을 달성하지만 단일 모델과 단일 비트 스트림만 사용한다.

의미 인식 이미지 압축(Semantic-aware image compression)

이미지에 관심 있는 영역의 경우, 퀄컴은 시각적 품질을 높이기 위해 더 많은 비트를 할당했다. 의미 인식 이미지 압축은 정확히 그렇게 함으로써 이미지 품질을 향상시킨다. 이 해결책으로 이미지에 대한 속도 왜곡 과적화에 대한 최첨단 결과를 제공하고, 다음 단계는 이 기술을 비디오로 확장했다.

생성적 적대 신경망(Generative Adversarial Network. GAN) 기반 코덱

퀄컴은 좋은 이미지 코덱을 만들기 위해 이미지 왜곡을 줄이고 지각 품질을 높이는 동시에 가장 낮은 비트 전송률을 최적화했다. 이것은 종종 많은 절충을 초래하지만, GAN은 정보가 거의 없을 때에도 시각적으로 매력적인 것이 과적화로 이어지기 때문에 GAN은 전통적인 코덱에 비해 더 우수한 품질의 이미지를 생성할 수 있었다.

최창현 기자 aitimes@naver.com

다른기사 보기

상단영역

본문영역

퀄컴의 AI 기반 압축 기술, 비디오와 음성 모두에서 놀라운 향상... 생성적 적대 신경망 기반 차세대 코덱

기사 댓글 0

비회원 로그인