CNN 기반의 초해상화를 접목한 새로운 방식으로 이는 열악한 인터넷 환경에서도 고품질, 고화질(HD)의 비디오 시청이 가능할 뿐 아니라 4K, AV/VR 등을 시청할 수 있는 새로운 기반 기술이 될 것

비디오의 한 장면을 캡처한 그림이며, 왼쪽 그림이 기존의 방식으로 비디오 시청 중 다운받은 저화질의 비디오이고 오른쪽 그림이 초해상화(Super-resolution) 기술을 이용하여 복원한 비디오이다. 왼쪽의 그림에 비해 선명하고 명확해진 것을 확인 할 수 있다.
비디오의 한 장면을 캡처한 그림이며, 왼쪽 그림이 기존의 방식으로 비디오 시청 중 다운받은 저화질의 비디오이고 오른쪽 그림이 초해상화(Super-resolution) 기술을 이용하여 복원한 비디오이다. 왼쪽의 그림에 비해 선명하고 명확해진 것을 확인 할 수 있다.

기존의 인터넷 비디오 스트리밍에서는 인터넷 대역폭에 의존적인 한계점이 존재한다. 인터넷 대역폭이 충분히 좋지 않은 경우에는 낮은 화질의 비디오를 시청해야했고 큰 불편함이 따른다. 또 비디오 전체에 걸쳐 계속 등장하는 특징이 비디오에 존재하며, 최근까지 이를 비디오 압축에서는 사용하지 않고 있다.

최근에 엄청난 속도로 컴퓨터 하드웨어(GPU)가 성장하고 있다. 반면에 이를 비디오 스트리밍 기술에서 충분히 이용하고 있지 않다. 컴퓨터 하드웨어(GPU)를 주로 이용하는 딥러닝 기술이 최근에 활발하게 연구되고 있고, 그중 저화질의 비디오를 고화질의 비디오로 변환해줄 수 있는 초해상화 (Super-resolution) 기술도 크게 발전하고 있다.

참고)업스케일링 또는 초해상화 (Super-Resolution): 업스케일링(초해상화)이란, 화소로 구성된 디스플레이에서 수평×수직 비율을 정교하게 확장하여 훨씬 향상된 품질의 비디오 콘텐츠를 시청하게 하는 기술이다. 일례로, 업스케일링 기술을 이용하여 Full HD (수평×수직 = 1920×1080 화소 해상도) 비디오 영상을 4K-UHD TV 디스플레이 (3840×2160 해상도)에 수평×수직 해상도 각각 2배씩 확장하여 디스플레이하게 한다.

이런 가운데 국내연구진 KAIST(총장 신성철) 전기및전자공학부 신진우, 한동수 교수 연구팀이 딥러닝 기술을 이용한 인터넷 비디오 전송 기술을 개발한 것이다. 여현호, 정영목, 김재홍 학생이 주도한 이번 연구 결과는 격년으로 개최되는 컴퓨터 시스템 분야의 유명 학술회의인 ‘유즈닉스 OSDI(USENIX OSDI)’에서 10월 10일 발표됐고 현재 국제 특허 출원을 완료했다.

기술개요:비디오 서버에서는 비디오 시청을 하는 사용자에게 비디오 조각과 신경망 조각 두 가지를 전송한다. 사용자의 플레이어는 비디오 조각을 다운받는 경우에는 비디오 플레이어 버퍼에 축적하고, 신경망을 다운받는 경우에는 초해상화(Super-resolution)를 하기 위해 GPU에 저장하게 된다. 신경망을 다운받아 초해상화(Super-resolution)를 적용할 수 있는 상황에는 초해상화(Super-resolution) 기술을 사용하여 버퍼에 있던 저화질의 비디오를 고화질의 비디오로 변환시키고 비디오플레이어 버퍼의 저화질 비디오를 대체하게 된다.
기술개요:비디오 서버에서는 비디오 시청을 하는 사용자에게 비디오 조각과 신경망 조각 두 가지를 전송한다. 사용자의 플레이어는 비디오 조각을 다운받는 경우에는 비디오 플레이어 버퍼에 축적하고, 신경망을 다운받는 경우에는 초해상화(Super-resolution)를 하기 위해 GPU에 저장하게 된다. 신경망을 다운받아 초해상화(Super-resolution)를 적용할 수 있는 상황에는 초해상화(Super-resolution) 기술을 사용하여 버퍼에 있던 저화질의 비디오를 고화질의 비디오로 변환시키고 비디오플레이어 버퍼의 저화질 비디오를 대체하게 된다.

이 기술은 유튜브, 넷플릭스 등에서 비디오를 사용자에게 전송할 때 사용하는 적응형 스트리밍(HTTP adaptive streaming) 비디오 전송기술과 딥러닝 기술인 심층 콘볼루션 신경망(CNN) 기반의 초해상화를 접목한 새로운 방식으로 이는 열악한 인터넷 환경에서도 고품질, 고화질(HD)의 비디오 시청이 가능할 뿐 아니라 4K, AV/VR 등을 시청할 수 있는 새로운 기반 기술이 될 것으로 기대된다.

기존의 적응형 스트리밍은 시시각각 변화하는 인터넷 대역폭에 맞춰 스트리밍 중인 비디오 화질을 실시간으로 조절한다. 이를 위해 다양한 알고리즘이 연구되고 있으나 네트워크 환경이 좋지 않을 때는 어느 알고리즘이라도 고화질의 비디오를 감상할 수 없다는 한계가 있었지만 연구팀은 적응형 스트리밍에 초해상화를 접목해 인터넷 대역폭에 의존하는 기존 적응형 스트리밍의 한계를 극복했다. 기존 기술은 비디오를 시청 시 긴 영상을 짧은 시간의 여러 비디오 조각으로 나눠 다운받는다. 이를 위해 비디오를 제공하는 서버에서는 비디오를 미리 일정 시간 길이로 나눠 준비해놓는 방식이다.

비디오 서버로부터 비디오가 전송된 후 저화질의 비디오가 고화질의 비디오로 변환되는 과정을 나타낸 그림이다. 1080p가 아닌 비디오는 모두 1080p의 고화질 비디오로 변환이 된다
비디오 서버로부터 비디오가 전송된 후 저화질의 비디오가 고화질의 비디오로 변환되는 과정을 나타낸 그림이다. 1080p가 아닌 비디오는 모두 1080p의 고화질 비디오로 변환이 된다

또한 새롭게 개발한 시스템은 추가로 신경망 조각을 비디오 조각과 같이 다운받게 했다. 이를 위해 비디오 서버에서는 각 비디오에 대해 학습이 된 신경망을 제공하며, 사용자 컴퓨터의 사양을 고려해 다양한 크기의 신경망을 제공한다. 제일 큰 신경망의 크기는 총 2메가바이트(MB)이며 비디오에 비해 상당히 작은 크기이다. 신경망을 사용자 비디오 플레이어에서 다운받을 때는 여러 개의 조각으로 나눠 다운받으며 신경망의 일부만 다운받아도 조금 떨어지는 성능의 초해상화 기술을 이용할 수 있도록 설계했다.

(왼쪽부터)김재홍, 정영목 석사과정, 여현호 박사과정, 한동수 교수, 신진우 교수(사진:KAIST)
(왼쪽부터)김재홍, 정영목 석사과정, 여현호 박사과정, 한동수 교수, 신진우 교수(사진:KAIST)

사용자의 컴퓨터에서는 동영상 시청과 함께 병렬적으로 심층 콘볼루션 신경망(CNN) 기반의 초해상화 기술을 사용해 비디오 플레이어 버퍼에 저장된 저화질 비디오를 고화질로 바꾸게 된다. 모든 과정은 실시간으로 이뤄지며 이를 통해 사용자들이 고화질의 비디오를 시청할 수 있으며, 개발한 시스템을 이용하면 최대 26.9%의 적은 인터넷 대역폭으로도 최신 적응형 스트리밍과 같은 체감 품질(QoE, Quality of Experience)을 제공할 수 있다. 또한 같은 인터넷 대역폭이 주어진 경우에는 최신 적응형 스트리밍보다 평균 40% 높은 체감 품질을 제공할 수 있다.

한편 이 시스템은 딥러닝 방식을 이용해 기존의 비디오 압축 방식보다 더 많은 압축을 이뤄낸 것으로 볼 수 있다. 연구팀의 기술은 콘볼루션 신경망 기반의 초해상화를 인터넷 비디오에 적용한 차세대 인터넷 비디오 시스템으로 권위 잇는 학회로부터 효용성을 인정받았다. 현재 이 기술은 데스크톱에서만 구현했지만 향후 모바일 기기에서도 작동하도록 발전시킬 예정이며, 이 기술은 현재 유튜브, 넷플릭스 등 스트리밍 기업에서 사용하는 비디오 전송 시스템에 적용한 것으로 실용성에 큰 의의가 있다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지