[AI 리뷰] 구글 리서치, 제로-샷 고품질 비디오 생성 위한 대형언어모델 '비디오포엣(VideoPoet)' 공개

이 모델은 웹과 앱, 공개 인터넷 및 기타 소스 등에서 2억 7천만 개의 동영상과 10억 개 이상의 텍스트-이미지 쌍에 대해 사전 학습하고, 해당 데이터를 텍스트 임베딩, 비주얼 토큰 및 오디오 토큰으로 전환하여 AI 모델을 조건화...

다양한 텍스트 프롬프트에서 VideoPoet이 생성한 각 비디오 화면 이미지 갈무리

최근 놀라운 화질을 구현하는 동영상 생성 인공지능 모델이 등장하고 있으며, 다수의 경우 놀라운 화질을 선보이고 있다. 현재, 비디오 생성의 병목 현상 중 하나는 일관된 대형 모션을 생성하는 기능이다. 그러나 주요 모델조차도 작은 모션을 생성하거나 큰 모션을 생성할 때 눈에 띄는 아티팩트(Artifacts)가 나타나는 경우가 많다.

여기에 31명의 연구원으로 구성된 구글 리서치(Google Research) 연구팀이 비디오 생성에서 언어 모델의 적용을 탐색하기 위해 텍스트 대 비디오, 이미지 대 비디오, 비디오 스타일화 등 다양한 비디오 생성 작업을 수행할 수 있는 대형언어모델(LLM)인 '비디오시인(VideoPoet. 이하, 비디오포엣)'을 공개했다.

이 모델은 웹과 앱, 공개 인터넷 및 기타 소스 등에서 2억 7천만 개의 동영상과 10억 개 이상의 텍스트-이미지 쌍에 대해 사전 학습하고, 해당 데이터를 텍스트 임베딩, 비주얼 토큰 및 오디오 토큰으로 전환하여 AI 모델을 조건화(Conditioned) 했다.

텍스트 "폭발하는 무지개 물감의 큰 물방울과 사과가 떠오르는 장면"으로 비디오포엣이 8K로 생성하는 영상 과정 이미지 갈무리(사진:논문 )

비디오 인페인팅 및 아웃페인팅, 비디오-오디오 등에서 한 가지 주목할 만한 점은 선도적인 비디오 생성 모델이 거의 전적으로 디퓨전(확산) 기반이라는 점이다(예: Imagen Video 참조). 반면 LLM은 언어, 코드 및 오디오(예 오디오PaLM 말하고 들을 수 있는 대규모 언어 모델-참조)를 포함한 다양한 양식에 걸친 탁월한 학습 능력으로 인해 사실상의 표준으로 널리 인정받고 있다.

이 분야의 다른 인공지능 모델과 달리 구글 AI 연구팀의 접근 방식은 각 작업을 전문으로 하는 별도로 훈련된 구성 요소에 의존하지 않고 단일 LLM 내에 여러 비디오 생성 기능을 원활하게 통합한다는 것이다.

비디오포엣의 다양한 기능은 입력 이미지를 애니메이션화하여 모션을 생성할 수 있으며(선택적으로 자르거나 마스킹한), 비디오를 편집하여 인페인팅 또는 아웃페인팅할 수 있다. 스타일화의 경우, 모션을 나타내는 깊이와 광학적 흐름을 나타내는 비디오를 가져와서 그 위에 콘텐츠를 페인팅하여 텍스트 안내 스타일을 생성한다(아래 그림 참조).

비디오 중심의 다양한 입력과 출력에 대한 멀티태스킹이 가능한 VideoPoet 개요로 LLM은 선택적으로 텍스트를 입력으로 받아 텍스트 대 비디오, 이미지 대 비디오, 비디오 대 오디오, 스타일화 및 출력 작업을 위한 생성을 안내할 수 있다.(이미지:구글)

비디오 생성기로서의 언어 모델

훈련에 LLM을 사용하는 주요 이점 중 하나는 기존 LLM 학습 인프라에 도입된 확장 가능한 효율성 개선 사항을 재사용할 수 있다는 점이다. 하지만 LLM은 개별 토큰에서 작동하므로 비디오 생성이 어려울 수 있다.

다행히도 비디오(확산을 능가하는 언어 모델: 토크나이저는 시각적 생성의 핵심-보기)와 오디오 클립(SoundStream: 엔드투엔드 신경 오디오 코덱-다운)을 불연속 토큰(즉, 정수 인덱스)의 시퀀스로 인코딩하는 역할을 하며 원래의 표현으로 다시 변환할 수 있는 비디오 및 오디오 토큰화 도구가 있다.

비디오포엣은 여러 토큰화 도구(비디오 및 이미지의 경우 MAGVIT V2, 오디오의 경우 SoundStream)를 사용하여 비디오, 이미지, 오디오 및 텍스트 양식에 걸쳐 학습하도록 자동 회귀 언어 모델(Autoregressive model)을 훈련한다. 모델이 특정 컨텍스트에 따라 조건부 토큰을 생성하면 토큰라이저 디코더를 통해 다시 보기 쉬운 표현으로 변환할 수 있다.

다양한 작업의 훈련 및 추론 입력 및 출력을 보여주는 VideoPoet 작업 설계: 토큰화 인코더 및 디코더를 사용하여 모달리티는 토큰으로 변환된다. 각 모달리티는 경계 토큰으로 둘러싸여 있으며, 작업 토큰은 수행할 작업의 유형을 나타낸다.

아래는 비디오포엣이 텍스트 생성된 영상 예

아래는 이미지-비디오의 경우, VideoPoet은 입력 이미지를 가져와 프롬프트로 애니메이션을 적용할 수 있다.

이미지 대 비디오의 한 예로 움직임을 안내하는 문자 메시지가 표시되어 있다. 각 비디오는 왼쪽에 이미지와 쌍을 이룬다. 왼쪽: "거친 바다를 항해하는 배, 뇌우와 번개, 캔버스에 오일 애니메이션" 중간: "반짝 빛나는 많은 별들이 있는 성운을 날다" 오른쪽: "바람 부는 날 아래 소용돌이치는 해무를 지팡이를 짚고 절벽 위를 헤매는 사람" (출처:구글)

아래는 비디오 스타일화를 위해 몇 가지 추가 입력 텍스트와 함께 VideoPoet에 공급하기 전에 광학 흐름 및 깊이 정보를 예측한다.

텍스트 프롬프트, 깊이 및 광학적 흐름이 컨디셔닝으로 사용된 VideoPoet 텍스트-비디오 생성 비디오 위에 비디오 스타일라이제이션의 예다. 각 쌍의 왼쪽 비디오는 입력 비디오이고 오른쪽은 스타일화된 출력이다. 왼쪽: "햇살 가득한 해변에서 비치볼을 들고 있는 선글라스를 쓴 웜뱃." 가운데: "맑고 투명한 얼어붙은 호수에서 아이스 스케이트를 타는 곰돌이." 오른쪽: "대장간 불빛 아래서 포효하는 금속 사자."(출처:구글)

특히, VideoPoet은 오디오도 생성할 수 있다. 여기서는 먼저 모델에서 2초 길이의 클립을 생성한 다음 텍스트 안내 없이 오디오를 예측한다. 이를 통해 단일 모델에서 비디오 및 오디오를 생성할 수 있다.

기본적으로 VideoPoet 모델은 짧은 형식 콘텐츠에 맞게 출력을 조정하기 위해 세로 방향으로 비디오를 생성한다. 그 기능을 선보이기 위해 구글 AI 연구팀은 VideoPoet에서 생성된 많은 짧은 클립으로 구성된 간단한 동영상을 제작했다(아래 영상).

여기서 대본을 위해 '바드(Bard-보기)'에게 장면별 분석과 그에 따른 프롬프트 목록을 포함하여 여행하는 너구리에 대한 짧은 이야기를 작성하도록 요청했다. 그런 다음 각 프롬프트에 대한 비디오 클립을 생성하고 결과 클립을 모두 연결하여 최종 비디오를 제작했다.

긴 영상에서는 비디오의 마지막 1초를 조건으로 하고 다음 1초를 예측함으로써 더 긴 비디오를 생성할 수 있다. 이를 반복적으로 연결함으로써 모델이 비디오를 잘 확장할 수 있을 뿐만 아니라 여러 번의 반복에도 불구하고 모든 개체의 모양을 충실하게 보존할 수 있다.

아래는 텍스트 입력에서 긴 비디오를 생성하는 VideoPoet의 두 가지 예다.

텍스트 “우주비행사가 화성에서 춤을 추기 시작합니다. 화려한 불꽃놀이가 배경에서 터집니다.”

텍스트 "빛나는 푸른 강, 폭포, 크고 가파른 수직 절벽이 있는 정글 속의 매우 날카로운 돌로 이루어진 엘프 도시의 FPV 영상입니다."

또한 VideoPoet에서 생성된 기존 비디오 클립을 대화식으로 편집하는 것도 가능하다. 입력 비디오를 제공하면 객체의 모션을 변경하여 다양한 작업을 수행할 수 있다. 개체 조작은 첫 번째 프레임이나 중간 프레임의 중앙에 집중될 수 있으므로 높은 수준의 편집 제어가 가능하다. 예를 들어, 입력 비디오에서 일부 클립을 무작위로 생성하고 원하는 다음 클립을 선택할 수 있다.

왼쪽의 입력 비디오는 초기 프롬프트에 따라 네 가지 선택 사항을 생성하기 위한 조건으로 사용된다. "키가 큰 풀로 둘러싸인 촉촉하고 싹트는 초목으로 덮여 있는 사랑스럽고 녹슬고 부서진 스팀펑크 로봇의 근접 촬영". 처음 세 개의 출력에 대해 프롬프트되지 않은 동작에 대해 어떤 일이 발생하는지 보여준다. 아래 목록의 마지막 비디오에서는 작업을 안내하기 위해 "백그라운드에서 연기로 전원 켜기"라는 메시지를 추가했다.

아울러, 입력 이미지에 모션을 적용하여 텍스트 프롬프트에 따라 원하는 상태로 콘텐츠를 편집할 수 있다.

다양한 프롬프트로 그림에 애니메이션을 적용한다. 왼쪽 : “카메라를 향해 돌아서는 여성.” 오른쪽 : “하품하는 여자.”

구글 리서치 연구팀은 다양한 벤치마크를 통해 텍스트-투-비디오 생성에 대한 비디오포엣을 평가하여 다른 접근 방식과 결과를 비교했다. 중립적인 평가를 위해 특정 예시를 선택하지 않고 다양한 프롬프트에서 모든 모델을 실행하고 사람들에게 선호도를 평가하도록 요청했다. 아래 그림은 다음 질문에 대해 비디오포엣이 선호 옵션으로 선택된 비율을 녹색으로 강조 표시한 것이다.

텍스트 충실도에 대한 사용자 선호도 등급, 즉 프롬프트를 정확하게 따르는 측면에서 선호되는 비디오의 비율(출처;구글AI)

모션 흥미도에 대한 사용자 선호도 등급, 즉 흥미로운 모션을 생성하는 측면에서 동영상의 몇 퍼센트를 선호하는지.

위의 내용을 바탕으로, 평균적으로 사람들은 VideoPoet에서 24–35%의 예제를 경쟁 모델보다 더 나은 프롬프트로 선택했다. 평가자들은 또한 다른 모델의 11–21%보다 더 흥미로운 움직임을 위해 VideoPoet에서 41–54%의 예제를 더 선호했다.

VideoPoet을 통해 우리는 다양한 작업, 특히 비디오 내에서 흥미롭고 고품질 모션을 생성하는 데 있어 LLM의 경쟁력 있는 비디오 생성 품질을 입증했습니다. 우리의 결과는 비디오 생성 분야에서 LLM의 유망한 잠재력을 시사합니다. 향후 방향을 위해 우리 프레임워크는 "모든 대 임의" 생성을 지원할 수 있어야 합니다. 예를 들어 텍스트에서 오디오로, 오디오에서 비디오로, 비디오 캡션으로 확장하는 것이 가능해야 합니다.

VideoPoet을 통해 구글 리서치 연구팀은 특히 비디오 내에서 흥미롭고 고품질의 모션을 제작하는 등 다양한 작업에서 LLM의 경쟁력 있는 비디오 생성 품질을 입증했다. 결과는 비디오 생성 분야에서 LLM의 유망한 잠재력을 시사한다.

한편, 이번 연구 및 결과는 'VideoPoet: 제로샷 비디오 생성을 위한 대규모 언어 모델(VideoPoet: A Large Language Model for Zero-Shot Video Generation-다운)'란 제목으로 지난 21일 아카이브를 통해 공개됐다. 모델에 대한 더 자세한 내용 또는 고품질의 더 많은 예제를 보려면 해당 웹 사이트(보기)를 참고하면 된다.

정한영 기자 hyjung@aitimes.kr

다른기사 보기

상단영역

본문영역

[AI 리뷰] 구글 리서치, 제로-샷 고품질 비디오 생성 위한 대형언어모델 '비디오포엣(VideoPoet)' 공개

기사 댓글 0

비회원 로그인