CV-쿠다 라이브러리는 네이티브 파이썬 API와 파이토치, 텐서플로2, ONNX, 텐서RT 머신 러닝 프레임워크와의 제로-카피 통합을 비롯해 총 30가지 이상의 고성능 컴퓨터 비전 알고리즘을 제공

사진:엔비디아
사진:엔비디아

마이크로소프트(Microsoft), 텐센트(Tencent), 바이두(Baidu)가 컴퓨터 비전 AI를 위해 엔비디아 'CV-쿠다(CV-CUDA)'를 채택했다.

CV-쿠다는 GPU를 활용한 클라우드 규모의 컴퓨터 비전을 위한 오픈 소스 GPU 가속 라이브러리로, 전 세계 기업들이 GPU에서 엔드투엔드 AI 기반 컴퓨터 비전 및 이미지 처리 파이프라인을 구축하고 확장할 수 있도록 지원한다.

지난 GTC 2023 기조연설에서 젠슨 황은 "인터넷 트래픽의 80%는 비디오이며, 사용자가 생성한 비디오 콘텐츠는 중요한 성장을 주도하는 한편, 막대한 양의 전력을 소비하고 있다. 우리는 모든 비디오 프로세싱을 가속화하고 전력 소비를 줄여야 한다"고 말했다.

인터넷 트래픽의 대부분은 비디오 및 이미지 데이터로, 콘텐츠 제작, 시각 검색 및 추천, 매핑 등의 애플리케이션에서 엄청난 규모의 트래픽을 유발한다. 이러한 애플리케이션은 신경망에서 처리되기 전후 이미지와 비디오 데이터를 처리하기 위해 전문적이고 반복적인 컴퓨터 비전과 이미지 처리 알고리즘 세트를 사용한다.

마이크로소프트 빙(Microsoft Bing)의 비주얼 검색 엔진은 AI 컴퓨터 비전을 사용해 인터넷에서 이미지(예시: 개 사료)를 검색한다.
마이크로소프트 빙(Microsoft Bing)의 비주얼 검색 엔진은 AI 컴퓨터 비전을 사용해 인터넷에서 이미지(예시: 개 사료)를 검색한다.

일반적으로 신경망은 GPU로 가속되지만, 이를 지원하는 컴퓨터 비전 및 이미지 처리 알고리즘은 오늘날의 AI 애플리케이션에서 종종 CPU 병목 현상을 일으킨다.

CV-쿠다는 전처리 및 후처리 단계를 CPU에서 GPU로 전환해 단일 GPU에서 4배 더 많은 스트림을 처리할 수 있도록 지원한다. 이를 통해 클라우드 컴퓨팅 비용의 4분의 1로 동일한 워크로드를 처리할 수 있다.

CV-쿠다 라이브러리는 네이티브 파이썬(Python) API와 파이토치(PyTorch), 텐서플로2(TensorFlow2), ONNX, 텐서RT(TensorRT) 머신 러닝 프레임워크와의 제로-카피(zero-copy) 통합을 비롯해 총 30가지 이상의 고성능 컴퓨터 비전 알고리즘을 제공한다.

그 결과 클라우드 AI 비즈니스의 처리량 증가, 컴퓨팅 비용 절감, 탄소 발자국 감소 실현 등의 효과를 가져다준다.

특히, 각 분야를 선도하는 전 세계 업계 리더들이 CV-쿠다를 도입함으로써 대규모 시각 애플리케이션에서의 CV-쿠다의 이점과 다용도성이 강조되고 있다. 대규모 이미지 처리 워크로드를 보유한 기업은 수천만에서 최대 수억 달러까지 비용을 절감할 수 있다.

▷마이크로소프트는 빙 비주얼 서치(Bing Visual Search)에 CV-쿠다를 통합하고 있다. 이는 사용자가 텍스트 대신 이미지를 사용해 유사한 이미지, 제품 및 웹 페이지를 찾을 수 있는 기능이다.

지난 2019년 마이크로소프트는 GTC 2019에서 엔비디아 기술을 사용해 음성 인식, 지능형 답변, 텍스트 음성 변환 기술 및 객체 감지를 실시간으로 원활하게 통합하는 방법에 대해 소개했다.

▷ 중국 선전(Shenzhen)에 본사를 둔 텐센트도 CV-쿠다를 채택했다. 이를 통해 하루에 30만 개 이상의 동영상을 처리하는 광고 제작 및 콘텐츠 이해 파이프라인을 가속화하기 위함이다. CV-쿠다 채택 이후 이미지 처리에 있어 과거 GPU 최적화 파이프라인 대비 20%의 에너지 및 비용 절감 효과를 얻었다.

중국 베이징 소재의 바이두 역시 CV-쿠다를 채택했다. 패스트디플로이(FastDeploy)에 CV-쿠다를 통합함으로써 오픈 소스 커뮤니티의 개발자들에게 원활한 컴퓨터 비전 가속화를 제공할 전망이다. 패스트디플로이는 패들패들(PaddlePaddle) 딥 러닝 프레임워크의 오픈 소스 배포 툴킷 중 하나다.

엔비디아에 따르면 CV-쿠다의 적용 분야는 계속해서 늘어나고 있다. 알파 버전 출시 후 불과 몇 달 만에 500개 이상의 기업에서 100개 이상의 사용 사례를 문의했다고 한다. 

콘텐츠 제작 및 이커머스(e-commerce)에서는 이미지 전처리 및 후처리 연산자를 사용해 추천 엔진이 콘텐츠를 인식, 선별, 준비할 수 있도록 지원한다. 매핑 분야에서는 매핑 측량 차량에서 수집된 비디오가 전처리 및 후처리 연산자를 사용해 클라우드에서 신경망을 훈련시켜 인프라와 도로 특징을 식별하는 데 사용될 수 있다.

자율주행 시뮬레이션 및 검증 소프트웨어를 위한 인프라 애플리케이션에서는 CV-쿠다를 사용해 차량에서 이미 발생하고 있는 색상 변환, 왜곡 보정, 콘볼루션(convolution) 및 양방향 필터링 등의 알고리즘에 대한 GPU 가속화를 가능하게 한다.

뉴욕에 본사를 둔 스타트업 런웨이(Runway)는 CV-쿠다를 통합해 비디오 오브젝트 세분화 모델에서 고해상도 비디오를 전처리할 때 발생하는 심각한 병목 현상을 완화했다. 런웨이는 CV-쿠다를 구현한 결과 속도가 3.6배 빨라져 창작 도구 제품군 전반에 걸쳐 실시간 클릭-콘텐츠(click-to-content) 응답을 최적화할 수 있게 됐다.

런웨이 공동 창립자 겸 CEO인 크리스토발 발렌수엘라(Cristóbal Valenzuela)는 "크리에이터에게는 아이디어를 구현하는 데 걸리는 매 순간이 중요하다. CV-쿠다가 가져올 변화는 해당 도구를 사용하는 수백만 명의 크리에이터에게 매우 의미 있는 일"이라고 말했다.

한편, CV-쿠다는 깃허브(다운)를 통해 액세스할 수 있다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지