새로운 'AI 플랫폼 파이프 라인' 오픈소스로 공개
새로운 'AI 플랫폼 파이프 라인' 오픈소스로 공개

구글 클라우드는 강력하고 반복 가능한 머신러닝 파이프라인과 모니터링, 감사(Auditing), 버전 추적 및 재현성과 함께 견고하고 반복 가능한 머신러닝 파이프라인을 배치하고 머신러닝 워크플로우에 대해 준비가 쉽고 설치가 용이하며, 안전한 실행 환경을 제공할 수 있는 방법을 제공하는 새로운 서비스인 '클라우드 AI 플랫폼 파이프라인(Cloud AI Platform Pipelines)'의 베타버전을 지난 11일 오픈 소스로 발표했다.

구글의 제품 매니저인 아누샤 라메쉬(Anusha Ramesh)와 개발자인 에이미 운루(Amy Unruh)는 블로그를 통해 "노트북에 머신러닝 모델을 프로토타이핑하는 것은 매우 간단해 보일수 있다. 그러나 머신러닝 작업 흐름을 지속 가능하고 확장 가능한 것으로 만들기 위해 필요한 다른 부분들에 관심을 기울이기 시작할 필요가 있을 때는 상황은 더욱 복잡해진다"고 말했다.

머신러닝 워크플로우에는 데이터 준비 및 분석, 교육, 평가, 구축 등 서로 의존성이 있는 많은 단계가 포함될 수 있다. 예를 들어, 노트북이나 스크립트 세트에서, 감사와 재현성과 같은 것들은 점점 더 문제가 되고 있다.

구글의 이 새로운 AI 플랫폼 파이프라인은 실제로 GCP 서비스와 통합된 구조화된 ML 워크플로우를 구축하고 실행하기 위한 엔터프라이즈급 인프라와 파이프라인과 구성요소를 구축, 디버깅 및 공유하기 위한 파이프라인 도구 세트를 가지고 있다.

특히 AI 플랫폼 파이프라인은 구글 쿠버넷 엔진(GKE, Google Kubernetes Engine 다운) 클러스터에서 실행된다. 클러스터는 설치 프로세스의 일부로 자동으로 생성되지만 사용자는 기존 GKE 클러스터(다운)를 사용할 수 있다. 또 클라우드 AI 플랫폼 UI를 통해 사용자는 모든 클러스터를 보고 관리할 수 있으며, 파이프라인 설치는 클러스터에서 삭제한 후 다시 설치해 파이프라인 버전을 업데이트 하는 동안 이전 설치에서 유지된 상태를 유지할 수 있다.

이번 베타 출시에는 템플릿 기반 파이프라인 빌드(build), 버전화, 자동 아티팩트(artifact) 및 계통 추적(lineage tracking) 지원 등 새로운 기능이 다수 포함되어 있다. 또한 개발자들이 머신러닝 파이프라인 코드로 시작하는 것이 더 쉬운데, 텐서플루 확장(TFX, TensorFlow Extended) SDK는 자신의 데이터를 위한 생산 머신러닝 파이프라인 구축에 대한 단계별 지침을 제공하는 템플릿 또는 비계(scaffolds)를 제공한다. TFX 템플릿으로 개발자는 파이프라인에 다른 구성요소를 점진적으로 추가하고 반복할 수 있다.

TFX 파이프 라인 실행의 다양한 구성 요소 및 데이터 통계와 같은 아티팩트의 상태를 시각화(출처:구글)
TFX 파이프 라인 실행의 다양한 구성 요소 및 데이터 통계와 같은 아티팩트의 상태를 시각화(출처:구글)

TFX 템플릿은 클라우드 콘솔(Google Cloud Console 평가판)의 AI 플랫폼 파이프라인 '시작하기(Getting Started)' 페이지에서 액세스할 수 있다. TFX SDK는 현재 분류 문제 유형에 대한 템플릿을 제공하며 텐서플루에 최적화되어 있다. 또 다양한 사용 사례와 문제 유형에 대한 템플릿이 더 많이 제공되고 있다.

TFX 파이프라인은 일반적으로 머신러닝 워크플로우의 모든 단계에 대해 미리 만들어진 여러 요소로 구성된다. 예를 들어, 개발자는 데이터 수집을 위해 입력 컴포넌트로 입력 데이터들을 수집하고 선택적으로 분할하는 ExampleGen(다운)을 사용하고, 데이터 세트에 대한 통계(다운)를 계산을 담당하는 StatisticsGen(다운)을 사용하여 데이터 통계를 생성하고 시각화할 수 있다.

또한 데이터 세트에서 이상 및 누락된 값을 검사하는 ExampleValidator(다운) 및 SchemaGen(다운)은 데이터 유효성 검사, 데이터 사전 처리를 위한 변환(다운), 트레이너(다운)는 텐서플루 모델을 학습할 수 있다.

이처럼 AI 플랫폼 파이프라인 UI(AI Platform Pipeline UI 다운)를 통해 개발자는 파이프라인의 다양한 구성 요소 상태, 데이터셋 통계 등을 시각화할 수 있다. 새로운 서비스는 또한 파이프라인 버전 관리를 지원하여 사용자가 동일한 파이프라인의 여러 버전을 업로드하여 UI에 그룹화할 수 있도록 함으로써 의미적으로 관련된 워크플로우를 함께 관리할 수 있으며, 사용 방법(보기) 및 기타 문서도 온라인으로 제공된다.
 

저작권자 © 인공지능신문 무단전재 및 재배포 금지