머신러닝 모델은 점점 더 복잡해지고 많은 하이퍼 파라미터를 가지고 있다. 에서는 'HiPlot'을 사용하여 수십 개의 하이퍼 파라미터와 100,000 개가 넘는 실험으로 심층신경망(DNN)의 하이퍼 파라미터 튜닝을 탐색하고 효율적으로 분석

예제 그림 재현(사진:페이스북)
예제 그림 재현(사진:페이스북)

인공지능(AI) 과학자 또는 개발자들이 정보를 나타내기 위해 평행 도표(Parallel Plots)와 기타 그래픽 형식을 사용하여 소위 고차원 데이터(High-Dimension Data)에서 상관관계와 패턴을 발견할 수 있도록 설계된 경량의 대화식 시각화 도구 '하이플롯(이하 HiPlot)'을 페이스북(Facebook)이 오픈소스로 최근 공개했다.

'고차원 데이터'라는 용어는 통계학의 회귀분석에서 최대 난제로 데이터 학습을 위해 차원이 증가하면서 학습데이터 수가 차원의 수보다 적어져 성능이 저하되는 현상 또는 차원이 증가할수록 개별 차원 내 학습할 데이터 수가 적어지는(Sparse) 현상을 이르는 '차원성의 저주(The curse of dimensionality)'로 이어지는 속성으로 특성이 매우 많고 잠재적으로 수백 또는 수천 개의 차원을 가진 데이터를 말한다.

또한 평행 도표(Parallel plots)는 고차원 형상을 시각화하고 다변량 데이터를 분석하는 일반적인 방법으로 여러 차원에 걸쳐 개별 데이터 요소를 표시하기 위한 시각화 기법으로 그래프의 선처럼 보인다.

최근 머신러닝 모델은 점점 더 복잡해지고 많은 하이퍼 파라미터(Hyperparameter)를 가지고 있다. 페이스북 AI에서는 'HiPlot'을 사용하여 수십 개의 하이퍼 파라미터와 100,000 개가 넘는 실험으로 심층 신경망(DNN)의 하이퍼 파라미터 튜닝을 탐색하고 효율적으로 분석했다.

HiPlot을 사용하면 XY플롯이 관련 데이터 포인트 간에 엣지를 렌더링할 수 있으므로 이러한 실험을 시각화할 수 있다.(사진:페이스북AI)
HiPlot을 사용하면 XY플롯이 관련 데이터 포인트 간에 엣지를 렌더링할 수 있으므로 이러한 실험을 시각화할 수 있다.(사진:페이스북AI)

이 도구를 사용하면 과학자 또는 개발자들이 자신을 최대한 활용할 수 있다. 또한 유전자 알고리즘에서 영감을 얻은 것과 같은 보다 역동적인 훈련 방법을 개발할 수 있다.

'HiPlot'에는 두 가지 모드가 있다. 웹 서버로서 주피터 노트북(ipython notebook)에서(Python 데이터를 시각화하기 위해) 하이플롯에는 파이선 3.6 이상이 필요하며, 기본적으로 도구의 웹 서버는 CSV 또는 JSON 파일을 구문 분석할 수 있다. 또 사용자는 실험을 하이플롯 실험으로 변환하는 사용자 정의 파이선 파서를 제공할 수도 있다.(오픈 소스 HiPlot API 다운)

한편, 하이퍼 파라미터 검색을 수행하는 연구원을 돕기 위해 'HiPlot'은 지난달 13일 페이스북의 AI 리서치(FAIR)가 오픈 소스로 공개했다. 온라인 추론을 위해 훈련된 심층신경망(DNN) 모듈을 구성해야 하는 연구원, 생산 엔지니어, 개발자, 학생 등을 대상으로 하는 다중 스레드 및 다중 플랫폼 라이브러리이자 추론 프레임 워크 'wav2letter@anywhere'와 호환된다. 또 페이스북 AI 오픈 소스'Nevergrad', 그리고 뉴럴 네트워크 기반의 최첨단 기계 번역 모델인 'FAIRSeq' 등과 같은 오픈 소스와 호환된다.

참고 wav2letter@anywhere: 본지 2020.01.16 보도: "온라인 음성인식 위한 머신러닝 프레임 워크 'wav2letter@anywhere' 오픈 소스로 공개"

 

관련기사

저작권자 © 인공지능신문 무단전재 및 재배포 금지