인공지능(AI) 머신러닝에서 가장 중요한 측면 중 하나는 '초매개변수 최적화(Hyperparameter optimization)'를 꼽는다. 머신러닝 작업에 적합한 하이퍼파라미터를 찾는 것은 모델의 성능을 높이거나 낮출 수 있기 때문이다.
구글에서는 구글 비지어(Google Vizier)를 초매개변수 최적화를 위한 기본 플랫폼으로 사용하고 있으며, 지난 5년 동안 Google Vizier는 비전 , 강화학습 및 언어 등의 기계 학습 응용 프로그램 뿐만 아니라 단백질 발견 및 하드웨어 가속과 같은 광범위한 응용 프로그램에서 천만 번 이상 사용되었다고 한다.
이처럼 Google Vizier는 데이터베이스에서 사용 패턴을 추적할 수 있기 때문에 최적화 궤적으로 구성된 데이터에는 현실적인 초매개변수 조정 목표에 대한 중요한 사전 정보가 포함되어 있으므로 더 나은 알고리즘을 개발하는 데 매우 매력적이다.
이러한 데이터에 대한 메타 학습을 위한 이전의 많은 방법이 있었지만 방법에서 한 가지 주요 공통 단점을 공유한다는 것이다. 메타 학습 절차는 하이퍼파라미터 수 및 값 범위와 같은 수치적 제약 조건에 크게 의존하므로 모든 작업이 정확히 동일한 하이퍼파라미터 검색 공간(즉, 튜닝 사양)을 사용해야 한다는 것이다.
설명 및 매개 변수 이름과 같은 연구의 추가 텍스트 정보도 거의 사용되지 않지만 최적화되는 작업 유형에 대한 의미있는 정보를 보유할 수 있다. 그러한 단점은 종종 의미 있는 정보의 상당한 양을 포함하는 더 큰 데이터 세트에 대해 문제는 더욱 악화된다.
여기에, 딥마인드(Deepmind)와 구글 AI(Google Research, Brain Team) 공동 연구팀이 트랜스포머를 사용하여 범용 하이퍼매개변수 최적화 도구를 학습하는 방법(Towards Learning Universal Hyperparameter Optimizers with Transformers-다운)인 세계 최초의 텍스트 기반 트랜스포머 HPO(hyperparameter optimization) 프레임워크 '옵트포머(OptFormer)'를 지난 18일 공개했다.
연구팀에 따르면 옵트포머는 광범위한 튜닝 데이터를 학습할 때 정책과 함수 예측을 공동으로 학습할 수 있는 범용 엔드 투 엔드 인터페이스를 제공한다.
또, 적어도 7개의 다른 HPO 알고리즘을 모방할 수 있다는 것을 보여주며, 이는 함수 불확실성 추정을 통해 더욱 개선될 수 있다.
아울러, 가우스(Gaussian Process)와 비교하여 OptFormer는 하이퍼매개변수 응답 함수에 대한 강력한 사전 분포를 학습하므로 보다 정확하고 보정된 예측을 제공할 수 있다.
한편, 연구팀은 이 프레임워크는 트랜스포머 기반 모델을 일반적인 HPO 최적화 도구로 훈련하기 위한 보다 진보적인 가는 길을 열어 줄 것이라고 밝혔다. 관련 코드는 곧 공개할 예정이며, 사용된 데이터 세트 등 더 자세한 내용은 해당 홈페이지(보기)를 참고하면 된다.