연구팀은 이 TadGAN 알고리즘이 위성 회사뿐만 아니라 다양한 산업에 서비스를 제공하기를 희망한다고 밝혔다. 예를 들어, TadGAN은 줌(Zoom)과 같은 회사가 데이터 센터의 시계열 신호(예: CPU 사용량 또는 온도)를 모니터링 하여 회사의 시장 점유율을 위협할 수 있는 서비스 중단을 방지하도록 도울 수 있다.

연구팀은 이 알고리즘을 인공위성 시스템에만 균형을 맞추기 보다는 산업 전반에 적용 할 수 있는 이상 탐지를 위한 보다 일반적인 프레임 워크를 만들기 위해 노력했다. 그들은 적대적 생성신경망(GAN, Generative Adversarial Network)을 기반으로 한 딥러닝 시스템으로 전환시켰다.(사진:MIT)

수백만 달러짜리 위성이 시속 수천 킬로미터로 우주를 날고 있다. 우리는 그것이 순조롭게 작동하고 있는지 확인하고 싶을 것이다. 그리고 시계열은 그것을 확인하는 데 도움이 될 수 있다.

시계열은 단순히 시간이 지남에 따라 반복적으로 취한 측정의 기록일 뿐이다. 그것은 시스템의 장기적인 경향과 단기적인 변화를 추적할 수 있다. 빅데이터 시대에는 시계열은 위성에서 터빈에 이르기까지 전 세계에서 수집되며, 모든 기계에는 이러한 시계열의 작동 방식을 수집하는 센서가 있다.

그러나 위성에서 그러한 시계열을 분석하고, 그 안에 있는 변칙적인 데이터 포인트를 플래깅하는 것은 매우 까다로울 수 있으며 데이터는 노이즈가 있을 수 있다. 위성 운영자가 일련의 고온 판독 값을 본다면, 그것이 무해한 변동인지 아니면 위성이 과열될 조짐인지 어떻게 알 수 있을까?

이는 MIT 정보 및 의사결정 시스템 연구소(MIT Laboratory for Information and Decision Systems)의 데이터·인공지능(Data-to-AI) 그룹을 이끌고 있는 베라마차네니(Veeramachaneni)가 해결하고자 하는 과제로 이 그룹은 시계열 데이터에서 이상 징후를 표시하는 새로운 인공지능(AI) 알고리즘을 개발해 문제를 해결했다.

개발된 딥러닝 기반 'TadGAN'이라고 불리는 알고리즘은 기존의 방법들을 능가했고 운영자들이 우주를 비행하는 위성에서부터 지하실에서 윙윙거리는 컴퓨터 서버에 이르기까지 다양한 고부가 가치 시스템의 주요한 변화를 감지하고 대응할 수 있도록 도울 수 있었다고 한다. 이 연구 지난 10일부터 13일까지 열린 IEEE 국제 빅데이터 국제회의(IEEE Big Data 2020)에서 발표됐다.

연구팀은 인공위성 시스템에만 균형을 맞추기 보다는 산업 전반에 적용 할 수 있는 이상 탐지를 위한 보다 일반적인 프레임 워크를 만들기 위해 노력했다. 그들은 적대적 생성신경망(GAN, Generative Adversarial Network)을 기반으로 한 딥러닝 시스템으로 전환시켰다.

GAN은 한 쌍의 신경망으로 구성된다. 하나의 네트워크 '생성기'는 가짜 이미지를 생성하고 두 번째 네트워크 '분별기'는 이미지를 처리하고 생성기가 생성한 실제 이미지인지 가짜인지 확인하려고 시도한다. 이 과정을 여러 차례 거치면서 생성자는 분별기의 피드백을 학습하고 초현실적인 가짜를 만드는 데 능숙해진다.

이 기술은 이미지가 주제와 함께 태그가 지정된 사전 레이블이 지정된 데이터 세트가 필요하지 않기 때문에 비지도 학습(감독되지 않은)으로 간주된다(대규모 라벨이 붙은 데이터 세트는 쉽게 찾을 수 없다). 이에 연구팀은 오탐을 방지하기 위해 비지도 심층학습을 위한 또 다른 기술인 자동 인코더(Autoencoder)라는 알고리즘(논문 다운)으로 GAN을 보완했다.

GAN과 대조적으로 자동 인코더는 실제 이상 징후를 놓치기 쉽다. 그것은 자동 인코더가 시계열에서 너무 많은 패턴을 포착하는 경향이 있기 때문이며, 때때로 실제 이상 현상을 과적합(Overfitting)이라고 불리는 문제인 무해한 변동으로 해석하기도 한다. GAN과 자동 인코더를 결합하여 연구원들은 이상 징후 탐지 시스템을 만들어 완벽한 균형을 이루었다. 개발된 TadGAN은 경계를 늦추지 않지만, 너무 많은 오경보를 일으키지는 않는다.

또한 TadGAN은 기존 방법들과의 경쟁에서 이겼다. 이 팀은 아마존 및 마이크로소프트와 같은 회사에서 개발 한 일부를 포함하여 TadGAN 및 7 가지 다른 방법에 대해 아리마(ARIMA, Auto Regressive Integrated Moving Average)를 비교하여 11 개의 데이터 세트에 대한 이상 탐지 테스트를 실행했다. TadGAN은 11 개 데이터 세트 중 8 개에 대한 이상 탐지에서 ARIMA를 능가했으며 아마존에서 개발 한 두 번째로 좋은 알고리즘은 6 개의 데이터 세트에서만 ARIMA를 능가했다고 한다.

TABLE IV: 윈도우 기반 규칙을 사용하는 기준 모델의 F1 점수. 색상은 F1 점수의 성능을 인코딩하며, 하나는 균등하게 나뉜다. 하나의 색상과 연결된 각 빈(BIN)과 함께 10 개의 빈으로. 어두운  빨간색에서 진한 파란색으로 F1 점수가 0에서 1로 증가한다.(표:논문 캡처)
TABLE IV: 윈도우 기반 규칙을 사용하는 기준 모델의 F1 점수. 색상은 F1 점수의 성능을 인코딩하며, 하나는 균등하게 나뉜다. 하나의 색상과 연결된 각 빈(BIN)과 함께 10 개의 빈으로. 어두운 빨간색에서 진한 파란색으로 F1 점수가 0에서 1로 증가한다.(표:논문 캡처)

특히, 전통적인 시계열 예측 방법인 ARIMA는 1970년대에 개발되었다. 연구팀을 이끌고 있는 베라마차네니는 "우리는 우리가 어디까지 도달했는지, 그리고 딥러닝 모델이 실제로 이 고전적인 방법을 개선할 수 있는지 알고 싶었다"라고 말했다.

이어 "우리의 목표가 최고 수준의 이상 탐지 알고리즘을 개발할 뿐만 아니라 널리 사용 가능하게 만드는 것입니다"라며, "우리 모두는 AI가 재현성 문제로 어려움을 겪고 있다는 것을 알고 있습니다."라고 말했다. 특히, 연구팀은 TadGAN의 코드(다운)를 무료로 사용할 수 있도록 했으며 정기적으로 업데이트 한다. 또한 사용자가 다양한 이상 탐지 모델의 성능을 비교할 수 있는 벤치마킹 시스템을 개발했다. 이 벤치마크는 오픈 소스이므로 누구나 사용할 수 있으며 원하는 경우 자체 모델을 추가할 수 있다.

연구팀은 이 TadGAN 알고리즘이 언젠가 위성 회사뿐만 아니라 다양한 산업에 서비스를 제공하기를 희망한다고 밝혔다. 예를 들어, TadGAN은 줌(Zoom)과 같은 회사가 데이터 센터의 시계열 신호(예: CPU 사용량 또는 온도)를 모니터링하여 회사의 시장 점유율을 위협할 수 있는 서비스 중단을 방지하도록 도울 수 있다.

한편, 팀은 향후 작업을 통해 TadGAN을 사용자 인터페이스에 패키징하여 필요한 모든 사람에게 최첨단 시계열 분석을 제공할 계획이라고 밝혔다. 또 이 연구는 위성 및 지상 인프라에 걸쳐있는 방대하고 지능적인 네트워크 글로벌 기업 SES의 지원을 받아 SES와 공동으로 진행됐다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지