머신러닝 모델에 대한 공격에 대한 보다 강력한 방어와 구축을 위한 DARPA의 GARD 프로그램에서 개발된 세계 최초의 평가 테스트베드, 데이터 세트, 툴 공개

인공지능(AI) 및 머신러닝(ML)에 대한 공격은 콘텐츠 추천 엔진을 변경하는 것에서부터 자율주행 차량의 작동을 방해하는 것까지 모델을 스푸핑(spoofing), 손상 및 기타 형태의 속임수에 노출시켜, 다양한 부정적인 영향을 초래할 수 있다.

특히, AI 모델의 적용이 본격화 되고 중요한 인프라 및 시스템에 점점 더 통합됨에 따라 이러한 모델의 취약점은 더욱 우려되는 현실이다.

이에, 미국 국방성(US Department of Defense) 산하 고등방위연구계획국(Defense Advanced Research Projects Agency. 이하, DARPA)은 GARD(Guaranteing AI Robustness against Deception) 프로그램을 통해 AI/ML 모델에 적대적 공격에 대한 차세대 방어 시스템을 개발하고 인공지능 모델의 안전 문제를 극복하는 데 중점을 두고 있다.

적대적 AI에 대한 GARD의 대응은 몇 가지 핵심 목표에 중점을 둔다. 그 중 하나는 ML 방어를 특성화하고 적용 범위를 평가하기 위한 테스트 베드의 개발이다.

GARD 프로그램 이미지(사진:다르파)
GARD 프로그램 이미지(사진:다르파)

적대적 AI 분야는 비교적 초기 단계이기 때문에 잠재적 방어를 테스트하고 평가하는 방법이 거의 없으며 존재하는 방법들은 엄격함과 정교함이 부족하다고 한다. 새로운 방어 수단이 알려진 공격의 능력과 보조를 맞추거나 이를 능가하도록 하는 것은 기술에 대한 신뢰를 구축하고 궁극적으로 사용하도록 하는 것이 매우 중요하다.

이 목표를 지원하기 위해 GARD 연구원들은 커뮤니티의 기존 및 신규 ML 모델의 효율성과 적대적 공격에 대한 방어를 평가하고 검증하기 위한 노력을 강화하는 데 도움이 되는 다양한 리소스와 가상 도구를 개발하고 세계 최초로 오픈 소스로 공개했다.

GARD를 이끄는 프로그램 관리자인 Bruce Draper는 "암호화와 같은 다른 기술 커뮤니티는 투명성을 수용했으며 사람들이 일을 하도록 허용하면 기술이 향상될 것임을 발견했습니다."라고 말했다.

GARD를 이끄는 브루스 드레이퍼(Bruce Draper) 프로그램 매니저는 "GARD를 통해 우리는 암호화에서 한 획을 그었으며, 개발자 및 연구자가 ML 방어를 테스트하고 평가하는 데 도움이되는 아이디어, 도구 및 기술의 공개 교환을 용이하게 하는 커뮤니티를 만들기 위해 노력하고 있습니다"라며, "우리의 목표는 기존 평가 노력에 대한 기준을 높여 현장에 더 정교함과 성숙함을 가져오는 것입니다”라고 말했다.

GARD는 이러한 노력을 가능하게 하기 위해 구글연구소(Google Research), 시카고대학교(University of Chicago), 투식스테크(Two Six Technologies), IBM, 미트레(MITRE) 등과 가상 테스트 베드, 툴박스, 벤치마킹 데이터 세트 및 교육 자료를 공동으로 생성했으며, 이를 공공 저장소를 통해 광범위한 연구 커뮤니티에 제공할 수 있게 된 것이라고 밝혔다.

DARPA가 첫 GARD 프로그램을 통해 공개적으로 사용할 수 있는 AI 적대적 방어에 대한 반복적이고 확장 가능하며 강력한 평가를 가능하게 하는 '아머리(Armoury-다운)'라는 가상 플랫폼이 있다. Armory(테스트베드)는 연구자에게 알려진 공격 및 관련 시나리오에 대한 방어책을 제공한다. 또한 시나리오를 변경하고 변경할 수 있는 기능을 제공하여 방어가 다양한 공격에서 반복 가능한 결과를 제공할 수 있도록 한다.

Armoury 로고 이미지
Armoury 로고 이미지

Armory는 '적대적 견고성 툴박스(Adversarial Robustness Toolbox-다운)' 또는 ART(Adversarial Robustness Toolbox)라는 머신러닝 보안을 위해 파이썬(Python) 라이브러리를 활용한다. ART는 개발자와 연구원이 회피, poisoning, 추출 및 추론과 같은 다양한 적대적 위협에 대해 ML 모델 및 애플리케이션을 방어하고 평가할 수 있는 도구를 제공한다. 이 툴박스는  GARD 프로그램 외부에서의 공유 플랫폼으로 개발되었다.

특히, GARD 프로그램은 전체 프로세스와 같은 새로운 항목뿐만 아니라 데이터세트 및 평가 방법론을 추가하여 라이브러리를 성숙시키고 사용자를 위한 최종 표준으로 끌어올리기 위해 노력하고 있다. 아울러 Armory는 공격 및 모델 통합은 물론 MITRE 생성 데이터 세트 및 시나리오를 위해 ART 라이브러리 구성 요소를 많이 활용한다.

Adversarial Robustness Toolbox(ART) 로고 이미지
Adversarial Robustness Toolbox(ART) 로고 이미지

CONText 또는 APRICOT((Adversarial Patches Rearranged in CONText-다운)에서 재배열된 적대적 패치 벤치마크 데이터 세트도 저장소를 통해 사용할 수 있다. APRICOT은 물체 탐지 시스템에 대한 물리적 적대적 패치 공격의 실제 효과에 대한 재현 가능한 연구 및 개발을 가능하게 하기 위해 만들어졌다.

이 데이터 세트를 통해 사용자는 사물을 3D로 투영할 수 있으므로 이 리소스의 고유한 기능인 물리적 공격을 보다 쉽게 복제하고 물리칠 수 있다. 브루스 드레이퍼는 "기본적으로 우리는 연구원이 방어를 테스트하고 실제로 해결하도록 설계된 문제를 실제로 해결하고 있는지 확인하기 쉽게 만들고 있습니다"라고 말했다.

새로운 분야임에도 불구하고, 현재의 적대적인 AI 방어에 걸쳐 이미 많은 공통적인 주제와 실패 모드가 목격되고 있다. 종종, 연구자들과 개발자들은 어떤 것이 다양한 공격 범위에서 효과가 있을 것이라고 믿지만, 단지 그것이 사소한 일탈에 대한 견고성이 부족하다는 것을 깨닫기 위해서일 뿐이다.

이 문제를 해결하기 위해 구글연구소는 GARD 평가 툴킷을 통해 사용할 수 있는 구글 연구 자체 학습(Google Research Self-Study-다운) 저장소를 만들었다. 저장소에는 '테스트 모형(test dummies)' 또는 최첨단으로 설계되지는 않았지만 방어를 구축하는 데 사용되는 일반적인 아이디어 또는 접근 방식을 나타내는 방법을 제공한다.

한편, 현재, GARD 프로그램의 적대적 방어에 대한 전체론적 평가(Holistic Evaluation of Adversarial Defenses-보기) 저장소를 통해 확인할 수 있으며, 누구나 관련 리소스를 활용할 수 있다. 또 프로그램을 통해 수시로 업데이트 된다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지