인공지능 공중전(알파도그파이트)의 허와 실, 그리고 미래는?

당분간의 미래 공중전에는 인간 탑건이 필요할 뿐더러 이들이 공중전에서 해야 할 일은 더 중요해질 것이다. 단지, 확실한 것은 인간 조종사가 직접 전투기를 조종할 필요는 없어질 것이고, 이는 앞으로 전투기 조종사의 훈련과 전장(戰場)의 영공(領空) 전략에 지대한 영향을 미칠 것이다.

필자 류봉균은 1991년 KAIST(구 KIT) 전기전자 공학과 학사와 1996년 컬럼비아대학교(Columbia University) 전기전자공학 박사로 2012년에 캘리포니아 샌디에고에 본사를 두고 '에피시스 사이언스(EpiSys Science)'를 설립했다. 핵심 기술인 전술 AI (Tactical AI)를 기반으로 인간과 무인시스템과의 협업 (Manned/Unmanned Teaming), 인지 무선 네트워크(Cognitive Radios and Networks. CRNs),전술적 자율 네트워크 관리(Tactical Autonomous Network Management), 인지 전자전(Cognitive Electronic Warfare) 등의 분야를 주력사업으로 한다.

설립 이후 현재까지, 미국 국방부(DoD)와 NASA 등으로부터 연구 개발 및 상용화 프로젝트로 약 2천만 달러(약 237억원) 이상을 지원 받았다. 특히, 이번 DARPA가 주최한 알파도그파이트 시험 프로그램에 8개 회사 중 하나로 참여했고 Air Combat Evolution (ACE) 프로그램에서 앞으로 최대 5년간 알파도그파이트 기술을 개발한다. 또 그는 미국특허 15건과 저서 및 연구논문 등 40여종을 출간 및 발표했다.(편집자 주)

지난 8월 18일부터 20일까지 미국 국방성(US Department of Defense) 산하 고등방위연구계획국(이하, DARPA)이 주최한 알파도그파이트(AlphaDogfight)에서 인공지능(AI) 조종사와 미 공군의 탑건 조종사(콜사인: 'Banger') 와의 가상 공중전(Dogfight)은 AI의 일방적인 승리였다.

게다가 5번의 공중전 통틀어 탑건 조종사는 AI 조종사 전투기에 단 한 발의 유효공격도 못하고 졌다. 한마디로 결과로만 보자면 인간 탑건은 인공지능 탑건에게 완벽하게 깨진 것이다.

아마도 톰 크루즈(Tom Cruise)는 자신이 선택되지 않은 걸 너무 다행으로 여겼을 것 같다. 실제로 DARPA는 인간 탑건을 선정하는데 꽤 애를 먹었다고 한다. 이세돌 9단이 딥마인드 알파고에게 4-1로 지면서 전세계를 충격으로 몰아넣은 지도 벌써 4년이 훌쩍 지난 이 시대에 누가 요즘 AI하고 경쟁한단 말인가? 망신당할게 뻔 한데 말이다.

이제, 우리는 인공지능이 인간의 능력과 실력을 능가하는 건 뉴스거리도 아닐 뿐만 아니라, 인공지능이 점점 더 많은 인간의 직업을 대체할 걱정과 대비를 해야 하는 시대에 살고 있다.

전투기 조종사라는 직업은 애초에 오랜 시간에 걸친 훈련이 필요한 특수한 직종이다 보니, 그런 면에 있어서 DARPA가 주관한 알파도그파이트 파이널 결과는 이제는 전투기 조종사도 인공지능이 대체할 시대가 가까이 왔다고 해도 과언이 아니다. 일례로, 랜드 (RAND) 연구소가 작년에 발표한 안 리포트에 따르면 한 명의 숙련된 전투기 조종사를 배출하는데 필요한 비용이 F-16의 경우 한화로 약 67억원, F-22의 경우 130억원이 든다고 한다.

이번 결과만으로 본다면 미국을 포함하여 국방 예산을 짜고 집행하는 정부 입장에서는 쌍수를 들고 환영할 만한 소식이라고 할지 모르겠다.

자, 그렇다면 이제는 전투기 조종사 훈련학교는 곧 문을 닫을 준비를 하고, 현재 만들고 있는 전투기들 및 미래의 전투기들은 당장 인공지능이 최적의 비행을 할 수 있도록 서둘러서 디자인을 바꾸어야 하는 것일까? 당연히 아니다. 설사 인공지능이 현재보다 현저히 더 진화하고 발전한다 하더라도, 인간 탑건은 앞으로도 필요할 뿐더러 미래의 전시 상황에서 인간 탑건 조종사의 역할은 점점 더 중요해 질 것이다.

다만 앞으로 크게 바뀌는 것이 있다면, 인간 탑건이 미래의 전투기 훈련학교에서 배워야 할 것들은 지난 백여년간 축적된 도그파이트에 필요한 조종기술이 아닌, 인공지능이 대신해 주는 조종을 신뢰하면서 전투를 지원하는 인공지능 윙맨과 함께 공중전 상황에 맞는 '전략'을 지휘하는 지휘자의 역량이 될 것이다.

미 고등방위연구계획국(DARPA)이 주최한 알파도그파이트(AlphaDogfight) 대회 이미지(사진:DARPA)

이번 알파도그파이트 (인공지능 공중전) 프로그램에 참여한 헤론 시스템(Heron Systems), 비조지아공대기술연구소(Georgia Tech Research Institute), 록히드 마틴(Lockheed Martin), 퍼스펙터연구소(Perspecta Labs), 피직스AI(Physics AI), 소어테크(SoarTech), 오로라비행과학(Aurora Flight Sciences) 과 필자가 대표로 있는 에피시스 사이언스(EpiSys Science) 등 8개 팀이 참가했다. 필자의 회사는 비록 1등은 못했지만 지난 12개월 동안 공중전을 위한 인공지능 기술 개발 과정, DARPA의 프로그램 기획 및 운영, 그리고 이 분야에 대한 DARPA의 연구 계획 등에 대해 많은 것을 배웠다.

이 경험을 토대로 필자는 미래의 공중전에 필요한 인간과 인공지능간의 상호 협력 및 신뢰에 대하여 짧게나마 정리하고, 공유하고자 한다.

DARPA는 원래 총 6개의 회사만을 선정할 계획이었다고 한다. 하지만 인공지능 기술은 있지만 공중전 및 비행기 제어 경험은 전무후무한 작은 회사들에게도 제안서 검토 및 발표를 통해 기회를 주기로 하였고 이로 인해 필자 회사 (당시 직원 약 12명) 및 다른 작은 회사가 더 참여하게 되어 총 8개의 회사가 2019년 9월부터 과제를 시작하게 되었다.

한 회사당 60만불(약 7억1천만원), 총 6개 회사로 프로그램 예산이 정해져 있었던 상태에서 참여 회사를 늘리는 일은 쉬운 일은 아니었다. 그래도 DARPA이다 보니 주어진 유연성을 이용하여 결국에는 8개 회사 모두 60만불을 받게 된다. (나중에 코로나로 인해 일정이 지연되어 90만불(약 10억7천만원)로 늘어났다.

'공정'이라는 규제의 속박에 익숙한 한국 제도의 경직성과 비교해 보았을 때 이런 면에서 DARPA 가 갖고 있는 자율의 '힘'을 한 번 더 강하게 느꼈다.

먼저 이 프로그램은 원래 총 3번의 해커톤 형식의 대회를 열기로 되어 있었다. 2019년 11월에 첫번째 대회, 2020년 1월에 두번째, 그리고 2020년 5월에 라스베이거스에서 최종 대회가 열리기로 예정되어 있었다. 첫번째와 두번째 해커톤은 예정대로 열렸고, 한 팀을 제외한 거의 모든 팀들이 향상된 성능을 보여주었다. 3월에 코로나 사태가 터지면서 5월에 열기로 했던 최종 대회를 8월로 미루고 대신 해커톤이 한 번 더 개최됐다.

첫번째 해커톤 (11월)에서는 모든 회사가 아주 기본적인 공중전을 배운 인공지능 모델을 시연했다면, 두번째를 거쳐 세번째 해커톤 (2020년 5월)에서는 성능에서 거의 두 그룹으로 나뉘어 졌는데, 이때 좋은 성능을 보여주었던 회사들이 8월 최종 대회에서도 역시 좋은 성능을 보여주었다. 최종대회에서 우승한 헤론 시스템(Heron Systems)은 처음 해커톤부터 1등을 놓치지 않았으니 헤론의 성적은 인정받아 마땅하다.

이 대회 프로그램에서 정말 중요한 역할을 한 기관이 존스 홉킨스 대학교(The Johns Hopkins University) 부설연구인 응용물리연구소(Applied Physics Lab. 이하, APL)이다. APL은 8개 회사들이 동일한 환경에서 인공지능을 개발할 수 있도록 소프트웨어와 다양한 적군 공중전 에이전트들을 만들어서 제공했다.

물론 해커톤에서 공정하게 대회를 진행하는 역할도 아주 훌륭하게 수행했다. 참고로 필자는 한국의 국방 과제에 참여해 본 경험도 없고 제도도 잘 모르지만, 대형의 고등대학부설연구소가 없는 한국에서는 누가 APL과 같은 역할을 수행해 줄 수 있는지 궁금하다. DARPA등 미국의 국방 연구를 보조하는 역할을 하는 이런 대형 대학부설 연구소가 여럿 있는데 (MIT 링컨 랩, 조지아 테크 대학 부설연구소, 칼텍의 Jet Propulsion Laboratories 등) 이들의 규모 (수천 명의 직원) 및 연구 실력은 말 안해도 세계 정상급이다.

한국에는 아마도 대학들이 이런 부설 연구기관을 설립하고 운영하기보다는 국책연구소들이 그 역할을 하고 있는 것 같지만 미국에서는 국가 연구기관이 아닌 세계 정상급 대학들이 이런 부설 연구소를 운영하고 미국 국방부 또한 이들에게 중책을 맡기는 이유는 간단하다. 대학에서 나오는 소위 SOTA (state-of-the-art, 최신기술) 기술이 나오는 대로 바로 적용할 수 있기 때문이다.

이 부설 연구소들은 소속은 학교이지만, 전문연구소로서 상당히 디테일하고, 급여도 수준급에다가, 회사처럼 성과에 집중하는 구조로서 치밀하게 운영된다. 때문에 대학에서 학위를 받고 부설 연구소로 바로 흡수되는 젊은 연구원들이 소위 배운 지식을 맘껏 발휘할 수 있는 환경이 잘 만들어져 있고, 이런 생태계가 필자는 부럽다는 생각을 많이 한다.

인공지능 강화학습 기술을 비교하자면, 1등을 한 회사 (헤론 시스템. 이하, 헤론)을 제외하고는 타 회사들의 인공지능 모델에 대해서는 알려진 바가 없지만, DARPA에 따르면 8개 회사들의 인공지능 모델은 대략 두 그룹으로 나뉘어졌다고 한다.

한개의 커다란 신경망 모델이 비행기 제어 전체를 맡아서 하는 그룹과 (헤론은 여기에 속함), 모듈화를 하여 각각의 모듈에 신경망 또는 전문가 시스템 (expert system)을 넣어서 신뢰도 (trust) 및 설명성 (explainabilty)을 중시하는 방법 (필자의 회사 포함)로 나뉘었다고 한다.

사용된 강화학습(Reinforcement learning) 모델 자체로는 이미 잘 알려진, 비디오 게임에서 높은 성능들을 보인 버클리 AI연구소(Birke AIR)가 선보인 ‘SAC(Soft Actor-Critic)’와 확장된 규모의 강화학습 알고리즘인 ‘PPO(Proximal Policy Optimization)’, ‘TD3 (Twin Delayed DDPG)’ 등의 모델이 사용되어 기술적으로는 딱히 특별할 게 없었지만, 셀프 플레이 리그를 만들어서 훈련시키는 과정과 모듈화에서 잃어버리게 되는 성능을 보완시키는 기술 등에서 회사 간의 성능 차이가 난 것이다.

특히, 강화학습 모델 개발에서 빼놓을 수 없는 '보상'에 대한 정의와 환경은 DARPA에서 유효공격 및 스코어링을 정해주었고 APL에서 동일한 전투기 시뮬레이션 환경을 제공해 주었기 때문에 대부분의 회사들이 어려움 없이 훈련에 집중할 수 있었다.

또한 최종 대회에서 보인 회사 간의 실력차이는 어떤 강화학습 모델을 사용했느냐는 기술적인 차이가 아닌, 얼마나 다양한 적군 에이전트들을 리그 설정에 반영하고, 얼마나 오랫동안 지속적으로 '훈련'을 시켰냐 에서 결국 차이가 났다. 사실 최종대회 첫날에 열린 APL에서 제공한 적군 에이전트와의 공중전 결과를 보면 회사 간 차이는 거의 없었다.

하지만 이 미세한 차이는 둘쨋날 풀리그 형식으로 열린 예선전에서 차이를 크게 벌리게 되는 게 단 0.01초라도 옳고 빠른 결정을 내리는 에이전트가 엄청나게 유리한 구조로 환경이 설정되었기 때문인 것이다.

이 미세한 차이를 타의 추종을 불허한 실력으로 만들어낸 헤론 팀에게 축하를 보낸다. 특히 미세한 차이는 필자의 회사처럼 모듈화한 설계로 부분적으로만 신경망을 사용했던 팀에게는 넘기 어려운 벽이었다.

헤론에 따르면 이 대회 초기부터 신경망만으로 전투기를 제어하기로 결정하고 다양한 적군 에이전트들을 타 회사보다 더 일찍 리그에 주입하여, 10개월 내에 인간 탑건의 몇십년 이상의 훈련 량을 실현시켰다고 하니, 중간에 모델을 교체하고 자체 리그 훈련 시스템을 늦게 시작한 팀들은 헤론 팀을 따라잡는 다는 것은 역부족이었다. 이에 대한 헤론의 운영과 결정에 대해서 다시한번 칭찬을 안 할 수가 없다.

알파도그파이트 대회 최종전이 인공지능의 완승으로 끝난 지가 벌써 열흘이 넘어가지만, 아직도 다수의 미디어와 SNS 등에서 이 대회에 대한 평가와 미래에 대한 예측으로 온라인상에서 다양한 의견들을 제각각 제시하고 활발하게 논의되고 있다.

특히, 전현직 전투기 조종사들의 (해군과 공군의 탑건) 의견 개진이 흥미로운 데, 한편으로는 하루라도 빨리 인공지능이 전투기를 조정하게 하자고 하고, 다른 한편에서는 비디오 게임처럼 공중전을 단순화 시킨 상태에서 나온 결과는 별로 의미가 없다고 폄하하는 의견이다.

필자 역시 이 대회는 인공지능 공중전의 진정한 기술을 평가했다기 보다는, 비디오게임이나 바둑처럼 주어진 '완벽한' 환경 속에서 간소화되고 비현실적인 공중전 시뮬레이션 환경에 최적화된 '훈련'된 에이전트를 만들 수 있었다는 데에 (즉, 특수한 환경에 아주 특화된, 소위 overfitting된) 의미를 부여하는 것이 맞는다고 생각한다.

DARPA는 이 대회전부터 이미 이런 논쟁(?)을 미리 예측하였고, 이는 DARPA가 현재 진행하고 있는 ACE(Air Combat Evolution)라는 프로그램의 목적에 잘 나타나 있다. ACE의 목적 중 하나가 탑건 조종사들이 절대적으로 신뢰할 수 있고, 전시에 어떤 환경에서도 인간이 쉽게 이해할 수 있는 인공지능을 개발하는 것이다.

이 목적 달성에 따른 기술개발의 위험을 줄이고자 알파도그파이트 대회를 진행하였고, 여기에서 나온 인공지능 기술 중 성능과 더불어 신뢰성과 설명 가능한 인공지능(XAI) 모델들이 ACE에 선정되어 앞으로 약 4-5년 동안 계속 개발하게 된다. 필자 회사의 인공지능 모델도 ACE 프로그램의 후보로 당당히 선정되어 약 100억원 가까운 과제비 지원을 받아 신뢰성과 명확한 설명성이 추가 된 인공지능기술을 개발할 계획이다.

이 인공지능은 단순히 전투기를 제어하는 것뿐만 아니라 무인 전투기들과 함께 하는 '편대비행' 전략까지 결정해야 하는 복합적인 기술일 뿐더러, 시시각각 인공지능이 결정하는 액션들을 탑건 조종사가 실시간으로 신뢰하고 이해할 수 있어야 한다. 이를 위해서는 헤론과 같은 신경망으로만 만들어진 모델 보다는 모듈화 된 모델이 더 적합하다.

아마 독자 분들 중에 “미래의 공중전에 인간 조종사가 과연 필요할까?” 라고 생각하는 분들이 있을지 모르겠다.

결론적으로 먼 미래에는 모든 공중전이 무인 전투기끼리 싸우게 되고 인간은 그냥 지상에서 구경하고 있을 수도 있다. 하지만, 전투기 제작비가 엄청나게 낮아지지 않는 이상, 살상용 무기가 전투기에 탑재되는 이상, 그리고 결코 실수하지 않는 인공지능이 만들어지지 않는 이상, 당분간의 미래 공중전에는 인간 탑건이 필요할 뿐더러 이들이 공중전에서 해야 할 일은 더 중요해질 것이다.

단지, 확실한 것은 인간 조종사가 직접 전투기를 조종할 필요는 없어질 것이고, 이는 앞으로 전투기 조종사의 훈련과 전장(戰場)의 영공(領空) 전략에 지대한 영향을 미칠 것으로 예상된다.

상단영역

본문영역

인공지능 공중전(알파도그파이트)의 허와 실, 그리고 미래는?

관련기사

기사 댓글 0

비회원 로그인