기계 학습 모델에 대한 설명을 평가하고 사람들이 모델을 얼마나 잘 이해하는지 수량화하기 위한 수학적 프레임워크 개발(이미지:MIT, 편집:본지)
기계 학습 모델에 대한 설명을 평가하고 사람들이 모델을 얼마나 잘 이해하는지 수량화하기 위한 수학적 프레임워크 개발(이미지:MIT, 편집:본지)

신경망(NN, Neural Network)과 같은 현대의 머신러닝 모델은 이미지, 음성뿐만 아니라 문장 등 새로운 콘텐츠를 생성하는 데 널리 활용되고 있다. 이런 생성모델의 발전에도 불구하고 최근 개발된 모델도 여전히 '블랙박스'의 존재로 국방, 의료, 제조, 금융 등의 매우 중요한 작업에 모델을 적용하는 것에는 어려운 점이 따른다.

일부 통찰력을 제공하기 위해 개별 모델 결정을 설명하는 설명 방법을 사용한다. 예를 들어, 영화 리뷰에서 리뷰가 긍정적이라는 모델의 결정에 영향을 미치는 단어를 강조 표시할 수 있다. 그러나, 이러한 설명 방법은 인간이 쉽게 이해할 수 없거나 잘못 이해하는 경우에는  아무런 도움이 되지 않는다. 

이같은 문제에 해결을 위해 MIT 컴퓨터과학 및 인공지능연구소(Computer Science & Artificial Intelligence Laboratory, 이하, CSAIL)와 마이크로소프트 리서치의 공동연구팀은 머신러닝 모델에 대한 설명에서 이해 가능성을 공식적으로 수량화하고 평가를 위한 수학적 프레임워크인 '엑섬(EXSUM, EXplanation SUMmary/설명요약)'을 구축했다.

이 프레임워크를 사용하면 개발 및 연구자가 전체 모델을 이해하기 위해 소수의 개별 설명만 평가하는 경우, 놓칠 수 있는 모델 동작에 대한 통찰력을 정확히 찾아내는 데 도움이 될 수 있으며, 로컬 설명을 통해 모델에 대해 알고 있는 것뿐만 아니라 더 중요하게는 모델의 모르는 것에 대해 매우 명확하게 파악할 수 있다고 한다.

머신러닝 모델을 이해하는 한 가지 방법에서 예측은 모방하지만 투명한 추론 패턴을 사용하는 다른 모델을 찾는 것이다. 그러나 최근의 신경망 모델은 너무 복잡해서 이 기술은 대부분 실패한다고 한다.

대신, 개발 및 연구자들은 개별 입력에 초점을 맞춘 현지 설명을 사용하는 데 의존한다. 종종 이러한 설명은 텍스트에서 단어를 강조하여 모델에 의해 만들어진 하나의 예측에 대한 중요성을 나타낸다.

로컬 설명 방법을 사용하여 기계 학습 모델이 결정을 내리는 방법을 시도하고 쉽고 정확하게 이해한다. 설령 이 설명이 맞는다고 해도 인간이 그 의미를 이해하지 못한다면 아무 소용이 없다. 연구팀의 ‘설명의 이해 가능성을 수량화하고 평가하기 위한 수학적 프레임워크’는 많은 이전 작업이 전자의 속성을 연구했지만 이 연구에서는 지금까지 크게 무시되었던 후자에 초점을 맞춘다.
로컬 설명 방법을 사용하여 기계 학습 모델이 결정을 내리는 방법을 시도하고 쉽고 정확하게 이해한다. 설령 이 설명이 맞는다고 해도 인간이 그 의미를 이해하지 못한다면 아무 소용이 없다. 연구팀의 ‘설명의 이해 가능성을 수량화하고 평가하기 위한 수학적 프레임워크’는 많은 이전 작업이 전자의 속성을 연구했지만 이 연구에서는 지금까지 크게 무시되었던 후자에 초점을 맞춘다.

암묵적(暗默的)으로 이러한 로컬 설명을 전반적인 모델 동작에 일반화한다. 어떤 사람은 설명 방법이 모델이 영화 리뷰가 긍정적인 감정을 가지고 있다고 결정할 때 긍정적인 단어(예 "기억에 남는", "완벽한" 또는 "매력적인")를 가장 영향력 있는 것으로 강조했다는 것을 볼 수 있다. 그런 다음, 그들은 모든 긍정적인 단어들이 모델의 예측에 긍정적인 기여를 한다고 가정할 가능성이 높지만, 항상 그런 것은 아닐 수도 있다고  연구팀은 말한다.

연구팀의 프레임워크(ExSum)는 이러한 유형의 주장을 정량화할 수 있는 측정 기준을 사용하여 테스트할 수 있는 규칙으로 공식화 한 것이다. ExSum은 구성되는 단일 인스턴스가 아니라 전체 데이터 세트에 대한 규칙을 평가한다.

그래픽 사용자 인터페이스를 사용하여 개인은 수정, 조정 및 평가할 수 있는 규칙을 작성한다. 예를 들어, 영화 리뷰를 긍정적 또는 부정적으로 분류하는 것을 배우는 모델을 연구 할 때, '부정 단어는 부정적으로 두드러진다'는 규칙을 작성할 수 있다. 즉, “not”, “no", “nothing”과 같은 단어들은 영화 평론의 정서에 부정적으로 기여한다는 것을 의미한다.

사용자는 ExSum을 사용하여 적용 범위, 유효성 및 선명도의 세 가지 특정 메트릭을 사용하여 해당 모델의 규칙이 유지되는지 확인할 수 있다. ▷적용 범위는 규칙이 전체 데이터 세트에 얼마나 광범위하게 적용되는지 측정한다. ▷유효성은 규칙에 일치하는 개별 예제의 백분율을 강조 표시한다. ▷선명도는 규칙이 얼마나 정확한지 정밀도를 설명한다. 그러나, 매우 유효한 규칙은 너무 일반적이어서 모델을 이해하는 데 유용하지 않을 수 있다.

연구팀은 향후, 이해 가능성의 개념 (Notion of Understandability. 즉, 모델 예측을 변경하기 위해 입력을 수정하는 방법을 나타내는)을 반사실적 설명과 같은 다른 기준과 설명 형식으로 플랫폼을 확장할 예정이다. 현재, 연구팀의 플래폼은 '영화 리뷰에서 표현되는 단어와 같이' 모델이 결정을 내리는 데 사용된 개별 특징을 설명하는 방법에 초점을 맞췄다.

한편, MIT CSAIL 줄리 샤(Julie Shah) 교수, 저우 이룬(Yilun Zhou) CSAIL 박사 과정, 마이크로소프트 마르코 툴리오 리베이로(Marco Tulio Ribeiro) 선임연구원이 참여한 이 연구 성과는 미국 시애틀(7,10~15)에서 온‧오프 동시로 개최되는 전산언어학회 북미 연례학술대회 2022년(Annual Conference of the North American Chapter of the Association for Computational Linguistics, NAACL 2022)에서 ‘엑셈: 로컬 설명에서 모델 이해까지(EXSUM: From Local Explanations to Model Understanding-다운)’란 제목으로 발표될 예정이며, 프레임워크는 깃허브(다운)에 그리고 ExSum 패키지 문서(보기)를 운영하고 있다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지