이 모델의 학습된 기능은 이미지의 모든 영역에 작용하는 것으로 나타났다. 즉, 이러한 유형의 AI 알고리즘 동작을 제어하는 ​​것은 매우 혼란스럽고 어렵다는 과제를 남겼다...인공지능 알고리즘은 ‘악을 위한 힘’이 될 수도 있고 ‘선을 위한 힘’이 될 수도 있다. 어느 것이 우리에게 달려 있는지와 알고리즘을 구축할 때 우리가 내리는 선택...

연구팀의 AI 시스템은 '인종 편견' 넘어서 의료 이미지에서 환자 인종도 정확히 식별한다(사진:MIT, 편집:본지)
연구팀의 AI 시스템은 '인종 편견' 넘어서 의료 이미지에서 환자 인종도 정확히 식별한다(사진:MIT, 편집:본지)

인공지능(AI)의 발전과 진화에 따르는 보다 편리한 생활, 그 이면에는 사회·문화 등에서 알고리즘의 잘못된 학습은 차별, 편견, 오류 등의 심각한 문제를 발생시키기도 한다.

인공지능(AI)의 발전과 진화에 속도를 내고 있다. 그러나 그 이면에는 사회·문화 등에서 알고리즘의 잘못된 학습은 차별, 편견, 오류 등의 심각한 문제를 초래할 수 있다. 예를 들어, 'AI는 흑인 피고인들에게 백인보다 재범할 가능성이 두 배나 높다(참조)'는 잘못된 추론을 냈다. 

또한, 흑인 환자에게 지출되는 비용이 적기 때문에 흑인 환자는 똑같이 아픈 백인 환자보다 건강한 것으로 잘못 명명(논문:건강 관리를 위한 빅 데이터 및 AI의 편견 해결: 개방형 과학에 대한 요구-다운)되기도 했다. 심지어 AI도 캐스팅에 유해한 고정관념에 의존하여 연극을 쓰곤(참조) 했다.

이런 문제들은 데이터에서부터 민감한 기능을 제거하는 것은 실행 가능한 해결책처럼 보인다. 하지만 데이터 정제(Data Cleansing) 과정이 충분하지 않을 때는 어떻게 될까?

여기에, MIT 연구진을 비롯한 23명의 4개국 공동 연구팀은 또 다른 분야에서 중요하지만 과소평가된 의료 이미지를 통해 이 분야를 집중 연구했다. 특히, 연구팀이 개인 데이터 세트와 공공 데이터 세트를 모두 사용하여 개발한 인공지능 모델은 의료 이미지만으로 환자의 인종(人種)을 정확하게 식별할 수 있었다.

연구팀은 흉부 X선, 사지(팔다리) X선, 흉부 CT 스캔 및 유방조영술의 이미지 데이터를 사용하여 딥러닝 모델을 훈련시켜 인종을 백인, 흑인 또는 아시아인으로 식별하도록 한 것이다. 이는 아무리 숙련된 전문의라도 할 수 없는 과정이다. 그러나, 연구팀은 이 AI 모델이 어떻게 이것을 식별 할 수 있었는지 설명하지 못했다.

연구팀은 이 수수께끼 같은 '방법'을 이해하기 위해 수많은 실험을 진행했다. 인종 식별이 가능했던 메커니즘을 조사하기 위해 그들은 해부학, 골밀도, 이미지 해상도 등의 차이와 같은 다양한 변수를 살펴보았다.

MIT의 전기공학 및 컴퓨터공학부(EECS) 및 의료공학 및 과학연구소(IMES)의 교수이자 MIT 인공지능연구소(CSAIL) 'Healthy ML'그룹장(사진:본지DB)
MIT의 전기공학 및 컴퓨터공학부(EECS) 및 의료공학 및 과학연구소(IMES)의 교수이자 MIT 인공지능연구소(CSAIL) 'Healthy ML'그룹장(사진:본지DB)

연구를 주도한 MIT 전기공학 및 컴퓨터공학부의 교수이자 이 연구의 공동저자인 마르지에 가세미(Marzyeh Ghassemi-본지 보도)는 "우리 연구팀은 이 결과를 식별하는 알고리즘에 더 접근할 수 없었기 때문에 처음에는 매우 혼란스러웠습니다"라고 말했다.

이어 "이것은 의료 이미지를 의료 이미지로 인식할 수 있는 부분을 지나서 사용된 의료 이미지를 필터링하더라도 AI모델은 여전히 높은 성능을 유지했습니다"라며, "하지만 이 초인적인 능력은 일반적으로 통제, 규제 및 사람들에게 해를 끼치는 것을 방지하기가 훨씬 더 어렵기 때문에 우려됐습니다”라고 말했다.

특히, 마르지에 가세미 박사는 토론토대학 등 공동연구팀이 불균형 데이터의 문제를 해결할 수 있는 방법으로 모델 내부에 공정성 기술을 직접 적용하는 솔루션을 개발했다.이 연구 결과는 지난달 개최된 글로벌 최고 권위의 머신러닝학회 ICLR 2022(국제 표현 학습 학회)에서 'IS Fairness Only Metric Deep? Evaluation and Addressing Subgroup Gaps in DML(다운)'란 제목으로 발표됐다.

최근, 임상 환경에서 AI 알고리즘은 환자가 화학 요법의 대상인지 여부를 알려주거나 환자 분류를 지시하거나 집중치료실(Intensive Care Unit, ICU)로의 이동이 필요한지 여부를 결정하는 데 도움을 주고 있다.

MIT 의학공학‧과학연구소(IMES)의 수석 연구 과학자이며, 임상 연구실 및 전산생리학연구실(Laboratory of Computational Physiology) 공동 책임자로 하버드의과대학 의학부 교수인 공동저자인 레오 앤서니 셀리(Leo Anthony Celi)(사진:IMES)
MIT 의학공학‧과학연구소(IMES)의 수석 연구 과학자이며, 임상 연구실 및 전산생리학연구실(Laboratory of Computational Physiology) 공동 책임자로 하버드의과대학 의학부 교수인 공동저자인 레오 앤서니 셀리(Leo Anthony Celi)(사진:IMES)

MIT 의학공학‧과학연구소(Institute for Medical Engineering and Science, IMES)의 수석 과학자이며, 하버드의과대학 의학부 교수인 공동저자인 레오 앤서니 셀리(Leo Anthony Celi)는 "우리는 알고리즘이 바이탈 사인이나 실험실 테스트만 보고 있다고 생각하지만 모든 정보가 숨겨져 있더라도 모델은 인종, 민족, 성별 등의 여부에 관계없이 볼 수 있습니다" 라고 말했다.

이어 “알고리즘에 서로 다른 그룹을 대표한다고 해서 기존의 격차와 불평등이 지속되거나 확대되지 않는다는 보장은 없습니다. 또한, 알고리즘에 더 많은 데이터를 제공하는 것이 이 문제를 해결하는 만병통치약은 아닙니다"라고 말했다.

연구팀의 이 모델은 미국 내 다양한 학술 센터 및 환자 집단뿐만 아니라 여러 이미징 방식, 다양한 데이터 세트 및 다양한 임상 작업에 걸쳐 인종을 예측할 수 있음을 보여주었다. 그들은 3개의 큰 흉부 X선 데이터 세트를 사용하고 모델을 훈련하는 데 사용된 데이터 세트의 보이지 않는 하위 집합과 완전히 다른 데이터 세트에서 모델을 테스트했다.

그런 다음, 그들은 모델의 성능이 흉부 X선으로 제한되었는지 확인하기 위해 디지털 방사선 촬영, 유방 촬영술, 측면 경추 방사선 사진 및 흉부 CT를 포함하여 여러 신체 위치의 비흉부 X선 이미지에 대한 ‘인종 정체성 탐지(Racial Identity Detection)’ 모델을 훈련했다.

특히, 연구팀은 모델의 행동을 설명하기 위해 다양한 인종 그룹 간의 신체적 특성 차이(체형습관, 유방밀도), 질병 분포(이전 연구에서 흑인 환자가 심장병과 같은 건강 문제에 대해 더 높은 발병률을 나타냄), 위치별 또는 조직별 특성을 설명하려고 많은 기반을 다졌다.

위치별 또는 조직별 차이, 사회적 편견과 환경적 스트레스의 영향, 여러 인구통계학적 및 환자 요인이 결합되었을 때 인종을 감지하는 딥러닝 시스템의 능력, 그리고 특정 이미지 영역이 인종 인식에 기여했는지 여부를 테스트했다.

연구팀은 이 결과는 정말 충격적이었다고 했다. 진단 라벨만으로 인종을 예측하는 모델의 능력은 흉부 X선 이미지 기반 모델보다 훨씬 낮았기 때문이다.

MXR 데이터 세트에서 저역 통과 필터 및 고역 통과 필터 후 이미지 샘플로 HPF=고역 통과 필터링. LPF=저역 통과 필터링. MXR=MIMIC-CXR 데이터세트.(이미지:논문 캡처)
MXR 데이터 세트에서 저역 통과 필터 및 고역 통과 필터 후 이미지 샘플로 HPF=고역 통과 필터링. LPF=저역 통과 필터링. MXR=MIMIC-CXR 데이터세트.(이미지:논문 캡처)

예를 들어, 골밀도 테스트는 뼈의 두꺼운 부분이 흰색으로 나타나고 얇은 부분이 더 회색이나 반투명하게 나타나는 이미지를 사용했다. 연구팀은 흑인이 일반적으로 골밀도가 더 높기 때문에 색상 차이가 AI 모델이 인종을 감지하는 데 도움이 된다고 가정했다.

연구팀은 그 차이를 없애기 위해 필터로 이미지를 잘라서 모델이 색상 차이를 표시할 수 없도록 했다. 그러나, 색상을 차단해도 모델은 여전히 인종을 정확하게 예측할 수 있었다(정량적 진단검사의 정확도를 나타내는 'AUC(Area Under the Curve)' 값은 0.94~0.96).

결과적으로 이 모델의 학습된 기능은 이미지의 모든 영역에 작용하는 것으로 나타났다. 즉, 이러한 유형의 AI 알고리즘 동작을 제어하는 ​​것은 매우 혼란스럽고 어렵다는 과제를 남겼다.

연구팀은 아시아, 흑인, 백인 인구에 초점을 맞추게 한 인종 정체성 라벨의 이용가능성이 제한적이라는 것을 인정하고 앞으로 진행될 다른 작업에는 골밀도 실험과 마찬가지로 이미지에 남아 있는 뼈 조직을 설명할 수 없기 때문에 이미지 재구성 전에 다른 신호를 분리하는 것이 포함될 것이라고 밝혔다.

특히, 연구팀의 다른 연구에서는 모델이 임상 기록에서 인종에 대한 명시적 지표가 제거된 경우에도 환자를 식별할 수 있다는 것을 발견했다. 이 연구에서와 마찬가지로, 인간 전문가들은 수정된 동일한 임상 기록에서 환자의 인종을 정확하게 예측할 수 없었다.

MIT IMES의 수석 연구과학자이자 하버드 의과대학 교수로 공동저자인 레오 앤서니 셀리는 “우리는 사회 과학자들을 불러들일 필요가 있습니다. 일반적으로 임상의, 공중보건종사자, 컴퓨터 과학자 및 엔지니어 등 도메인 전문가로는 충분하지 않습니다”라며, “건강관리는 의학적 문제만큼이나 사회 문화적 문제인 것입니다. 우리는 이러한 알고리즘을 설계, 개발, 배포 및 평가하는 방법에 대한 의견과 피드백을 제공할 또 다른 전문가 그룹이 필요한 시점입니다”라고 말했다.

이어 “또한 데이터를 적용하기 전에 데이터 과학자들에게 꼭 물어볼 필요가 있습니다. 불일치가 있습니까? 어떤 환자 그룹이 소외되어 있습니까? 이러한 격차의 동인은 무엇입니까? 보살핌을 받을 수 있습니까? 간병인의 주관성 때문입니까?... 우리가 그것을 이해하지 못한다면 알고리즘의 의도하지 않은 결과를 식별할 기회가 없을 것입니다"라고 부연했다.

사진은 캘리포니아대학교/버클리 캠퍼스 지아드 오버마이어(Ziad Obermeyer) 교수로 버클리 이전에는 하버드 의과대학 교수를 역임했으며, 비영리 단체인 나이팅게일 오픈 사이언스( Nightingale Open Science)와 건강 분야의 AI 혁신을 지원하는 데이터 플랫폼인 민들레(Dandelion)를 공동 설립했다.(사진:버클리교수연구실)
사진은 캘리포니아대학교/버클리 캠퍼스 지아드 오버마이어(Ziad Obermeyer) 교수로 버클리 이전에는 하버드 의과대학 교수를 역임했으며, 비영리 단체인 나이팅게일 오픈 사이언스( Nightingale Open Science)와 건강 분야의 AI 혁신을 지원하는 데이터 플랫폼인 민들레(Dandelion)를 공동 설립했다.(사진:버클리교수연구실)

건강에 적용되는 AI에 초점을 맞추고 있는 캘리포니아대학교/버클리 캠퍼스(University of California, Berkeley)의 지아드 오버마이어(Ziad Obermeyer) 교수는 “연구팀이 설득력 있게 모든 과정을 기술한 바와 같이 이 AI 알고리즘이 인종을 '본다'는 사실은 매우 위험할 수도 있습니다. 그러나, 중요한 사실은 알고리즘을 보다 신중하게 사용한다면 편향에 대응할 수 있다는 것입니다"라고 강조했다.

이어 “코넬대학교(Cornell University) 컴퓨터 과학자 엠마 피어슨(Emma Pierson)이 이끄는 연구에서, 우리는 환자의 통증 경험을 통해 학습하는 AI 알고리즘이 흑인 환자에게 불균형 적으로 영향을 미치고 방사선 전문의가 불균형적으로 놓친 X-레이 이미지에서 무릎 통증의 새로운 원인을 발견할 수 있음을 보여줍니다(보기)”라며, “따라서 다른 도구와 마찬가지로 인공지능 알고리즘은 ‘악을 위한 힘’이 될 수도 있고 ‘선을 위한 힘’이 될 수도 있습니다. 어느 것이 우리에게 달려 있는지와 알고리즘을 구축할 때 우리가 내리는 선택인 것입니다”라며, 이 연구 결과를 정리했다.

한편, MIT 및 하버드의과대학을 비롯한 4개국 23명의 연구진이 참여한 이 연구는 디지털 의료 분야 국제 학술지 랜싯 디지털 헬스(Lancet Digital Health)에 의료 이미징에서의 환자 인종에 대한 AI 인식: 모델링 연구(AI recognition of patient race in medical imaging: a modelling study-다운)'라는 제목으로 지난 11일 게재됐다.

또한, 이 연구에 사용된 두 개의 대형 공개 흉부 X-레이 데이터 세트인 MIMIC-CXR 및 CheXpert, 미국국립암연구소의 국가 폐암검진 임상연구(National Lung Cancer Screening Trial), 북미방사선학회(RSNA)의 폐색전증 CT 및 Digital Hand Atlas는 모두 공개적으로 사용할 수 있으며, 에모리대학교(Emory University)의 AI-벤저스 데이터 세트(에모리 CXR, 에모리 Chest CT, 에모리 Curstal Spinn 및 에모리 유방촬영사진)는 요청에 따라 누구나 사용(다운)할 수 있다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지