[칼럼] 의료에서 '인간' 대 '인공지능'의 진단 추론은 무엇이 다른가?
[칼럼] 의료에서 '인간' 대 '인공지능'의 진단 추론은 무엇이 다른가?
  • 최창현 기자
  • 승인 2019.12.09 06:45
  • 댓글 0
이 기사를 공유합니다

의료에서 학습의 기본 원리는 인간과 AI는 유사하지만 진단에 대한 각각의 접근 방식은 현저히 다르다.

임상의는 직관적이고 연역적인 방식으로 접근하는 반면, AI는 주로 분석적이고 유도적이다.
의료에서 '인간' 대 '인공지능'의 진단 추론은 무엇이 어떻게 다른가(사진:픽사베이, 본지DB, 편집:본지)
의료에서 '인간' 대 '인공지능'의 진단 추론은 무엇이 어떻게 다른가(사진:픽사베이, 본지DB, 편집:본지)

인공지능(AI)이 종종 의료의 미래로 제시되기도 하고 일각에서는 인공지능이 의사를 대신할 것이라고도 한다.

하지만, 이것은 기우일 뿐 인공지능(AI)은 의료에서 인적 오류를 줄이고 의료 실무의 질을 향상시키는 유용한 도구로 AI가 스스로 학습하고 의사를 대체할 것이라는 부정적 요소 보다는 인간과 인공지능은 서로 다르고 보완적이기 때문에 AI가 임상 문제의 해결에서 의사를 완전히 대체하지는 않을 것으로 대부분 말한다.

의료에서 학습의 기본 원리는 인간과 인공지능은 유사하지만 진단에 대한 각각의 접근 방식은 현저히 다르다. 임상의는 직관적이고 연역적인 방식으로 진단에 접근하는 반면, AI는 주로 분석적이고 유도적이다.

인간의 지능은 임상적 추론 개념에 분명하다. 의학에서 임상적 추론은 종종 인지심리학(Cognitive Psychology)의 정보 처리 이론의 관점에서 이해된다.

대부분의 AI 진단은 어렵고 복잡한 문제를 처리하기에 충분한 지능적인 머신러닝 알고리즘을 기반으로 한다. 알고리즘은 생성을 위해 인간의 지능에 의존하고 있다.

그러나 일부에서는 신경망(Neural Network), 특히 심층신경망(DNN, Deep Neural Network)을 통해 상당히 진화된 방법으로 인간과 AI가 진단적 추론에 접근하는 방식의 차이점을 분석하기 시작하면서 인간의 추론이 의학적 진단에서 앞으로는 쓸모없게 될 것이라고 주장하기도 한다.

생활 속에서 우울증을 감지 또는 진단하는 인공지능 모델의 핵심은 우울증을 나타내는 패턴을 감지하고 추가 정보가 없는 새로운 개인에게 패턴을 매핑할 수 있는 모델의 능력에 있으며, 연구자들은 종종 음성 처리에 사용되는 시퀀스 모델링(Sequence modeling)이라는 기술을 사용했다.(사진:본지DB)
최근 개발된 생활 속에서 우울증을 감지 또는 진단하는 신경망 모델의 핵심은 우울증을 나타내는 패턴을 감지하고 추가 정보가 없는 새로운 개인에게 패턴을 매핑할 수 있는 모델의 능력에 있으며, 연구자들은 종종 음성 처리에 사용되는 시퀀스 모델링(Sequence modeling)이라는 기술을 사용해 일련의 단어 또는 말하기 스타일을 감지하고 우울증이나 우울증에 걸릴 가능성이 있는 패턴을 추출하고 결정한다.(사진:본지DB)

하지만 이런 주장이 의료 진단에서 AI로 대체하는 것은 별개이며, AI는 임상의가 추론에 도움을 주는 도구로 간주되어야 한다.

그럼 인간과 AI는 어떻게 진단 작업을 수행하고 진단하는 법을 배우는가?

인간과 AI는 임상 경험에 반복적으로 노출되어 인간 지능에 대한 경험과 의료 전문가의 개입을 기반으로 한 피드백이 중요하다. 의사는 대부분의 임상 문제를 직관적이고 이미 알고 있는 판단을 근거로 새로운 판단을 유도하는 추론하는 연역적인(deductive reasoning) 방법으로 해결하지만 AI에서 문제 해결은 사례에 관련된 대량의 데이터에 대한 액세스와 분석하고 처리하는 데 달려 있다.

일반적으로 진단에서 인간은 많은 임상 사례에 대한 경험을 거쳐야 한다. 그러나 광범위한 경험 외에도 전문 지식을 개발하려면 상황과 그 맥락에서 질병이 제시되는 방식에 대한 이해 또한 필요하다. 이는 일반화 프로세스를 통해 새로운 사례를 해결하는 데 매우 중요하다.

즉, 임상의 결정에 대한 즉각적이고 적절한 피드백은 지식을 통합하고 향후 임상 추론을 가능하게 하는 것이다.

대부분의 의사들은 주로 진단을 위해 가설-연역(hypothetico-deductive)적 접근 방식을 사용해 초기 진단 가설을 생성 한 후, 그들은 더 많은 데이터를 수집하여 이를 테스트하고 확인하는 과정을 진단 대부분의 시간을 보낸다.

이 접근법은 이중 프로세스 이론에 따라 직관적이거나 분석적일 수 있는 무엇을 알아차리고 함축적인 사고로 깨닫게 되는 지적인 과정으로 지각, 사고, 추리, 기억의 모든 측면이 관계되는 인지 프로세스에 의해 뒷받침된다. 여기에 패턴 인식이라고도 하는 직감은 자동 및 잠재의식적으로 작동하는 프로세스이다.

이처럼 인간은 다수의 정보를 가져 와서 이를 연관시키고 결과를 임상 기억에 저장된 패턴과 비교함으로써 진단 가설을 조기에 생성할 수 있는 것이다. 이러한 패턴은 학술 및 임상 학습 경험 등 비슷한 상황에 반복 대결을 통해 정리된다.

사진은 발열과 기침으로 응급실을 방문한 환자의 흉부 X선 영상 (좌측)이다. 우측 하부 폐의 폐렴 병변 (화살표)을 응급의학과 당직의사는 인지하지 못하였으나, 서울대 인공지능 시스템은 병변의 존재와 위치를 정확하게 식별(우측)했다.(사진:서울대병원)
사진은 발열과 기침으로 응급실을 방문한 환자의 흉부 X선 영상 (좌측)이다. 우측 하부 폐의 폐렴 병변 (화살표)을 응급의학과 당직의사는 인지하지 못하였으나, 서울대 인공지능 시스템은 병변의 존재와 위치를 정확하게 식별(우측)했다.(사진:서울대병원)

또한 직관(Intuition)은 인간이 이용 가능한 데이터를 고려할 때 고려할 수 있는 모든 솔루션 중에서 몇 가지 솔루션만 고려할 수 있다. 정보를 처리할 수 있는 인간 두뇌의 제한된 능력을 고려할 때 이 접근법은 필수적이다.

대부분의 연구자들은 직관적인 프로세스가 인간에 대한 진단 가설을 생성하는 주요 원천이라고 동의한다.

그러나 머신러닝은 데이터 세트에서 중요한 기능을 학습하여 알 수 없는 다른 데이터에 대해 예측하는 알고리즘의 개발에 달려 있다. 아울러 학습이 이루어지려면 사용된 데이터에 솔루션과의 연관성에 따라 레이블을 지정해야 한다.

예를 들어, 환자의 생리학적 데이터는 환자가 아프거나 건강한지 여부를 나타내는 레이블과 연관되어야 한다. 사실은 인간 전문가(의사)가 직접(예: 이미지 주석) 또는 문서(예: 임상 보고서)를 통해 제공한다.

따라서 수천 개의 작은 정보 조각(상식)을 알고 있는 인간과 달리 AI는 특정 작업에 제공되는 특정 정보로 제한한다. 또한 모든 새로운 작업에 대해 AI 시스템은 일반적으로 처음부터 시작해야 한다.

인공지능 시스템에서는 모델(학습 지식을 나타냄), 의사 결정 기능(새로운 입력이 있을 때 문제에 대한 답변을 가능하게 함) 및 평가 지표(AI가 제공한 답변의 품질을 평가하기 위해)로 구성된다.

특히 AI에서는 획득한 지식을 다른 방식으로 저장할 수 있다. 일반적으로 심층신경망은 모델을 형성하는 상호 연결된 인공 뉴런(Artificial Neuron, 인공신경) 층으로 구성된다. 네트워크의 아키텍처와 각 연결과 관련된 가중치는 결정할 수 있는 기능을 나타낸다. 또 입력(예: 조직 병리학적 이미지)에서 추론해 결과(예를 들어, 암 또는 암이 아닌)로서 예측을 제공한다.

학습을 위해 알고리즘은 평가 메트릭 함수를 계산하여 솔루션을 자동으로 최적화한다.

MIT-하버드 연구팀이 개발한 웨어러블 신경 이미징 장치에서 인공지능으로 뇌 신호를 통해 환자의 통증 수준을 감지한다. 이는 환자의 통증을 정량화하는 것으로 의사가 무의식 및 의사표현이 어려운 환자의 통증을 진단하고 치료하는 데 도움을 줄 수 있다.(사진:본지2019.09.13 기사 중에서)
MIT-하버드 연구팀이 개발한 웨어러블 신경 이미징 장치에서 인공지능으로 뇌 신호를 통해 환자의 통증 수준을 감지한다. 이는 환자의 통증을 정량화하는 것으로 의사가 무의식 및 의사표현이 어려운 환자의 통증을 진단하고 치료하는 데 도움을 줄 수 있다.(사진:본지 2019.09.13 기사 중에서)

이는 기본적으로 알고리즘에서 제안한 결과와 기본 정보의 차이로 심층신경망에서 평가 메트릭에 의해 계산된 오류는 네트워크 계층을 통해 역 전파되며, 알고리즘은 뉴런 간의 연결 가중치를 수정한다. 알고리즘이 학습 세트에 대한 정확한 출력을 제안할 때까지 프로세스가 반복되는 것이다.

AI에 의한 문제 해결은 인간이 사용하는 가상의 추론법과 다르다. 직관적인 추론은 알고리즘의 핵심인 상황에 대한 의식적인 순차 분석(Sequence Analysis)을 우회하는 경험을 기반으로 하기 때문에 모델링하거나 시뮬레이션 하기가 어렵다.

따라서 AI는 유도 모드에서 분석 방식을 사용한다(즉, 데이터에서 솔루션으로 체계적으로 이동). 그러나 인간은 인과 관계를 이해할 수 있지만, 아직 AI에서는 모델링되지 않는다. 이 과제는 AI에서 오랫동안 연구되어 왔지만 최근에는 인간처럼 생각하는 AI를 정의하려는 시도가 제안되기도 한다.

그럼 데이터에서는?

의사는 직관을 통해 진단 가설을 생성하기 위해 많은 데이터가 거의 필요하지 않는다. 즉, 2-4 개의 상황 또는 임상 정보, 그리고 생성된 가설을 검증하기 위해 상기 가정에 의해 부가 데이터를 얻기 위한 환자와의 면접과 임상 시험과 추가 시험을 통해 수집된다. 인간 지능은 환자 인터뷰 중에 수집된 데이터를 의미적 변환을 통해 처리 할 수 있는 것으로 변환한다.

금년초 서울아산병원 김남국 교수팀이 개발한 의료영상 무제한 생성 기술(펄린 노이즈 의료 데이터 증대 기법)로 적은 수의 의료 영상만으로 펄린 노이즈를 활용해 의료영상 데이터를 무한대로 만들어낼 수 있다. 사진은 피사체의 2D HRCT 이미지에서 DILD 패턴의 각 클래스의 예) (a) 정상, (b) 지면 유리 불투명도, (c) 통합, (d) 망막 불투명도, (e) 폐기종 및 (f) 벌집 모양의 패턴을 보여주는 2D HRCT 폐 실질 조직 이미지(사진:본지DB)
금년초 서울아산병원 김남국 교수팀이 개발한 의료영상 무제한 생성 기술(펄린 노이즈 의료 데이터 증대 기법)로 적은 수의 의료 영상만으로 펄린 노이즈를 활용해 의료영상 데이터를 무한대로 만들어낼 수 있다. 사진은 피사체의 2D HRCT 이미지에서 DILD 패턴의 각 클래스의 예) (a) 정상, (b) 지면 유리 불투명도, (c) 통합, (d) 망막 불투명도, (e) 폐기종 및 (f) 벌집 모양의 패턴을 보여주는 2D HRCT 폐 실질 조직 이미지(사진:본지DB)

대부분의 AI 시스템은 직관을 모델링하지 않으므로 관련 진단을 내리기 위해 많은 데이터가 필요하다. 현재 문제를 가지고 방대한 데이터에 즉시 접근해 해결 될 경우의 상황에서 가장 효과적인 이유이다.

AI에서 데이터 변환도 중요하지만 훨씬 복잡하고 시간이 많이 걸리는 프로세스로 데이터 통합 ​​또는 데이터 전처리를 통해 데이터를 계산 가능하도록 변환해야 한다. 즉, 모든 정보를 기계화하여 디지털화하고 분류해야 한다. 이것은 AI의 큰 과제 중 하나로 작용하고 있다.

인간과 AI는 어떻게 잘못 진단하나?

응급의학회지(Acad Emerg Med)에 따르면 의료 실습에서 진단 오류의 비율은 전문 분야에 따라 약 5 % – 15 %로 추정된다. 이것은 미국에서만 매년 1200 만 건 이상의 오진으로 해석된다. 인지(認知) 편견은 대부분의 진단 오류의 원인으로 이어진다.

대부분의 경우 AI 모델에서 제공한 결과를 예상 결과(진실로 간주)와 비교하여 AI의 오류율을 정확하게 계산할 수 있다. 주로 학습 단계, 일반적으로 빈약한 훈련 데이터 품질 또는 메트릭과 무관한 평가시 발생하는 문제의 결과로 AI의 오류는 인간의 오류에 비교될 수 없다.

또한 데이터의 전체 다양성과 데이터 간의 실제 연관성을 표현하고 잘못 분류된 예를 포함하지 않으며 AI가 잘못된 가정(假定)을 배우도록 유도할 수 있는 어떠한 편견도 제시하지 않는 데이터 세트를 갖는 것이 필수적이다.

아울러 다른 오류, 부정확성 또는 불확실성의 다른 원인에는 부적절한 모델(예: 학습할 지식을 표현할 수 없음) 또는 열악한 실험 설계(예: 학습을 너무 일찍 중지)가 포함될 수 있다.

그럼 의료 진단에서 AI의 비판은 무엇일까?

의료 인공지능 분야에서 수행된 많은 연구는 과학적 강직 부족, 불만족스러운 평가 절차 또는 방법에 보고된 정보가 충분하지 않다는 비판을 받기도 한다.

AI 시스템을 신뢰하기 위한 4 가지 필수 특성은 '공정성(특정 환자 그룹의 불공정한 치료를 피하기 위해 훈련 데이터 및 모델에는 편견이 없어야 함)', '견고성(AI 시스템은 안전하고 사용자가 이해할 수 있어야 함)', '투명성(AI 시스템에는 개발, 배포 및 유지 관리에 대한 세부 정보가 포함되어야 함)'. 그리고 '설명 가능성'은 아마도 해결하기 가장 어려운 문제일 것으로 보인다.

의사의 추론과 의사 결정의 기원을 설명하는 것은 가능하지만 AI는 대규모 데이터 세트에 대한 소급 분석 형식을 취합한다. 이에 사용자가 AI 결정을 설명하고 이해할 수 있게 하려고 연구하고 있으며, 이 목표에 도달하기 위해 강력한 AI 구현 방법 등을 제시하고 있다.

패혈증(septicemia)은 가장 흔한 응급실을 찾는 원인 중 하나이며, 또한 중환자실(ICU)에서 가장 흔한 사망 원인 중 하나이다. 패혈증을 일으키는 세균은 보통 그람 음성균으로, 면역 반응을 일으키고 혈액을 엉기게 하는 독성 물질을 만들어낸다. 응급 처치로는 의사가 노르 에피네프린(norepinephrine)과 도파민(dopamine)과 같은 혈압 강하제를 투여하지만 사실, 초기 혈압 강하제 투여는 패혈성 쇼크의 사망률 증가와 관련이 있다고 한다. 이는 너무 일찍, 또는 필요하지 않은 경우, 심장 부정맥 및 세포 손상과 같은 부정적인 결과를 유발할 수 있다. 그러나 이러한 변화를 언제 만들어야 하는지 명확한 답은 없다고 한다. 의사는 환자의 혈압 및 기타 증상을 면밀히 관찰하고 판단을 해야 하는 어려움이 따른다. 이에 새로운 머신러닝 모델은 위급한 패혈증 응급 환자가 언제 특정약물투여 여부를 예측한다.(사진:본지DB)
패혈증(septicemia)은 가장 흔한 응급실을 찾는 원인 중 하나이며, 또한 중환자실(ICU)에서 가장 흔한 사망 원인 중 하나이다. 패혈증을 일으키는 세균은 보통 그람 음성균으로, 면역 반응을 일으키고 혈액을 엉기게 하는 독성 물질을 만들어낸다. 응급 처치로는 노르에피네프린(norepinephrine)과 도파민(dopamine)과 같은 혈압 강하제를 투여하지만 사실, 초기 혈압 강하제 투여는 패혈성 쇼크의 사망률 증가와 관련이 있다고 한다. 이는 너무 일찍, 또는 필요하지 않은 경우, 심장 부정맥 및 세포 손상과 같은 부정적인 결과를 유발할 수 있다. 그러나 이러한 변화를 언제 만들어야 하는지 명확한 답은 없다고 한다. 의사는 환자의 혈압 및 기타 증상을 면밀히 관찰하고 판단을 해야 하는 어려움이 따른다. 이에 새로운 머신러닝 모델은 위급한 패혈증 응급 환자가 언제 특정약물투여 여부를 예측한다.(사진:본지DB)

향후 방향...

최근 몇몇 연구는 AI가 의학에서 진단을 내리고 지원하는 데 사용될 수 있는 정도를 보여주고 있다. 현재는 소수의 진단 작업에 대해서만 AI의 효과를 지원하고 인간 전문가는 다양한 조건을 배우고 진단할 수 있기 때문에 인간 지능은 현재로서는 AI 진단에 필수적인 것으로 보인다.

그러나 학습에 제공되는 데이터의 품질을 개선하여 오류를 해결할 수 있는 상황과 상관없이 유사한 데이터에 노출될 때 AI가 진단을 수행하도록 훈련 할 수 있는 일관성은 AI 진단 알고리즘 개발이 지속될 것으로 보인다.

때로는 의사의 진단 추론이 과중한 스트레스와 피로, 수면 부족, 인지 과부하, 소음이나 심리 정서적 상태 등의 요인에 민감한 것으로 나타났다.

이에 인공지능은 인적 오류를 줄이고 의료 실무의 질을 향상시키는 유용한 도구가 되고 있으며 앞으로도 계속 개발될 것이다. 또 AI가 스스로 학습하고 의사를 대체할 것이라는 부정적 요소 보다는 인간과 인공지능은 서로 다르고 보완적이기 때문에 인공지능이 임상 문제의 해결에서 의사를 완전히 대체하지는 않을 것으로 보인다.

결론적으로 인공지능은 의사의 진단과 추론에 도움이 되고, 진단 불확실성을 줄이고, 의사(意思) 결정을 강화하기 위해 의사들이 이용할 수 있는 도구 중 하나인 것이다.

의사가 중심적이고 필수적인 역할을 수행할 AI 개발에서 이해 관계자가 직면한 과제와 윤리적 고려 사항을 신중하게 존중하면서 AI 학습을 위한 사용할 수 있는 의료 데이터의 품질과 접근성을 개선하는 것으로 AI는 의료 행위의 일상적인 하나의 도구로 그 뛰어난 능력을 발휘할 것이다.

한편, 의료 영상, 임상 기록 및 센서, 운영 및 재무 관련 업무 등 일반적으로 병원에서는 연간 50페타바이트(PB)에 이르는 데이터가 생성된다고 한다. 그러나 이 중 활용 가능하고 분류 및 분석이 이루어지는 데이터의 비중은 불과 3퍼센트 미만인 것으로 알려져 있다.

최근, 보다 정교하고 유연한 신경망이 구현되고 다양한 AI 의료 플랫폼이 등장하면서 이러한 데이터의 활용 비중을 높임으로써 실시간 환자 상태 평가부터, 현장 진단(point-of-care) 의료처치, 임상적 의사결정을 위한 예측분석에 이르기까지 의료분야에서의 인공지능은 다양한 분야로 생각보다 더 빨리 우리에게 다가올 곳으로 예상된다.

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.