연합학습은 개발자와 조직이 여러 위치에 분산된 훈련 데이터를 사용하여 심층신경망(DNN Deep Neural Networks)을 훈련시킬 수 있는 새로운 학습 패러다임이다. 이를 통해 의료전문가들은 임상 데이터를 직접 공유할 필요없이 공유 모델에 대해 협업할 수 있다.

새로운 AI학습 패러다임...'연합학습'은 의료에서 어떤 영향을 미치나?(사진:본지)
새로운 AI학습 패러다임...'연합학습'은 의료에서 어떤 영향을 미치나?(사진:본지)

인공지능(AI)을 학습하는 기존 방식과 달리, 사용자가 직접 사용하는 데이터를 처리하고 모델을 강화해, 이 모델을 한 곳에 모아 더 정교한 모델을 만들어 다시 배포하는 방식인 연합학습(federated learning, 통합학습)이 전 세계적으로 뜨거운 관심과 주목을 받고 있다.

글로벌 IT 기업들도 연구와 개발에 여념이 없다. 먼저 구글이 지난 8월에 발표한 연합학습은 일반적으로 모든 데이터를 서버로 모아, AI를 학습하는 방식과 달리, 사용자가 직접 사용하는 스마트폰에서 데이터를 처리하고 모델을 강화하고 이 모델을 한 곳에 모아 더 정교한 모델을 만들어 다시 배포하는 방식이다.

사진은 구글의 연합학습 개요로 스마트폰은 사용량에 따라 모델을 로컬로 개인화하고(A) 많은 사용자의 업데이트가 집계되어 (B)공유 모델에 대한 합의 변경(C)이 이루어진 후 절차가 반복된다(사진:구글 AI)
사진은 구글의 연합학습 개요로 스마트폰은 사용량에 따라 모델을 로컬로 개인화하고(A) 많은 사용자의 업데이트가 집계되어 (B)공유 모델에 대한 합의 변경(C)이 이루어진 후 절차가 반복된다(사진:구글 AI)

이는 상대적으로 적은 데이터로 최적화한 AI 모델을 개발할 수 있다. 방대한 데이터를 저장하는 스토리지나 이런 데이터를 처리하기 위한 고성능 프로세서를 사용자 개인 디바이스로 분산했으며, 필요 사항만을 공유해 최적화한 모델을 다시 배포하는 만큼 트래픽에 대한 부담도 적다. 또 개인정보 침해 가능성 역시 상대적으로 적어 제도적 장벽 역시 쉽게 넘을 수 있다.

또한 페이스북이 안드로이드와 iOS 환경에서 원활하게 머신러닝을 실행하고 배포할 수 있도록 하는 새로운 프레임워크 ‘파이토치 모바일’(PyTorch Mobile)을 지난 11일(현지시각) 공개했다. 이 새롭게 공개된 프레임워크는 연합학습(Federated Learning)을 지원해 개인정보 유출 우려를 줄이고 보다 개인에 맞춰 AI를 학습시킬 수 있는 것이 특징이다.

즉, 연합학습은 AI 알고리즘이 서로 다른 사이트에 위치한 방대한 범위의 데이터에서 경험을 얻을 수 있느 것으로 이 접근 방식을 통해 여러 조직에서 모델 개발에 대해 공동 작업할 수 있는 것이다.

특히 이 연합학습이 더 주목받는 곳은 의료기관이다. 일반적으로 건강관리 AI 알고리즘의 경우 경험은 크고 다양한 고품질 데이터 세트의 형태로 제공된다. 그러나 이러한 데이터 세트는 수집에 매우 어렵다고 한다. 예를 들어, 의료기관은 환자 인구 통계, 사용된 도구 또는 임상 전문화에 의해 편향될 수 있는 자체 데이터 소스에 의존해야 했으며, 다른 기관의 데이터를 모아서 필요한 모든 정보를 수집해야만 한다.

연합학습은 개발자와 조직이 여러 위치에 분산된 훈련 데이터를 사용하여 심층신경망(DNN Deep Neural Networks)을 훈련시킬 수 있는 새로운 학습 패러다임(사진:엔비디아홈페이지캡처)

보통 의료 시나리오에 배치된 AI 알고리즘은 궁극적으로 임상 등급의 정확도에 도달해야 한다. 이는 적용되는 응용 프로그램의 표준을 충족하거나 능가한다는 의미인 것이다. 또 의료 전문가와 동일한 등급을 충족하는 모델을 교육하려면 AI 알고리즘에 많은 사례가 제공되어야 한다. 그리고 이러한 예는 사용될 임상 환경을 충분히 나타내야 한다.

그리고 중요한 데이터의 양만이 아니다. 매우 다양해야 하며 성별, 연령, 인구 통계 및 환경 등 각 다른 환자의 샘플을 통합해야 하고 개별 의료 기관에는 수십만 개의 레코드와 이미지가 포함된 아카이브가 있을 수 있지만 이러한 데이터 소스는 일반적으로 사일로로 유지된다. 이는 건강 데이터이자 개인 정보이므로 필요한 환자의 동의와 윤리적 승인 없이는 사용할 수 없기 때문이다.

그러나 연합학습은 개인 정보 등 민감한 임상 데이터를 서로 직접 공유할 필요가 없이 여러 번의 반복 학습 과정에서 공유 모델은 단일 조직이 자체적으로 보유한 것 보다 훨씬 광범위한 데이터를 얻게되는 것으로 기관에서는 더욱 매력적인 것이다.

연합학습은 개발자와 조직이 여러 위치에 분산된 훈련 데이터를 사용하여 심층신경망(DNN Deep Neural Networks)을 훈련시킬 수 있는 새로운 학습 패러다임이다. 이를 통해 의료전문가들은 임상 데이터를 직접 공유할 필요없이 공유 모델에 대해 협업할 수 있다.

13일부터 17일까지 중국 선전에서 열리는 MICCAI 2019(Medical Image Computing and Computer-Assisted Intervention) 에서 엔비디아와 킹스 칼리지 런던(King's College London, University of London) 연구원들이 공동으로 데이터의 개인정보를 유지하면서 뇌종양 식별을 위한 환자 결과를 개선하면서 의료 이미지 분석을 위한 최초의 개인정보 연합학습 시스템을 14일 발표했다.

엔비디아와 킹스 칼리지 런던의 공동연구팀이 연합학습에 대한 중앙 집중식 서버 접근 방식 개요

이 논문의 공동 저자이자 킹스 칼리지 런던의 AI 부교수인 호르헤 카르도소(Jorge Cardoso) 박사와 엔비디아의 의료 및 생명 과학 글로벌 비즈니스 개발 책임자 압둘 하미드 할라비(Abdul Hamid Halabi)는 이 연구와 적용된 연합학습에 대해 연구 논문에서 “연합학습은 환자 데이터를 공유하지 않고도 신경망에 대한 협력적이고 분산된 훈련을 가능하게 하며, 각 노드는 자체 로컬 모델을 교육하고 주기적으로 이를 매개변수 서버에 제출한다,서버는 개별 기여를 축적하고 집계하여 모델을 생성한 다음 모든 노드와 공유한다”라고 밝혔다.

연합학습은 개인 정보 보호 측면에서 높은 보안을 제공할 수 있지만 모델 반전으로 데이터를 재구성하는 방법은 여전히 ​​남아 있다고 연구원들은 밝혔다. 또한 연합학습을 더욱 안전하게 만들기 위해서 연구원들은 'ε- 차별 개인 정보 보호 프레임워크(ε-differential privacy framework. 바로가기)'를 사용하는 가능성을 조사하여 환자 및 기관 데이터를 강력하게 보호했다. 아울러 환자의 프라이버시를 최우선으로 하기 위해 차등 프라이버시 및 기타 최신 프라이버시 보호 기술이 오우킨(Owkin) 아키텍처에 내장했다.

이 혁신을 위한 실험은 임상적으로 획득한 3T 멀티 모달 MRI 스캔을 통해 올해의 도전 과제에 사용된 'BraTS 2018' 데이터 세트(바로가기)의 뇌종양 분할 데이터에 대해 수행되었으며, BraTS 2018 데이터 세트에는 뇌종양이 있는 285 명의 환자에 대한 MRI 스캔이 포함되어 있다.

이 데이터 세트는 멀티 모달 및 멀티 클래스 세그먼트 화 태스크에서 연합학습 알고리즘을 평가하는 데 사용됐으며, 연구팀은 원래 데이터 중심 교육용으로 설계된 최신 교육 파이프 라인을 채택하고 이를 엔비디아 클라라 트레인 SDK(Clara Train SDK)의 일부로 구현했으며, 교육 및 추론을 위해 엔비디아 V100 텐서코어(Tensor Core) GPU를 사용했다.

결론적으로 연합학습을 현재의 데이터 중심 시스템과 비교할 때 제안된 접근 방식은 기관 데이터를 공유하지 않고도 비슷한 세그멘테이션(segmentation) 성능을 달성할 수 있었으며, 희소 벡터 기술(the sparse vector technique)을 사용하는 연합학습 시스템은 상당히 적은 비용으로 엄격한 개인 정보를 보호할 수 있으며, 개인 데이터를 통해 로컬로 학습된 의료기관 간에 효과적으로 데이터를 집계할 수 있어 심층 모델의 정확성, 견고성 및 일반화 능력을 더욱 향상시킬 수 있는 것이다.

또한 이번 연구는 안전한 연합학습 구축을 위한 중요한 단계로 보이며, 이는 광대한 데이터 중심의 정밀의학을 대규모로 가능하게 할 것으로 예상된다.

 

 

 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지