IPU 활용해 차등 개인정보보호(Differential Privacy) 기법으로 AI 훈련 속도 10배 개선

이미지:스텐퍼드의과대
이미지:스텐퍼드의과대

인공지능(AI)에서 연합학습(Federated Learning)은 개인 정보 등 민감한 임상 데이터를 서로 직접 공유할 필요가 없이 여러 번의 반복 학습 과정에서 공유 모델은 단일 조직이 자체적으로 보유한 것 보다 훨씬 광범위한 데이터를 얻게되는 것으로 더욱 매력적이다.

여기에, 스탠퍼드대학교 의과대학(Stanford University School of Medicine)이 인공지능(AI) 반도체 기업 그래프코어(Graphcore)의 IPU를 도입해 민감한 환자 데이터를 보호하는 차등 개인정보보호(Differential Privacy) 기법으로 AI 연합학습을 가속화하는데 성공했다.

AI는 신속한 조기 질병 진단부터, 개인 맞춤 의약품, 그리고 신약 개발에 이르는 다양한 영역에 걸쳐 활용되며 의료 발전에 상당한 역할을 하고 있다.

하지만, 의료업계에서 AI가 급성장하게 되면서, AI 모델 훈련에 사용되는 민감한 환자 데이터의 개인정보보호와 보안에 관한 우려가 제기되고 있다. 의료전문가는 물론 정부 차원에서도 관련 문제에 대한 활발한 논의를 이어가는 가운데, 더욱 철저한 데이터 프라이버시 보호를 위한 AI 기술 개선이 요구되고 있다.

최근 스탠퍼드 의과대학 연구진은 그래프코어 연구팀과 함께 민감한 데이터 보호를 위한 핵심 기술인 차등 개인정보보호에 관한 획기적인 연구 성과를 달성했다.

스탠퍼드 팀은 그래프코어 IPU를 활용하여 차등 개인정보보호 기법을 통해 AI 훈련 속도를 10배 이상 향상시켰다. 광범위하게 사용되기에는 연산적으로 너무 어렵다고 여겨졌던 차등 개인정보보호 기법을 실현 가능한, 실질적인 솔루션으로 구현해 낸 것이다.

데이터 보호는 의료 AI 분야의 오랜 과제이다. AI 학습에서 민감한 개인 데이터를 사용하는 데에는 여러 도전과제가 따르지만, 가장 중요한 두 가지는 데이터 주권 유지와 개인식별 방지로 볼 수 있다. 스탠퍼드 대 팀은 이번 연구를 통해 각 문제에 대한 기술적인 해답을 보다 실용적인 방향으로 이끌어냈다.

여러 의료기관이 보유한 전세계 다양한 모집단을 대표하는 데이터셋을 통해 대규모 환자 데이터로 훈련된 모델은 보다 견고하고 편향이 나타날 가능성이 낮아 궁극적으로 더 유용하다.

표준 머신러닝 접근법은 각 데이터를 중앙서버에 모아 일괄적으로 학습하는데, 환자 식별 정보를 제거해 데이터를 익명화 한다해도 해당 정보를 외부 연구기관이나 조직에 제공하는 자체가 큰 문제로 대두되고 있다.

실제로 환자 데이터가 해당 관할권에서만 보존되도록 규정하는 규제에 대한 요구도 점점 거세지고 있다.

탈중앙화된 익명의 환자 데이터로 AI 모델을 훈련할 수 있는 연합학습이 일부 해답이 될 수 있다. 연합학습에서는 각 데이터를 중앙서버로 전달하는 대신, 중앙서버의 AI 모델을 클라이언트로 보내 각각의 데이터로 모델을 훈련시키기 때문이다.

연합학습은 분명 가치 있는 기술이지만, 최근 연구들은 완전히 훈련된 모델에서 데이터를 추론하여 익명의 건강정보를 재식별해 이를 특정 개인과 다시 연결하거나 원본 데이터셋을 복원하는 것과 관련된 개인정보보호 취약성을 강조하고 있다.

이러한 이유로 연합학습의 사용 또한 차등 개인정보보호 기술 발전에 의존하고 있는 상황이다.

차등 개인정보보호는 누구도 훈련 데이터를 추론하거나 원본 데이터셋을 복원할 수 없는 방식으로 연합학습 모델을 훈련하여 민감한 데이터에 대한 보안을 한층 강화시킨다.

차등 개인정보 확률적 경사 하강법(DPSGD)은 개별 훈련 데이터 항목의 기울기를 왜곡하여 익명화된 환자 데이터에 노이즈를 추가한다. 이렇게 추가된 노이즈는 누군가가 모델 훈련에 사용된 개별 환자 데이터를 악의적으로 발굴하거나 원본 데이터셋을 복원할 확률을 줄인다.

민감한 개인정보가 아닌 훈련 데이터를 사용해 차등 개인정보보호 기법을 성공적으로 구현해 낸 스탠포드 팀은 그래프코어와 협력해 이러한 성과를 코로나19 흉부 CT 이미지에 적용하여 코로나바이러스에 관한 새로운 연구를 진행할 계획이다.

한편, 그래프코어와 스탠퍼드 팀의 이번 연구는 의료 및 금융서비스 같이 민감한 개인정보보호가 필수적인 분야에 중요한 방향성을 제시할 것으로 평가받고 있다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지