머신러닝의 불확실성을 활용하여 생물학적 발견 및 설계 가속화... 정밀의학에서 AI를 이용한 약물 화합물 스크리닝과 약물용도 변경 또는 재배치는 기존 약물이 COVID-19를 포함한 새로운 질병과 도전적인 질병을 치료하는 데 적극 사용되는

(이미지:MIT)
머신러닝으로 잠재적인 새로운 결핵 치료제 발견(이미지:MIT)

인공지능(AI)과 연결된 의학은 질병의 진단에서 치료법을 정의하고 최소한의 오류로 표적을 식별하기 위한 첨단 정보 과학 응용 프로그램을 제공한다. 여기에, 정밀의학에서 AI를 이용한 약물 화합물 스크리닝과 약물용도 변경 또는 재배치는 기존 약물이 COVID-19를 포함한 새로운 질병과 도전적인 질병을 치료하는 데 적극 사용되는 기술이다.

이처럼 새로운 병증에 유용한 약물발견은 프로세스와 전체 비용과 시간을 획기적으로 줄일 수 있기 때문에 국내외 많은 기업과 의료기관이 참여하고 있다.

MIT 연구팀이 머신러닝에 새로운 기능을 통합하여 예측 능력을 향상시킨 AI 알고리즘으로 결핵을 유발하는 박테리아의 생존에 필요한 단백질을 표적으로 삼는 몇 가지 유망한 화합물을 확인했다고 15일(현지시간) 발표했다. 이 알고리즘은 컴퓨터 모델이 분석중인 데이터의 불확실성을 설명할 수 있는 새로운 접근 방식을 사용했다.

MIT의 컴퓨터과학 및 인공지능연구소(CSAIL)의 컴퓨터 및 생물학 그룹 책임자인 보니 버거(Bonnie Berger)는 "이 방법은 이전에 컴퓨터 과학자들에 의해 사용되었지만 이번 연구를 통해 생물학에서도 이 방법은 단백질 디자인과 다른 많은 분야에서도 유용하다는 것을 증명할 수 있을 것"이라고 말했다.

머신러닝은 알고리즘은 데이터를 바탕으로 예측하는 것을 학습하는 컴퓨터 모델링의 일종이다. 최근 몇 년 동안, 생물학자들은 특정 표적과 상호작용하는 분자를 찾기 위해 잠재적인 약물 화합물의 거대한 데이터베이스를 뒤지는 머신러닝을 사용하기 시작했다. 그러나 이 방법의 한 가지 제한은 분석하는 데이터가 훈련된 데이터와 유사할 때 알고리즘이 잘 수행되지만, 매우 다른 분자를 평가하는 데는 그다지 능숙하지 않다는 것이다.

이를 극복하기 위해 연구팀은 가우시안 프로세스(Gaussian process) 기법을 사용하여 알고리즘이 훈련된 데이터에 불확실성 값을 할당했다. 그러한 방법으로 모델들이 훈련 데이터를 분석할 때, 예측들이 얼마나 신뢰할 수 있는지를 고려했다.

이번 연구 인포그래픽(사진:논문캡처)

예를 들어, 모델에 들어가는 데이터가 특정 분자가 표적 단백질에 얼마나 강하게 결합하는지 예측하고 그러한 예측의 불확실성을 예측한다면, 모델은 그 정보를 사용하여 이전에 보지 못했던 단백질 상호작용에 대한 예측을 할 수 있다. 이 모델은 또한 자체 예측의 확실성을 추정하고 새로운 데이터를 분석할 때 모델의 예측은 훈련 데이터와 매우 다른 분자에 대한 확실성이 낮을 수 있었으며 그 정보를 실험적으로 어떤 분자를 테스트할지를 결정하는 데 도움을 줄 수 있었다.

이 접근방식의 또 다른 장점은 알고리즘이 적은 양의 훈련 데이터만을 필요로 한다는 것이다. 이 연구에서, 연구팀은 72개의 작은 분자의 데이터 집합과 단백질 효소의 일종인 키나아제(kinases)라고 불리는 400개 이상의 단백질과의 상호작용을 가지고 모델을 훈련시켰다. 그리고 나서 그들은 이 알고리즘을 사용하여 거의 11,000개의 작은 분자를 분석할 수 있었는데, 이것은 수백만 개의 화학 화합물을 포함하고 있는 공개 이용 가능한 저장소인 ZINC 데이터베이스에서 가져온 것이다. 이러한 분자 중 많은 수가 훈련 데이터의 분자와는 매우 달랐다.

이 방법을 사용하여, 연구팀은 그들이 모델에 넣은 단백질 키나아제들에 대해 매우 강한 예측 결합 친화력을 가진 분자를 식별할 수 있었다. 여기에는 결핵의 원인균인 마이코박테리움(Mycobacterium)에서 발견된 키나아제 1개뿐 아니라 인간 키나아제 3개가 포함됐다. 이 키나아제인 PknB는 박테리아가 생존하는 데 매우 중요하지만 어떤 최전방 결핵 항생제의 표적이 되지는 않는다.

그리고 나서 연구원들은 그들의 최고 히트곡들 중 몇 가지를 실험적으로 테스트하여 그들이 실제로 목표물에 얼마나 잘 결합하는지를 확인했고, 이 모델의 예측이 매우 정확하다는 것을 확인했다. 또 모델이 가장 확실성을 부여한 분자 중에서 약 90%가 실제 히트인 것으로 판명되었는데, 이는 약물 검사에 사용되는 기존 머신러닝 모델의 30~40%의 히트율보다 훨씬 높은 것이다.

연구팀은 또 불확실성을 포함하지 않는 기존 머신러닝 알고리즘을 훈련하기 위해 같은 훈련 데이터를 사용한 뒤 같은 1만1천개의 분자 라이브러리를 분석하도록 했다. 또 연구팀은 가장 유망한 PknB 억제제 중 일부를 채취해 세균 배양 매체에서 자란 마이코박테리움에 대해 실험한 결과 세균성장을 억제한다는 사실을 밝혀냈다. 이 억제제는 또한 박테리아에 감염된 인간의 면역 세포에서도 작용했다.

한편, MIT 연구팀의 이 연구 결과는 15일(현지시간) 시스템 생물학에 대한 연구를 다루는 Cell Systems 온라인에 '머신러닝의 불확실성을 활용하여 생물학적 발견 및 설계 가속화(Leveraging Uncertainty in Machine Learning Accelerates Biological Discovery and Design- 다운)이란 제목으로 발표됐다.

관련기사

저작권자 © 인공지능신문 무단전재 및 재배포 금지