이 머신러닝 알고리즘은 데이터가 부족한 많은 분야에서 미해결 문제를 해결할 수 있다는 것을 시사하는 것으로 광범위한 AI 애플리케이션에 적용될 수 있다

생물학적 분자 3D 구조, 정확하게 예측하는 AI 개발(이미지:스탠퍼드대)
생물학적 분자 3D 구조, 정확하게 예측하는 AI 개발(이미지:스탠퍼드대)

스탠퍼드 대학교(Stanford University) 연구팀이 아주 적은 데이터만 사용할 수 있는 경우에도 약물 표적 및 기타 중요한 생물학적 분자의 3D 구조를 정확하게 예측하는 혁신적인 머신러닝 도구를 개발했다.

일반적으로 생물학적 분자의 3D 구조를 결정하는 것은 현대 생물학 및 의학적 발견에서 가장 어려운 문제 중 하나다. 기업과 연구 기관은 종종 분자 구조를 결정하기 위해 수억에서 수십억원 이상을 지출하고 엄청난 노력에도 불구하고 종종 실패한다.

여기에, 새로운 머신러닝 기술을 사용하여 3D 정확한 구조를 계산적으로 예측함으로써 이 문제를 극복하는 접근 방식을 개발했다. 이 연구에는 스탠퍼드 컴퓨터 과학부, 우차이 신경과학연구소(Wu Tsai Neurosciences Institute), 스탠퍼드 인공지능연구소(Stanford AI Laboratory)의 론 드로어(Ron Dror) 교수의 주도로 박사 과정 연구원인 스테판 아이즈만(Stephan Eismann)과 라파엘 타운센드(Raphael Townshend)가 함께했다.

가장 주목할 만한 것은, 그들의 접근 방식은 단지 몇 가지 알려진 구조에서 학습할 때에도 성공하여 구조가 실험적으로 결정하기 가장 어려운 분자의 유형에도 적용된다는 것이다.

분자의 모양을 연구하는 구조 생물학에는 그 구조가 기능을 결정한다. 연구팀이 설계한 이 알고리즘은 정확한 분자 구조를 예측하고 이를 통해 과학자들이 기초 생물학 연구에서 정보에 입각한 약물 설계 관행에 이르기까지 다양한 응용 분야에서 분자가 작동하는 방식을 규명하고 설명할 수 있다고 한다.

스테판 아이즈만은 “단백질은 모든 종류의 기능을 수행하는 분자 기계입니다. 기능을 실행하기 위해 단백질은 종종 다른 단백질에 결합한다”라며, "한 쌍의 단백질이 어떤 질병과 관련되어 있고 3D 구조에서 상호 작용하는 방식을 알고 있다면 약물과 함께, 이 상호 작용을 매우 구체적으로 표적으로 삼을 수 있다"라고 밝혔다.

아울러 연구팀은 어떤 것이 구조 예측을 더 정확하게 또는 덜 정확하게 하는지를 명시하는 대신, 알고리즘이 스스로 이러한 분자 특성을 발견하도록 했다. 이러한 지식을 제공하는 기존 기술이 특정 기능에 유리한 알고리즘을 흔들어 다른 정보 기능을 찾지 못하게 할 수 있다는 점도 발견했다.

라파엘 타운센드는 "이 AI 알고리즘은 분자 구조 형성의 핵심이지만 명시적으로 지시받지 않은 근본적인 개념을 찾는 법을 학습했다"라며, "흥미로운 점은 알고리즘이 연구팀이 중요하다고 알고 있던 것들을 명확히 복구해냈다는 점과 이전에 몰랐던 특징도 함께 구현했다는 것"이라고 말했다.

특히, 연구팀은 단백질로 성공을 보인 다음으로 중요한 생물학적 분자 RNA에 알고리즘을 적용했다. 그들은 해당 분야의 오랜 경쟁에서 나온 일련의 'RNA 퍼즐'에서 알고리즘을 테스트했으며, 모든 경우에서 이 알고리즘은 RNA 구조용으로 특별히 설계되지 않은 상태에서 다른 모든 퍼즐 참가자보다 성능이 뛰어났다고 한다.

연구팀은 단백질 복합체와 RNA 분자로 3D 구조 예측에 성공을 거두면서 이 알고리즘의 접근방식이 광범위한 애플리케이션에 혁신적으로 적용될 수 있다고 밝혔다.

이 연구를 주도한 론 드로어 교수는 “최근 인공지능 머신러닝의 급격한 발전은 대부분 학습을 위해 엄청난 양의 데이터를 필요로 했습니다. 이 방법이 거의 훈련 데이터를 받지 못한 상황에서 성공한다는 사실은 관련 방법이 데이터가 부족한 많은 분야에서 미해결 문제를 해결할 수 있다는 것을 시사하는 것입니다" 라고 강조했다.

한편, 이 연구 결과는 27일 글로벌 학술지 사이언스(Science)지에 'RNA 구조의 기하학적 딥러닝(Geometric deep learning of RNA structure-보기)' 및 지난해 12월 국제 학술지 프로틴(Proteins)에 '단백질 복합체의 구조 모델을 선택하기 위한 계층적 회전-등가 신경망(Hierarchical, rotation-equivariant neural networks to select structural models of protein complexes-보기)' 이란 제목으로 각각 게재됐다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지