KAIST-한국화학연구원 공동연구팀, 분자 내의 중요한 하부 구조를 탐지해 분자 관계를 예측, 화학, 생명과학을 포함한 다양한 분야에서 새로운 물질을 발견하는 데 드는 시간과 비용을 획기적으로 단축할 수 있을 것으로 기대

이미지:본지 보도 이미지 및 논문 갈무리
이미지:본지 보도 이미지 및 논문 갈무리

최근 화학, 생명과학 등 다양한 기초과학 분야의 문제를 해결하기 위해 인공지능(AI) 그래프 신경망 (Graph Neural Network) 기술이 널리 활용되고 있다.

그 중에서도 특히 두 물질의 상호작용에 의해 발생하는 물리적 성질을 예측하는 것은 다양한 화학, 소재 및 의학 분야에서 각광을 받고 있다. 예를 들어, 어떠한 약물 (Drug)이 용매 (Solvent)에 얼마나 잘 용해되는지 정확히 예측하고, 동시에 여러 가지 약물을 투여하는 다중약물요법 (Polypharmacy)의 부작용을 예측하는 것이 신약 개발 등에 매우 중요하다.

KAIST(총장 이광형)는 산업및시스템공학과 박찬영 교수 연구팀과 한국화학연구원(원장 이영국)이 공동연구를 통해 물질 내의 중요한 하부 구조(Substructure)를 탐지하여 두 물질의 상호작용에 의해 발생하는 물리적 성질 예측의 높은 정확도를 달성할 수 있는 새로운 그래프 신경망 기법을 개발했다.

물질의 상호작용에 의해 발생하는 물리적 성질 예측문제의 예시
물질의 상호작용에 의해 발생하는 물리적 성질 예측문제의 예시

기존 연구에서는 두 분자 쌍이 있을 때, 각 분자내에 존재하는 원자들 사이의 상호 작용만을 고려해 그래프 신경망 모델을 학습하였다. 예를 들어 특정 발색체의 물(H2O)에 대한 용해도를 예측하고자 할 때, 발색체 내의 각 원자들에 대해 물 분자의 원자들 (즉, H, O)이 갖는 영향력을 고려하는 것이다.

연구팀이 이에 반해, 연구팀이 착안한 점은 분자 구조의 화학적 특성을 결정하는 데 있어서 원자뿐만 아니라 작용기(Functional group)와 같은 분자내 하부 구조들이 중요한 역할을 한다는 점이었다.

예를 들어, 알코올이나 예를 들어, 알코올이나 포도당과 같이 하이드록실기 (Hydroxyl group)를 포함하는 분자들은 일반적으로 물에 대한 용해도가 높은 것으로 알려져 있다. 즉, 하이드록실기라는 작용기가 물에 대한 용해도를 결정하는데 중요한 역할을 한다는 것이다.

하이드록실기와 그것을 포함하는 분자구조 : 알코올이나 포도당과 같이 하이드록실기 (Hydroxyl group)를 포함하는 분자들은 일반적으로 물에 대한 용해도가 높은 것으로 알려져 있음.
하이드록실기와 그것을 포함하는 분자구조 : 알코올이나 포도당과 같이 하이드록실기 (Hydroxyl group)를 포함하는 분자들은 일반적으로 물에 대한 용해도가 높은 것으로 알려져 있음.

연구팀은 분자의 특성을 결정하는데 큰 영향을 끼치는 하부 구조를 추론하는 기술을 분자내의 중요한 정보를 최대한 압축하여 보존하는 ‘정보 병목 이론’과, 분자 내의 어떤 하부 구조가 분자의 고유한 특성을 결정 짓는데 큰 역할을 했는지 대한 인과 관계를 추론하는 ‘인과 추론 모형’을 활용하여 개발했다.

이를 통해 분자의 고유한 특성에 가장 큰 영향을 미치는 하부 구조를 찾아내었다. 또한 분자 간 관계를 추론하는 문제에서는 상대방 분자에 따라 대상 분자의 중요한 하부 구조가 달라질 수 있다는 점을 착안하여 물질 간 관계를 예측하는 모델을 제안했다.

C-CF3 구조와 그것을 포함하는 분자가 용매와 반응했을 때의 특성: 분자 간 관계 추론 시 상대방 분자에 따라 대상 분자의 중요한 하부 구조가 상이할 수 있음. 예를 들어 C-CF3 구조를 포함한 분자들은 일반적으로 물에 대한 용해도가 낮은 것으로 알려져 있지만, 기름에 대한 용해도에 대해서는 널리 알려진 바가 없음.
C-CF3 구조와 그것을 포함하는 분자가 용매와 반응했을 때의 특성: 분자 간 관계 추론 시 상대방 분자에 따라 대상 분자의 중요한 하부 구조가 상이할 수 있음. 예를 들어 C-CF3 구조를 포함한 분자들은 일반적으로 물에 대한 용해도가 낮은 것으로 알려져 있지만, 기름에 대한 용해도에 대해서는 널리 알려진 바가 없음.

이번 새로운 그래프 신경망 기법을 의학에 적용하여 정보 병목 현상을 기반으로 한 연구는 기존 연구에 비해 약물 용해도 예측에서 11%의 성능 향상, 다중약물요법 부작용 예측에서 4%의 정확도 향상을 이뤄냈다. 또한, 인과 추론 모형을 기반으로 한 연구는 약물 용해도 예측에서 17%의 성능 향상, 약물 부작용 예측에서 2%의 정확도 향상을 이뤄냈다.

박찬영 교수팀은 정보 병목 이론을 기반으로 중요한 하부 구조를 탐지해 분자 구조 관계의 높은 예측 정확도를 달성할 수 있는 그래프 신경망 모델을 개발해 23일부터 29일까지 미국 하와이컨벤션센터에서 개최되는 AI 머신러닝 분야 최고권위의 ‘국제머신러닝학회(International Conference on Machine Learning, ICML 2023)’에서 '분자 관계 학습을 위한 조건부 그래프 정보 병목 현상(Conditional Graph Information Bottleneck for Molecular Relational Learning-다운)'란 제목으로 발표될 예정이며, 관련 코드는 현재 깃허브(다운)를 통해 공개돼 있다.

또한, 인과 추론 모형을 기반으로 중요한 하부 구조를 탐지해 분포 변화에도 모델의 성능이 강건하게 유지되는 그래프 신경망 모델을 개발해 8월 6일부터 10일까지 미국 캘리포니아 롱비치 컨벤션센터에서 개최되는 2023 지식 검색 및 데이터 마이닝에 관한 ACM SIGKDD 국제 회의(KDD 2023)에서 '인과적 하위 구조로 견고한 분자 관계 학습 전환(Shift-Robust Molecular Relational Learning with Causal Substructure-다운)'란 제목으로 발표될 예정이며, 이 코드 역시 깃허브(다운)를 통해 공개돼 있다.

두 연구 모두 KAIST 산업및시스템공학과 대학원에 재학 중인 이남경 박사과정 학생이 제1 저자, 화학연구원의 나경석 연구원이 공동 저자, KAIST 산업및시스템공학과의 박찬영 교수가 교신저자로 참여했다.

(왼쪽부터) KAIST 산업및시스템공학과 박찬영 교수, KAIST 산업및시스템공학과 이남경 박사과정, 한국화학연구원 나경석 연구원.
(왼쪽부터) KAIST 산업및시스템공학과 박찬영 교수, KAIST 산업및시스템공학과 이남경 박사과정, 한국화학연구원 나경석 연구원.

두 연구의 제1 저자인 이남경 박사과정은 “제안한 기술은 분자의 성질을 결정하는 데 있어 큰 영향을 미치는 하부 구조가 존재한다는 화학적 지식에 기반해 그래프 신경망을 학습할 수 있는 새로운 방법”이라면서 “상대편 분자를 고려해 대상 분자의 중요한 구조를 찾는 방법론은 이미지-텍스트 멀티 모달 학습 방법에서도 적용될 수 있어, 심층 학습 전반적인 성능 개선에 기여할 수 있다”고 밝혔다.

연구팀을 지도한 박찬영 교수도 “제안한 기술은 화학적 지식에 기반하여 분자 간의 관계를 예측해 화학과 생명과학을 포함한 다양한 분야에서 기계학습이 새로운 물질을 발견하는데 드는 시간과 비용을 획기적으로 단축할 수 있는데 도움이 될 것”이라고 말했다.

연구팀을 지도한 박찬영 교수도 “제안한 기술은 화학과 생명과학을 포함한 다양한 분야에서 새로운 물질을 발견하는데 널리 사용될 것으로 기대하며, 특히 환경 친화적인 소재 개발, 질병 치료를 위한 신약 발굴 등에 있어서 본 기술의 가치가 더욱 부각될 것으로 보인다”라고 밝혔다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지