생성 AI로 약물 발견을 가속화한다.
생성 AI로 약물 발견을 가속화한다.

엔비디아가 2023 GTC에서 새로운 확장된 생성 AI 클라우드 서비스 세트(Set of Generative AI Cloud Services)를 발표했다. 이 서비스 세트는 단백질 및 치료제의 개발, 유전체학, 화학, 생물학, 분자 역학 분야의 연구 가속화를 위해 AI 기초 모델을 맞춤화한다.

이 서비스 세트는 AI 모델 훈련 및 추론을 위한 새로운 '바이오네모 클라우드(BioNeMo Cloud)' 서비스는 엔비디아 'AI 파운데이션(NVIDIA AI Foundations)'의 일부로, 신약 개발에서 가장 시간과 비용이 많이 드는 단계들을 가속화한다.

이를 통해 자체 보유 데이터로 생성 AI 애플리케이션을 미세 조정할 수 있으며, 웹 브라우저에서 직접 또는 기존 애플리케이션에 쉽게 통합되는 새로운 클라우드 애플리케이션 프로그래밍 인터페이스(API)를 통해서 AI 모델 추론을 실행할 수 있다.

엔비디아의 킴벌리 파웰(Kimberly Powell) 헬스케어 부문 부사장은 “생성 AI의 혁신적인 힘은 생명과학 및 제약 산업에 엄청난 가능성을 가져온다"며, "엔비디아와 이 분야 선도기업들과의 오랜 협력은 바이오네모 클라우드 서비스의 개발로 이어졌으며, 이 서비스는 이미 AI 신약 개발의 실험실로 활용되고 있다"고 말했다.

이어 "바이오네모는 사전 훈련된 모델을 제공하고 신약 개발 파이프라인의 모든 단계에서 자체 데이터로 모델을 맞춤화할 수 있도록 한다"며, "이를 통해 연구원들이 올바른 표적을 식별하고 분자와 단백질을 설계하며 신체에서의 상호 작용을 예측하여 최고의 신약 후보물질을 개발할 수 있도록 돕는다”고 덧붙였다.

암젠의 자체 데이터로 분자 생물학을 위한 대규모 언어 모델 이미지
암젠의 자체 데이터로 분자 생물학을 위한 대규모 언어 모델 이미지

이미, 고객이 된 세계 최고의 생명공학기업 중 하나인 암젠(Amgen)은 이미 바이오네모 서비스를 사용해 연구 개발을 발전시키고 있다.

암젠 디지털 혁신 연구 가속화 센터의 피터 그랜드서드(Peter Grandsard) 생물 치료학 개발 연구 부문 총괄은 "바이오네모는 생물제제 개발에 대한 우리의 접근방식을 극적으로 가속화하고 있다. 이를 통해, 우리는 암젠의 자체 데이터로 분자 생물학을 위한 대규모 언어 모델을 사전 훈련할 수 있으며, 환자를 위한 차세대 약물에 사용될 치료 단백질을 탐색하고 개발할 수 있다”고 말했다.

특히, 바이오네모 클라우드 서비스에는 신약 개발을 위한 AI 파이프라인을 구축하는 데 도움이 되는 사전 훈련된 AI 모델이 포함되어 있다. 에보자인(Evozyne), 인실리코 메디슨(Insilico Medicine) 등의 신약 개발사가 새로운 치료제 후보물질에 대한 데이터 기반 약물 설계를 지원하기 위해 이 서비스를 도입했다.

생성 AI 모델은 잠재적인 약물 분자를 신속하게 식별할 수 있으며, 경우에 따라서는 화합물 또는 단백질 기반 치료제를 처음부터 설계할 수 있다. 또한 소분자, 단백질, DNA 및 RNA 서열의 대규모 데이터 세트에 대해 훈련되어 단백질의 3D 구조와 분자가 표적 단백질과 얼마나 잘 결합할지 예측할 수 있다.

바이오네모는 이전에 발표된 메가몰BART(MegaMolBART-다운) 생성 화학 모델, ESM1nv(다운) 단백질 언어 모델, 오픈폴드(OpenFold-다운) 단백질 구조 예측 모델에 더해 6개의 최적화된 신규 오픈소스 모델(아래 참조)을 제공한다.

▷알파폴드2(AlphaFold2-다운): 아미노산 서열을 사용해 단백질 구조 결정 시간을 몇 년에서 몇 분, 심지어 몇 초 단위로 단축하는 딥 러닝 모델로, 딥마인드(DeepMind)에서 개발했으며 수백만 연구자들이 이미 사용하고 있다.

▷디피독(DiffDock-다운): 약물 분자가 표적 단백질과 결합하는 방법을 이해하는 데 도움을 주는 모델이다. 분자의 3D 방향과 도킹 상호 작용을 높은 정확도와 계산 효율성으로 예측한다.

▷ESM폴드(ESMFold-다운): 메타 AI(Meta AI)의 ESM2 단백질 언어 모델을 활용한 단백질 구조 예측 모델로, 여러 개의 유사한 서열 예제 없이도 단일 아미노산 서열을 기반으로 단백질의 3D 구조를 예측할 수 있다. ▷ESM2(다운): 이 단백질 언어 모델은 단백질 구조 예측, 속성 예측, 분자 도킹과 같은 다운스트림 작업에 유용한 단백질의 기계 표현을 추론하는 데 사용된다.

▷모플로우(MoFlow-다운): 분자 최적화와 소분자 생성에 사용되는 생성형 화학 모델이다. 분자를 처음부터 생성하여 잠재적인 치료제를 위한 다양한 화학 구조를 제시한다. ▷단백질 설계를 위한 심층 비지도 언어 모델 ProtGPT-2(다운): 이 언어 모델은 새로운 단백질 서열을 생성해 고유한 구조, 특성, 기능을 가진 단백질을 설계하는 데 도움을 준다.

특히, 제약회사와 신약개발 스타트업들이 바이오네모를 사용하고 있으며 대부분 상당한 성과를 거두고 있다.

암젠은 항체에 대한 자체 보유 데이터를 사용해 바이오네모의 ESM 모델 아키텍처를 사전 훈련하고 미세 조정했다. 그 결과 DGX 클라우드에서 분자 스크리닝과 최적화를 위한 5개의 맞춤형 모델을 훈련하는 데 걸리는 시간을 3개월에서 단 몇 주로 단축할 수 있었다.

미국 시카고에 위치한 생명공학기업이자 최첨단 스타트업을 위한 엔비디아 인셉션(Inception) 프로그램의 회원인 에보자인의 연구원들은 엔비디아와 협력하여 ProT-VAE(Protein Transformer Variational AutoEncoder)라는 바이오네모 기반 딥 러닝 모델을 개발했다. 에보자인의 자체 단백질 데이터를 기반으로 미세 조정된 생성형 AI 모델은 자연에서 발견되는 효소에 비해 성능이 크게 향상된 합성 변이체의 설계를 가능하게 한다.

엔비디아 인셉션의 프리미어 멤버인 인실리코 메디슨은 바이오네모를 사용해 보통 4년 이상의 기간과 약 5억 달러의 비용이 소모되는 초기 신약 개발 프로세스를 가속화하고 있다. 인실리코는 처음부터 끝까지 생성형 AI를 사용하여 전임상 후보물질을 식별하는 시간을 3분의 1로, 비용은 10분의 1로 줄였다. 이 약은 곧 환자 대상 임상 2상 시험에 들어갈 예정이다.

바이오네모 서비스는 대화형 추론 및 단백질 구조 시각화를 위한 브라우저 기반 인터페이스를 통해 이러한 생성형 AI 모델에 쉽게 액세스할 수 있도록 한다.

바이오네모를 엔비디아 DGX 클라우드(DGX Cloud)의 슈퍼컴퓨팅 리소스와 결합함으로써, 엔비디아 베이스커맨드(Base Command) 플랫폼 및 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 제품군을 사용하는 완전 관리형 소프트웨어 서비스에서 모델을 맞춤화할 수 있다. 현재, 바이오네모에 대한 얼리 액세스를 신청할 수 있다.(아래는 BioNeMo 서비스 시연 영상)

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지