화학과 머신러닝의 교차점에서 작업하는 분자 엔지니어인 퍼거슨 박사는 “바이오네모는 모델 훈련을 지원하고 매우 저렴한 비용으로 모델 작업을 실행하는 데 필요한 모든 것을 제공했다. 단 몇 초 만에 수백만 개의 시퀀스를 생성할 수 있었다”고 전했다.

에보자인 생성 protein
에보자인 생성 protein

제약 업계가 치료용 단백질을 설계하는 데 사용할 수 있는 획기적인 생성 AI (Generative AI) 모델을 공개했다.

지난 9일부터 12일까지 미국 샌프란시스코에서 개최된 'JP모건 보건 의료컨퍼런스(JP Morgan Healthcare Conference)'에서 AI와 생물학을 융합해 생명공학과 지속 가능성 분야에서 혁신적인 솔루션을 개발하는 미국 스타트업 에보자인(Evozyne)과 엔비디아가 사전 훈련된 생성 AI 모델을 공개하고 이를 통해 의료, 청정에너지 분야에서 상당한 잠재력을 지닌 두 가지 단백질을 만들었다고 밝혔다.

이 모델은 제약 업계가 치료용 단백질을 설계하는 데 사용할 수 있는 획기적인 생성 AI모델로 이 새로운 접근법은 합성 단백질 설계의 수와 품질을 기하급수적으로 증가시켜 치료할 수 없는 질병에 대한 새로운 치료 표적을 설계할 수 있는 가능성을 열어주고 새로운 치료법의 개발 시간을 크게 단축할 수 있다.

첫 번째 단백질은 선천적 질병을 치료를 목표로 하며, 두 번째는 지구 온난화를 줄이기 위해 이산화탄소를 소비하도록 설계됐다.

에보자인의 공동 창립자이자 논문 공동 저자인 앤드루 퍼거슨(Andrew Ferguson)은 “첫 번째 라운드부터 인공지능 모델이 자연 발생 단백질만큼 우수한 합성 단백질을 생산했다는 것은 정말 고무적이었다. 이는 모델이 자연의 디자인 규칙을 올바르게 학습했다는 것을 의미한다”고 말했다.

에보자인 공동 창립자 앤드루 퍼거슨 박사
에보자인 공동 창립자 앤드루 퍼거슨 박사

혁신적 AI 모델

에보자인은 의료용 인공지능 모델 생성을 위한 소프트웨어 프레임워크이자 서비스 엔비디아 바이오네모(BioNeMo-보기)의 일부인 트랜스포머 모델의 엔비디아 프롯T5(ProtT5-보기) 구현을 활용했다.

특히, 화학과 머신러닝의 교차점에서 작업하는 분자 엔지니어인 퍼거슨은 “바이오네모는 모델 훈련을 지원하고 매우 저렴한 비용으로 모델 작업을 실행하는 데 필요한 모든 것을 제공했다. 단 몇 초 만에 수백만 개의 시퀀스를 생성할 수 있었다”고 전했다.

이 모델은 'ProT-VAE(Protein Transformer Variational AutoEncoder)'라는 에보자인 프로세스의 핵심이다. 바이오네모와 필터 역할을 하는 변형 자동 인코더를 결합한 워크플로우이다. 퍼거슨은 “단백질을 설계하기 위해 변형 자동 인코더와 결합된 대규모 언어 모델(LLM)을 사용하는 것은 불과 몇 년 전만 해도 누구도 생각하지 못했던 일이다”고 말했다.

자연의 방식을 학습하는 인공지능 모델

엔비디아의 트랜스포머 모델은 학생이 책을 읽듯이, 수백만 개의 단백질에서 아미노산 서열을 읽는다. 신경망이 텍스트를 이해하는 데 사용하는 것과 동일한 기술을 사용해, 트렌스포머 모델은 자연이 어떻게 강력한 생물학 구성 요소를 조립하는지에 대한 방법을 학습했다.

이후 이 모델은 에보자인이 다루고자 하는 기능에 적합한 새로운 단백질을 조립하는 방법을 예측했다. 퍼거슨은 “이 기술은 우리가 10년 전에는 상상만 했던 일을 실현할 수 있게 해준다”고 말했다.

가능성의 바다

머신러닝은 가능한 단백질 서열의 천문학적 수를 탐색한 다음 가장 유용한 서열을 효율적으로 식별할 수 있도록 돕는다.

유도진화(Directed Evolution)라고 불리는 전통적인 단백질 공학법은 느리고 복불복인 방식을 사용한다. 일반적으로 한 번에 몇 개의 아미노산만 순서대로 변경할 수 있다.

에보자인의 ProT-VAE 프로세스는 엔비디아 바이오네모의 강력한 트랜스포머 모델을 사용해 약물 발견과 지속가능 에너지를 위한 유용한 단백질을 생성한다. 대조적으로, 에보자인의 방식은 단일 라운드에서 단백질의 절반 이상의 아미노산을 변경할 수 있다. 이는 수백 개의 돌연변이를 만드는 것에 해당한다.

퍼거슨은 “우리는 새롭고 유용한 기능을 가진, 이전에 본 적 없는 단백질을 탐색할 수 있는 엄청난 도약을 하고 있다”고 말했다.

에보자인은 새로운 프로세스를 사용해 질병과 기후 변화에 대처하는 데 도움이 되는 다양한 단백질을 생성할 계획이다.

훈련 시간 단축, 모델 확장

퍼거슨은 “엔비디아는 이 작업에서 놀라운 파트너였다”고 말했다.

에보자인의 데이터 사이언티스트인 조슈아 몰러(Joshua Moller)는 “엔비디아는 훈련 속도를 높이기 위해 작업을 여러 GPU로 확장했다. 우리는 매분 마다 전체 데이터 세트를 검토할 수 있었다”고 말했다.

이에 따라 대규모 AI 모델을 훈련하는 시간이 몇 달에서 일주일로 단축됐다. 퍼거슨은 “엔비디아 덕분에 수십억 개의 훈련 가능한 파라미터가 있는 모델을 훈련할 수 있었다. 다른 방법으로는 불가능했을 것”이라고 말했다.

아울러 퍼거슨은 최근 확산 모델의 부상을 언급하며 “이 분야는 믿을 수 없을 정도로 빠르게 움직이고 있으며, 다음에 무엇이 올지 정말 기대된다”고 전했다.

한편, 엔비디아 BioNeMo는 대규모 생체분자 변환기 AI 모델을 슈퍼컴퓨팅 규모로 학습하고 배포하기 위해 엔비디아 네모 메가트론(NeMo Megatron)에 구축된 AI 기반 약물 발견 클라우드 서비스 및 프레임워크다.

 이 서비스에는 사전 훈련된 대규모 언어 모델(LLM)과 단백질, DNA, RNA 및 화학에 대한 공통 파일 형식에 대한 기본 지원이 포함되어 분자 구조용 SMILES 및 아미노산 및 뉴클레오티드 서열용 FASTA용 데이터 로더를 제공합니다. BioNeMo 프레임워크는 자체 인프라에서 실행하기 위해 다운로드할 수도 있습니다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지