MIT 생물공학과 의학공학과 콜린스 교수, “인공지능 및 머신러닝 전문 지식 없이 생물학 분야 머신러닝 모델을 구축하는 것!”..

이미지:MIT
이미지:MIT

과학 및 엔지니어링 연구소에서 머신러닝 전문가를 채용하는 것은 시간과 비용, 둘 다 많이 드는 프로세스일 수 있다. 또, 머신러닝 전문가가 있어도 적절한 모델을 선택하고 모델에 맞는 데이터 세트를 포맷한 다음 미세 조정까지는 많은 작업과 비용이 소요된다.

"인공지능 머신러닝 전문 지식 없이 머신러닝 모델을 구축하는 것이 가능할까?"

이 문제에 MIT 생물공학과 의학공학과(Medical Engineering and Science in the Department of Biological Engineering) 교수이자 압둘 라티프 자밀 보건 머신러닝 클리닉(Abdul Latif Jameel Clinic for Machine Learning in Health. 이하, 자밀 클리닉)의 생명과학 짐 콜린스(Jim Collins) 교수는 여러 동료들과 함께, 생물학 연구를 위한 AI 모델을 생성할 수 있는 자동 머신러닝 플랫폼인 ‘BioAutoMATED’를 개발, 지난 6일(현지시간) 공개했다.

이 플랫폼 '바이오오토매티드'는 주어진 데이터 세트에 적합한 모델을 선택 및 구축할 수 있는 자동화된 머신러닝 시스템으로, 데이터 전처리부터 힘든 작업까지 몇 달이 걸리던 프로세스를 단 몇 시간으로 단축할 수 있다.

현재, 많은 오토 머신러닝(AutoML) 시스템이 있지만 비교적 초기 개발 단계에 있으며, 주로 이미지와 텍스트 인식에 집중적으로 사용되고 있지만 생물학 분야에서는 거의 사용되지 않는다.

플랫폼 로고 이미지
플랫폼 로고 이미지

생물학의 기본 언어는 염기서열을 기반으로 한다. DNA, RNA, 단백질, 글리칸과 같은 생물학적 서열은 알파벳처럼 본질적으로 표준화되어 있다는 놀라운 정보 속성을 가지고 있다. 

BioAutoMATED의 감독된 머신러닝 모델 레퍼토리에는 이진 분류 모델(데이터를 두 개의 클래스로 나누기), 다중 클래스 분류 모델(데이터를 여러 클래스로 나누기), 회귀 모델(연속적인 수치 값을 맞추거나 변수 간 주요 관계의 강도를 측정하기)의 세 가지 유형이 포함된다.

BioAutoMATED는 선택한 모델을 적절하게 훈련하는 데 필요한 데이터의 양을 결정하는 데에도 도움을 줄 수 있다. 더 작고 희박한 생물학적 데이터 세트와 더 복잡한 신경망에 더 적합한 모델을 탐색한다.

연구팀은 "생물학과 머신러닝의 교차점에서 새롭고 성공적인 실험을 수행하는 데는 많은 비용이 들 수 있습니다"라며, "현재 생물학 중심의 연구실이나 연구소는 아이디어가 효과를 발휘할 준비가 되었는지 확인하기 전에 상당한 디지털 인프라와 AI-ML 교육을 받은 인력에 투자해야 합니다"라고 말했다.

이어 "우리는 생물학 분야 연구자 및 전문가를 위해 이러한 장벽을 낮추고 싶습니다” 라며, "BioAutoMATED를 사용하면 연구원은 머신러닝 전문가 없이 초기 실험 이나 초기 모델을 구축하는 것을 자유롭게 실행할 수 있습니다"라고 덧붙였다.

한편, 실행이 보다 쉬운 생물학 연구를 위한 AI 모델을 생성할 수 있는 이 AutoML 플랫폼 'BioAutoMATED'는 오픈 소스(다운)로 공개적으로 사용 가능하며, 이 관련 논문 '바이오오토매티드: 생물학적 서열의 설명 및 설계를 위한 종단간 자동머신러닝 도구(BioAutoMATED: An end-to-end automated machine learning tool for explanation and design of biological sequences-다운)'는 지난달 21일 Cell Systems에 게재됐다.

 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지