2개의 트랙에 참가해 엔비디아, 취리히연방공대(ETH) 등 글로벌 선도 기업 및 유수대학들을 제치고..

왼쪽부터 성무진 박사과정, 윤원진 박사과정, 김현재 박사과정. 뒷줄 1인은 고려대 컴퓨터학과 강재우 교수.
왼쪽부터 성무진 박사과정, 윤원진 박사과정, 김현재 박사과정. 뒷줄 1인은 고려대 컴퓨터학과 강재우 교수.

고려대학교(총장 정진택) 컴퓨터학과 강재우 교수 연구팀(이하, 고려대팀)이 의생명 분야 인공지능(AI) 국제 경진대회인 ‘BioCreative VII’에서 2개의 트랙에 참가해  엔비디아, 취리히연방공대(ETH) 등 세계적인 선도 기업 및 유수대학들을 제치고 각각 1등과 3등에 오르는 쾌거를 달성했다.

해당 연구 성과는 현지시간 지난 8일부터 10일까지 온라인으로 개최된 ‘BioCreative VII’ 워크숍에서 발표됐다.

2004년 시작된 ‘BioCreative VII’ 대회는 BioASQ 등과 함께 의생명 텍스트처리 인공지능 경진대회 중 가장 명망 있는 대회로 꼽히며, 올해 대회에서는 총 5개의 트랙을 공개했다.

트랙 1의 관계추출 문제는 의생물학 논문 내에서 약물과 체내 단백질 간의 상호작용을 찾아 추출하는 문제로, 관계 추출 모델은 추후 신약개발 과정에서 특정약물이 체내에서 어떤 원리로 작용을 하는지 밝혀내는 연구나, 새로운 약물이 될 수 있는 화합물을 찾는 데에 활용할 수 있다.

사진은  글로벌팀을 이루어 참가한 아스트라제네카의 리차드 잭슨 박사(사진:고려대)
사진은 글로벌팀을 이루어 참가한 아스트라제네카의 리차드 잭슨 박사(사진:고려대)

윤원진 박사과정생이 주도한 고려대팀은 트랙 1에서 글로벌 제약회사 ‘아스트라제네카 (AstraZeneca)’社와 강재우 교수 실험실 벤처 아이젠사이언스(AIGEN Sciences)와 팀을 이루어 참가했다.

고려대팀은 인공지능으로 학습데이터를 만들어 기존 학습 데이터를 보강하는 방법론(weakly labeled data augmentation)을 사용하여 미국 텍사스대학(University of Texas), 스위스 취리히연방공과대학(ETH Zurich), 중국 푸단대학(Fudan University) 등 세계적 선도 대학들과 엔비디아(NVIDIA), 프랑스 INRAE 등 글로벌 기업과 국책연구기관 등을 제치고 3위의 성적을 거두었다.

트랙 1이 문서 내에서 이미 주어진 약물과 단백질 개체 간의 상호작용을 추론하는 태스크였다면 트랙 2는 문서에서 이러한 약물을 포함한 화합물 개체들을 찾는 것을 목적으로 하는 문제이다. 

참가자들은 의생명 문헌에서 약물 혹은 화합물에 해당하는 개체명들을 사람의 개입 없이 인공지능을 이용해 자동으로 추출해야 한다.

김현재 박사과정생이 주도한 고려대팀은 인공신경망(ANN) 기반 인공지능 시스템의 고질적인 문제인 새로운 데이터에서의 일반화 능력 부족에 집중했다. 

인공신경망 모델은 학습한 개체명은 잘 기억하고 예측하는 반면, 학습하지 못한 새로운 개체명에 대해서는 예측 능력이 매우 떨어진다. 이를 해결하기 위해, 연구팀은 지식 베이스를 이용한 데이터 자동 생성 기법과 전이 학습 (Transfer learning)을 통하여 모델을 학습시켰다.

이를 통해 해당 트랙의 NER 부문에서도 NVIDIA 등 글로벌 기업과 대학들을 제치고 1위를 기록한 것이다.

한편, 연구팀은 지난 3년간 구글(Google)社가 후원하는 AI 의생명 질의응답 대회인 BioASQ챌린지에 꾸준히 참여하여 3년 연속 우수한 성적을 거둔 바 있다. 2019년에는 구글을 제치고 우승했고, 작년에는 미국 캘리포니아대학 샌디에고(UCSD), 매사추세츠대학(UMass) 등을 제치고 우승한 바 있다. 

올해도 BioASQ, BioCreative 등의 대회 석권을 통해 의생명 자연어 처리 연구에서 세계 선두 자리를 지키고 있다.

 

 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지