고려대 팀은 박사과정 윤원진, 이진혁, 김동현, 정민별 등으로 ‘버트(BERT)’ 모델의 의생명 분야에서의 확장판으로 1800만 개의 의생명 논문을 학습하여 개발한 AI 모델 '바이오버트'(BioBERT)'를 이용하여 얻은 성과

왼쪽부터 윤원진 박사과정, 요르요스 팔루오라(Georgios Paliouras) BioASQ조직위원, 정민별 석사과정이 BioASQ 시상식에서 기념촬영을 하고 있다.
왼쪽부터 윤원진 박사과정, 요르요스 팔루오라(Georgios Paliouras) BioASQ조직위원, 정민별 석사과정이 BioASQ 시상식에서 기념촬영을 하고 있다.

국제 인공지능(AI) 모델 경진대회 'BioASQ'에서 국내 연구팀이 구글 팀 등을 누르고 우승을 차지했다.

고려대학교 컴퓨터학과 강재우 교수 연구팀은 독일 뷔르츠부르크 뷔르츠부르크 대학교 허브랜드 캠퍼스에서 열린  BioASQ에서 구글 팀과 전년도 우승팀인 푸단대를 제치고 우승했다.

올해로 7번째인 BioASQ는 미국 국립보건원(NIH), 유럽연합 등의 후원과 학계와 글로벌 제약회사 등 산업계의 많은 관심 속에서 진행됐다. 

고려대 팀은 윤원진, 이진혁, 김동현, 정민별 등 대학원생과 지도교수인 강재우 교수로 구성된 5인 팀으로 이 연구팀이 참여한 BioASQ 7b Phase B챌린지는 주어진 논문에서 질문에 대한 답을 찾아내는 문제들로 구성되어 있다. 

예를 들어, 대장암에 관련된 논문을 주고 “대장암의 재발에 관여하는 유전자변이는 무엇인가?” 라는 질문을 하는 방식이다. 이 대회의 결과는 사전에 전문가가 만들어 놓은 정답을 이용하여 평가되고, 추후에 전문가의 검토를 거쳐서 발표된다.

이번 결과는 AI 모델  '바이오버트'(BioBERT)'를 이용하여 얻은 성과로 바이오버트는 이진혁 박사와 윤원진 박사과정이 공동 주도하는 강재우 교수 연구팀과 네이버 Clova팀 김성동 연구원의 협업으로 개발된 딥러닝 기반 ‘버트(BERT)’ 모델의 의생명 분야에서의 확장판이다. 

이 모델은 문장에서의 문맥을 통하여 단어의 의미를 이해하도록 설계됐다. 1800만여 건의 의생명분야 학술논문을 학습하고 전문지식을 요하는 논문의 이해에 필요한 단어의 문맥적 정보를 습득한다. 또 모델은 이 정보를 바탕으로 의생명 분야 질문에 관한 답을 주어진 논문으로부터 찾는다. 

바이오버트 논문은 지난 1월말 인터넷에 처음 공개된 뒤 심사를 거쳐 8월에 생명정보학 최고 권위지인 생물정보학(Bioinformatics) 誌에 최종게재 확정됐다. 1월말 인터넷 공개 이후 현재까지 8개월간 40회 이상의 피인용 횟수를 기록하고 있다. 이는 공식 게재 전 피인용 횟수로는 매우 이례적인 수치이다. 또한 구글, 카네기 멜론대(CMU), AllenAI 등 해외 유수의 AI 연구기관들이 바이오버트 논문을 인용하는 등 학계의 관심도 뜨겁다.

강재우 교수 연구팀(윤원진, 이진혁, 김동현, 정민별)은 이 모델을 BioASQ대회에 최적화하여 참가했고, 총 5회의 평가회차에서 구글과 전년도 우승자 중국 푸단대학교(Fudan University)를 큰 성능 폭으로 제치고 5회 모두 1등을 기록했다.

한편 이번 연구 결과는 의생명 도메인의 텍스트를 학습한 결과를 바탕으로 기존의 의생명 질의응답 시스템의 성능을 유의미한 수준까지 큰 폭으로 개선했다는 점에서 큰 의의가 있다. 또한 이 모델을 이용하여 임상적으로 유의미한 의사결정 지원도구를 개발할 수 있을지 기대가 된다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지