[초점] 美 백악관, 세계 최대 '코로나19(CORD-19) 데이터 세트' 오픈 소스로 공개
[초점] 美 백악관, 세계 최대 '코로나19(CORD-19) 데이터 세트' 오픈 소스로 공개
  • 최창현 기자
  • 승인 2020.03.22 19:10
  • 댓글 0
이 기사를 공유합니다

이 데이터 세트는 알렌AI연구소와 챈 저커버그 이니셔티브, 마이크로소프트 및 글로벌 최고의 의료 기관의 연구원 및 리더들의 노력으로
코로나19(CORD-19) 이미지(출처:WHO)

백악관이 글로벌 연구기관 및 관련 커뮤니티를 위한 세계 최대 코로나19(CORD-19) 데이터 세트를 오픈 소스로 지난 16일(현지시간) 공개했다. 또 이 데이터 세트는 알렌 AI 연구소(Allen Institute for AI)와 페이스북 마크 주커버그와 그의 아내인 프리슐라 챈이 세운 '찬 주커버그 이니셔티브(CZI, Chan Zuckerberg Initiative)', 마이크로소프트(Microsoft) 및 글로벌 최고의 의료 기관의 연구원 및 리더의 노력으로 발표되었다고 덧붙였다.

이 CORD-19 데이터 세트는 29,000 개가 넘는 기사와 함께 13,000 개 이상의 전문이 포함된 가장 광범위한 기계 판독 가능 코로나 19 문헌 컬렉션으로 구성되어 있다. 또 이러한 수천 개의 기사를 선별하기 위해 마이크로소프트의 웹 규모의 문헌 큐레이션 도구가 사용되었으며, 알렌 AI 연구소 팀은 컨텐츠를 기계가 읽을 수 있는 형태로 변환하여 코퍼스(대규모 말뭉치)를 분석하고 연구할 수 있도록 했다.

연구원들은 텍스트 마이닝을 위해 개발한 도구와 백악관의 행동 유도에 도움이 되는 통찰력을 제출할 것을 권장하고 있으며, 이 정보는 구글의 머신러닝 및 데이터 과학 커뮤니티인 캐글(Kaggle) 플랫폼을 통해 액세스할 수 있다.

CORD-19에 대한 반응을 가속화하기 위해 과학 및 의료 커뮤니티에서 중요한 정보를 공유할 필요성과 새로운 'COVID-19 Open Research Dataset'은 전 세계 연구원들이 중요한 정보에 더 빨리 액세스할 수 있도록 설계되었으며, 캐글을 통해 전 세계의 연구원에게 공개적으로 제공된다. 또 세계보건기구(WHO)의 CORD-19 대응 행동 유도 및 주요 질문은 모두 캐글에서 제공된다.

또한 백악관은 국가의 인공지능 전문가와 과학계가 COVID-19와 관련된 우선순위가 높은 과학적 질문에 대답할 수 있는 새로운 텍스트 및 데이터 마이닝 기술을 개발하도록 요청했다. 이에 캐글은 통찰력을 얻기 위해 수동으로 20,000 개가 넘는 기사를 다루기가 어렵기 때문에 4 백만 명의 데이터 과학자 커뮤니티에서 액세스할 수 있는 해당 데이터의 기계 판독 가능 버전을 업로드 하기로 결정했다. 

한편, 백악관은 COVID-19에 대한 솔루션을 예방, 탐지, 치료 및 개발 등에 미국 과학 기술 기업의 결정적인 조치가 중요하다며, 백악관은 이 모든  접근 방식에서 지속적인 강력한 파트너가 될 것이라고 밝혔으며, 또  우리는 이 협력 노력에 자발적으로 전문 지식과 혁신을 빌려준 각 기관에 감사하고, 미국 코로나 바이러스에 관한 주요 과학적 질문에 답하기 위해 인공지능 기술을 적용하기 위해 미국 COVID-19 연구 커뮤니티를 요청한다고 밝혔다.

백악관에서 발표된 COVID-19 오픈 데이터 세트는 알렌인공지능연구소의 시맨틱 스칼라 홈페이지(다운)와 캐글(다운)에서 누구나 다운받아 연구 및 개발에 적용할 수 있다. 이 밖에 대표적인 COVID-19 오픈 데이터 세트는 바이오리시브(bioRxiv)에 현재 694개의 관련 연구 논문(보기 및 다운)이 오픈돼 있으며, 몬트리올 대학의 흉부 엑스레이 CT 이미지 데이터베이스는 깃허브(다운), WHO 데이터베이스는 홈페이지(보기)를 참고하면된다.

또한 동물 바이러스와 관련된 종별 데이터뿐만 아니라 지리적인 인플루엔자 바이러스 서열과 인간 바이러스와 관련된 역학 데이터로 구성된 데이터베이스를 보유하고 있는 GISAID 이니셔티브의 COVID-19 게놈 역학(Genomic epidemiology of hCoV-19 다운), 미 국립연구재단(National Science Foundation) 단백질 데이터 뱅크(PDB, Protein Data Bank)는 다운로드 가능한 데이터 아카이브를 통해 큰 생물학적 분자(단백질, DNA 및 RNA)에 대한 3D 구조 데이터를 제공한다.

특히, PDB는 계산적으로 예측된 단백질 구조에 관한 정보를 포함하며, 딥마인드(DeepMind)가 알파고를 넘어선 단백질 구조를 예측하는 알파폴드(Alphafold) 조차도 PDB에 업로드 되었다. 이 이니셔티브는 전세계 과학자 및 연구원들이 새로운 병원체에 대한 대응과 테스트를 신속하게 개발할 수 있도록 하는 것을 목표로 한다.

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.