Covid-19에 대응하기 위한 전세계적인 집단지성 DB의 구축
- 소셜이노베이션융합전공
- 조회수292
- 2021-12-25
Covid-19로 인한 전세계적 위기 속에서 이를 해결하기 위한 오픈 데이터셋을 구축하고 전 세계의 연구자들이 함께 연구하는 활동도 크게 늘어났다. 이런 데이터셋에는 감염 추세나 감염 경로에 대한 데이터셋에서 바이러스의 특성을 연구하기 위한 데이터셋, 증세를 진단하고 판정을 위한 데이터셋, 신약 개발이나 백신을 개발하기 위한 데이터셋 등 다양한 종류의 데이터셋이 지속적으로 만들어지고 있다. 비단 직접적인 치료 목적의 데이터셋 뿐만 아니라 사회과학적 관점에서 접근가능한 데이터셋까지 축적되고 있는 상황이다.
일반인이 접근가능한 여러 가지의 데이터셋 중 대표적인 예로는 미국 백악관 과학기술 정책실과 국립 보건원(NIH), 알렌 인공지능 연구소, 찬 저커버그 이니셔티브, 마이크로소프트 연구소, IBM, 조지타운 대학, 국립 의학 도서관 등이 공동으로 만들어 내고 있는 Covid-19 공개 연구 데이터셋(CORD-19)이 있다. 이는 현재 캐글(Kaggle)에서 진행 중인 프로젝트로 COVID-19 대유행에 대응하여 백악관과 상기한 선도적인 연구 그룹 연합이 데이터베이스로 구축해 나가고 있다. CORD-19에는 Covid-19, SARS-CoV-2 및 관련 코로나바이러스에 대한 20만 건 이상의 전문 논문을 포함하여 50만 건이 넘는 학술 논문이 탑재되어 있다. 이 오픈 억세스 데이터셋은 자연어 처리 및 기타 AI 기술의 최근 발전을 적용하여 현재 진행 중인 전염병 퇴치를 지원하는 새로운 통찰력을 창출하기 위해 글로벌 연구 커뮤니티에 제공된다. 데이터셋은 매일 업데이트되고 있으며, 특히 알렌 인공지능 연구소에서는 모든 콘텐츠를 기계가 읽을 수 있는 형태로 변환해 대규모 말뭉치(코퍼스)를 분석할 수 있게 하고 있다. 코로나바이러스 문헌이 급증하면서 의료계가 이를 따라잡기 어려워지고 있기 때문에 이러한 접근법에 대한 중요성이 커지고 있다.
이러한 데이터셋은 자연어 처리 방식을 통해 우리가 어떤 예측이나 판단을 해야하는지, 그리고 준비해야 하는 행동이 무엇인지를 파악하는 데 기여할 수 있다. 특히 백악관에서는 이들 데이터셋을 통해 어떤 행동을 취해야 하는지를 결정하는 데 도움이 되는 통찰력을 추출할 수 있도록 분석하고 있으며, 세계보건기구(WHO)는 CORD-19에서 대응 행동 유도 및 주요 질문을 과업으로 제시하고 있다. 캐글에서는 바이러스의 전파, 잠복, 환경적 안정, 백신과 치료와 같은 의학적 접근뿐만 아니라, 제약이 아닌 치료법, 윤리와 사회 과학적 고려, 진단과 감시에 이르기까지 총 15개의 과업을 제시하면서 폭넓은 시각의 연구를 종합하고 이를 캐글 챌린지를 통해 연구자들의 동기부여를 이끌어내고 있다. 가령, 유럽 집행위의 공동 연구 센터에 있는 ‘텍스트 마이닝과 분석 역량 센터’의 TIM 애널리틱스 팀의 페이지에서는 이러한 캐글의 자료를 활용하는 방법을 제시해주고 있다.
TIM 애널리틱스에 제공하는 CORD-19 활용 예시
또한 주목할 가치가 있다는 또 다른 시도 가운데 톰 시벨이 설립한 기업용 인공지능 소프트웨어 전문 기업 C3.AI의 데이터 레이크가 있다. C3.ai의 디지털 트랜스포메이션 연구소(DTI)는 일리노이 대학, 버클리 대학, MIT, 프린스턴 대학 등을 회원으로 두고 있으며, 전 세계의 Covid-19 데이터셋을 통합 데이터 모델로 제공한다. 데이터 레이크에 대한 접근은 오픈소스 프로그램인 파이선, R, 엑스 마키나 등을 통한 RESTful API로 이루어진다. 주요 데이터는 존스 홉킨스 대학의 Covid-19 데이터 저장소, 코비드 추적 프로젝트, WHO가 수집 중인 일 단위 현황 보고서 및 연구 개발 상황, 뉴욕 타임스의 미국 내 코비드-19 데이터와 한국의 데이터 사이언스 자료까지 인구 통계, 경제 지표, 환경 데이터 등 매우 다양하다. C3.ai의 DTI는 26개의 프로젝트에 560만 달러를 지원해 이런 데이터 활용이 활발히 이루어지게 했다.
C3.ai의 Covid-19 데이터 레이크 Knowledge 그래프
전세계적으로 유래 없는 대재앙을 맞이한지 근 2년이 되어가는 가운데, 이를 극복하기 위해 전세계는 빠르게 변화해가고 있다. 동시에 학계에서는 머신러닝 기법, 클라우드의 보편화, 비대면 화상기술의 발달 등으로 커뮤니케이션의 수단 방법이 늘어나면서 위와 같은 다양한 형태의 집단지성을 축적시킬 수 있는 기술이 빠르게 발달하는 중이다.
< 자료 원문 >
- Kaggle, “COVID-19 Open Research Dataset Challenge (CORD-19)” (https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge)
- https://ec.europa.eu/knowledge4policy/text-mining/cord-19_en 참고
- C3.ai, “A3.ai Announces Public Availability of COVID-19 Data Lake,” Apr 22, 2020arXiv preprint arXiv:2009.09559 (2020).