의료 데이터를 활용한 빅데이터 분석 기법 활용
- 쇼셜이노베이션융합전공
- 조회수346
- 2021-08-31
이번 학습자료는 의료데이터를 활용한 빅데이터 기법 활용 관련 논문을 살펴보겠습니다. 데이터의 가치가 중요시됨에 따라 의료분야에서도 대량의 데이터로부터 가치 있는 정보를 생성해 내는 빅데이터 기술이 활발히 사용되고 있습니다. 특히 여러 데이터 마이닝 분석기법을 활용하여 가장 우수한 분석 모델을 판별하고, 이를 기반으로 환자의 질환 악화로 인한 재입원 환자군을 예측하고자 하였습니다.
환자의 건강검진정보와 질병정보, 의사의 진료정보와 그 치료결과, 환자의 유전자 정보 등의 방대한 양의 정보가 의료산업에서 발생함에 따라 의료관련 정보는 새로운 가치 창출의 영역이 되고 있다. 해외에서도 축적된 데이터를 이용하여 고객에게 맞춤형 의료 서비스를 제공하여 환자의 만족도와 병원경영의 효율을 높이고 있다. 국내에서도 빅데이터가 의료분야에 활발하게 접목되고 있으며, 주요 대학병원들은 통합데이터웨어하우스를 구축하고 있다. 기존의 의료분야 연구는 주로 환자들의 병명, 수술 등의 경과를 가지고 많은 연구가 이루어지고 있다. 그러나 아직까지 환자들의 일상활동 보조에 관련된 연구는 미비한 실정이다. 본 연구는 요양병원 내 환자의 질환이 악화되어 병원으로 이송되는 급성 병원 이송환자군을 예측하여, 위험환자군에 대한 등급관리와 선행관리를 통해 병원 및 요양병원이 수행하는 의료서비스의 질을 증대시키고 환자 및 보험금 제공자의 의료비용 지출을 절감하는 것을 목적으로 한다. 특히 본 연구는 기존 연구와의 차별화를 위하여 임상결과 및 질환의 특성보다는 일상 생활에서의 기본활동(활동량, 용변, 식사 등)과 질환과의 상관성 및 예측가능성을 파악함으로써 향후 스마트폰이나 개인용 모바일 디바이스에서 얻어지는 로그들을 분석하여 홈 케어 등에 활용하는 부문의 기초가 될 것이다.
본 연구에서는 A요양병원으로부터 데이터 취득 및 분석을 위하여 개인정보보호와 관련된 승인을 받아 수행하였다. 의료 분야 데이터는 환자의 개인 정보 외에 진료정보 및 건강정보를 포함하고 있어 민감한 정보로 분류됨에 따라, 최근에는 데이터 활용을 위한 IRB 승인이 필요하다. 본 연구는 요양병원 내 환자의 질환이 악화되어 병원으로 이송되는 급성병원이송 환자군을 예측하여, 위험 환자군에 대한 등급 관리와 선행 관리를 통해 병원 및 요양병원이 수행하는 의료 서비스의 질을 증대시키고 환자 및 보험금 제공자의 의료비용 지출을 절감하는 것을 목적으로 한다. 환자가 퇴원을 하게 되면 집에서 외래 방문 치료 및 가정 요양 치료를 받는 경우와 퇴원 후 요양병원에서 안정가료를 취하는 경우로 구분하게 된다. 요양병원에서 안정가료를 취하던 환자가 응급실 또는 입원 등의 이유로 병원으로 이송되는 것을 급성병원이송이라 한다(<그림 1> 참조)
[그림 1] 의료 행위 중 급성병원이송의 단계
본 연구에 사용된 데이터는 병원에서 퇴원 후 요양병원에 입원가료중인 환자 (43,986명)을 대상으로 일상활동보조와 급성병원이송 간의 상관관계와 인과관계를 규명하기 위해 통계분석 방법을 이용하였다. 본 연구의 AA 분석 방법론은 LG CNS의 방법론으로 데이터 준비, 분석 데이터셋(DataSet) 생성, 탐색적 데이터 분석(Exploratory Data Analysis), 분석 모델링, 예측모델 검증 및 평가의 단계로 구성되며, 필요시 각 단계의 반복을 통해 모델을 보완하고 성능을 향상시키는 특징이 있다.
[그림 2] AA 분석 방법론
분석데이터는 요양환자의 기본 정보와 질환, 내원이력과 같은 진단관련 정보, 주요 변수인 요양환자의 일상활동보조 기록에 대한 데이터를 수집하였다. 7가지 일상활동보조 과정에서 요양사의 도움을 받은 횟수와 도움을 받은 정도를 가중치로 반영한 점수를 지표로 활용되었다.
∴ 환자의 일상활동보조 데이터 목록: 이동, 실내이동, 환복, 취식, 용변(소변), 세정, 용변(대변)
마지막으로 수집 및 설계된 데이터를 분석데이터셋 생성 단계에서 사용할 수 있도록 데이터 매시업(Mashup)을 통하여 통합하고, 분석 모형에 입력 가능한 형태로 데이터셋을 생성하는 전처리 작업을 수행하였다.
※ IT 분야에서 매시업이란 원래 웹상에서 다양한 웹서비스 정보를 혼합하여 새로운 서비스를 개발하는 것을 의미하지만 본 연구에서는 일상활동보조 데이터에 대해 저장된 다양한 DBMS(DataBase Management System)를 통합, 분석하였다는 의미에서 데이터 매시업이라고 정의한다.
최종적으로 생성된 데이터셋을 바탕으로, 환자의 급성병원이송을 예측하기 위해 의사결정나무(Decision Trees), 로지스틱 회귀분석(Logistic Regrission), 인공신경망(Artificail Neural Network)의 3가지 분석모델을 선정하여, 동일한 데이터셋에 대해 3가지 모델의 예측 정확도를 구하는 과정을 총 5회 반복하여 최종적인 정확도를 산출하였고, 그 결과 급성병원이송 예측요인은 의사결정나무에서 유의하다고 판단한 변수를 사용하였다.
각 분석 방법의 성능과 안정성을 비교하기 위해 정확도, 민감도, 특이도의 평균과 표준편차를 구하였다. 정확도의 평균은 의사결정나무(87%), 인공신경망(86%), 로지스틱 회귀분석(85.5%) 순이었다. 본 연구는 모델 간 비교에서 정확도를 기준으로 삼았으며, 민감도에서도 높은 성능을 보인 의사결정나무가 급성병원이송 환자를 예측하는 데 가장 우수한 분석 모델임을 알 수 있다.
본 연구의 가장 큰 기여는 다양한 데이터베이스에 저장된 일상활동보조 데이터를 통합함으로써 데이터마이닝과 같은 빅데이터 기법을 활용하여 환자의 재입원 확률을 예측하고 전반적으로 환자들의 재입원 이유를 고찰하였다는 점이다. 지금까지의 연구에서는 환자들의 일상활동보조에 관련된 연구가 미비한 실정이었다. 요양병원에서 고위험 환자군에 대한 간호사들의 주의깊은 관찰만으로 환자들의 재입원 가능성을 예측할 수 있는 근거를 제시하였다는 점에서 본 연구의 예측모형연구는 중요한 시사점을 찾을 수 있다.
< 자료 원문 >
정광혼, 김가희, 박진원, 이혜성, 김형중, 최홍용, 김진화. “의료 데이터 매시업과 빅데이터 기법 활용을 통한 환자의 재입원 가능성 에측과 원인 분석.” Entrue Journal of Information Technology (2015)