학술논문

Machine learning for detection of safety signals from spontaneous reporting system data: example of nivolumab and docetaxel / 자발적 부작용 보고자료를 활용한 머신러닝 실마리정보 탐지 방법: 니볼루맙 및 도세탁셀 데이터셋을 예시로
Document Type
Dissertation/ Thesis
Source
Subject
signal detection
adverse drug reaction
machine learning algorithms
di sproportionality analysis
Language
English
Abstract
Introduction: Various methods have been implemented to detect adverse drug reaction (ADR) signals. However, the applicability of machine learning methods has not yet been fully evaluated. Objective: To evaluate the feasibility of machine learning algorithms in detecting ADR signals of nivolumab and docetaxel, new and old anticancer agents. Methods: We conducted a safety surveillance study of nivolumab and docetaxel using the Korea national spontaneous reporting database from 2009 to 2018. We constructed a novel input dataset for each study drug comprised of known ADRs that were listed in the drug labels and unknown ADRs. Given the known ADRs, we trained machine learning algorithms and evaluated predictive performance in generating safety signals of machine learning algorithms (gradient boosting machine [GBM] and random forest [RF]) compared with traditional disproportionality analysis methods (reporting odds ratio [ROR] and information component [IC]) by using the area under the curve (AUC). Each method then was implemented to detect new safety signals from the unknown ADR datasets. Results: Of all methods implemented, GBM achieved the best average predictive performance (AUC: 0.97 and 0.93 for nivolumab and docetaxel). The AUC achieved by each method was 0.95 and 0.92 (RF), 0.55 and 0.51 (ROR), and 0.49 and 0.48 (IC) for respective drug. GBM detected additional 24 and 9 signals for nivolumab and 82 and 76 for docetaxel compared to ROR and IC, respectively, from the unknown ADR datasets. Conclusions: Machine learning algorithm based on GBM performed better and detected more new ADR signals than traditional disproportionality analysis methods.
서론: 시판 후 연구에서 약물관련 부작용에 대한 실마리정보를 탐지하기 위해, 다양한 방법들이 개발되어왔다. 하지만, 실마리정보 탐지의 방법으로 머신러닝 알고리즘을 활용하는 것은 완전히 평가되지 않았다. 목적: 실마리정보 탐지 연구에서 머신러닝 알고리즘의 활용가능성에 대해 평가하기 위해, 항암제인 니볼루맙과 도세탁셀 부작용보고자료를 예시로 활용하려고 한다. 방법: 2009년부터 2018년까지 한국의약품안전관리원 자발적부작용보고시스템으로 수집된 부작용보고자료 중 니볼루맙과 도세탁셀에 대한 자료와 각각의 의약품 제품정보를 활용하여 머신러닝 알고리즘에 적합한 입력 데이터셋을 생성하였다. 입력데이터셋은 알려진 부작용 데이터셋과 알려지지 않은 부작용 데이터셋으로 구성된다. 알려진 부작용 데이터셋은 머신러닝 알고리즘 학습 및 4가지 실마리정보 탐지방법의 평가를 위해 사용되었다. 본 연구에서는 그래디언트부스팅머신 및 랜덤포레스트의 머신러닝 알고리즘과 보고오즈비 및 정보성분의 통계적방법들의 실마리정보 탐지 성능에 대해서 비교하였고, 각각의 방법에 대한 성능은 수신자 조작 특성 곡선의 곡선하면적을 활용하여 평가되었다. 또한, 우리는 각각의 방법에 의해 탐지되는 실마리정보를 비교하기 위해, 알려지지 않은 부작용 데이터셋을 활용하였다. 결과: 본 연구에서 평가된 모든 방법 중, 그래디언트부스팅머신의 평균 실마리정보 탐지 성능이 가장 높은 것으로 평가되었고, 니볼루맙 및 도세탁셀 데이터셋에서 각각 곡선하면적이 0.97 및 0.93를 나타냈다. 랜덤포레스트는 각각의 데이터셋에서 곡선하면적이 0.95, 0.92, 보고오즈비는 0.55, 0.51, 그리고 정보성분은 0.49 및 0.48로 평가되었다. 또한, 그래디언트부스팅머신은 기존의 통계적방법에서 탐지할 수 추가적인 실마리정보들을 탐지하였고, 니볼루맙 데이터셋에서는 보고오즈비에 비해 24개의 추가적 실마리정보, 정보성분비에 비해서는 9개의 추가적인 실마리정보를 탐지하였다. 또한, 도세탁셀 데이터셋에서도 그래디어트부스팅머신은 보고오즈비에 비해 82개의 추가적인 실마리정보, 정보성분에 비해 76개의 추가적인 실마리정보를 탐지하였다. 결론: 본 연구를 통해, 머신러닝 알고리즘 중 하나인 그래디언트부스팅머신이 기존의 통계적 방법에 비해 실마리정보 탐지에 대한 성능이 뛰어나고, 새로운 실마리정보를 탐지할 수 있다는 것을 보여주었다. 하지만, 이는 처음으로 진행된 머신러닝 활용 실마리정보 탐지 연구이고, 두가지의 의약품에 대한 정보만을 활용하였기 때문에, 향후 우리의 방법을 입증하기 위한 추가적인 연구가 필요하다.