Japan Association for Medical Informatics

[3-B-2-05] 機械学習を用いた医薬品の潜在的リスクの予測

西川 景太1、種村 菜奈枝1、矢向 高弘1、漆原 尚巳1 (1. 慶應義塾大学)

Machine learning, Classification, Pediatric, Diabetes, Adverse events

【はじめに】本研究は,大規模医療病院事務・DPCデータを活用し,機械学習アプローチとしてk近傍法(以下,k-NN)を用いて投薬後に発現しうる有害事象のカテゴリ予測を行う.開発時に懸念すべき有害事象を明らかにすることで安全性評価の指標とすることを目指す.

【方法】糖尿病治療薬が投与された16歳未満の小児糖尿病患者を対象とした.データソースは,メディカル・データ・ビジョン社が所有する大規模医療病院事務・DPCデータであり,2016年1月から2017年12月までの期間を分析対象とした.対象患者の糖尿病治療薬,合併症,有害事象データを日本の小児年齢4区分に従って分割し,時系列順にした.合併症はICD-10コードの3文字目までの分類 (A00, B49, …),有害事象はICD-10コードの1文字目までの分類(A, B, …)を用い名義尺度で数値に変換した.作成したデータセットは訓練用(70 %),評価用(30 %)に分割した.性別・年齢・合併症・糖尿病治療薬の情報を入力パラメータとし,k-NNを用いて有害事象のカテゴリ予測精度の評価を行なった.

【結果と考察】各年齢区分のデータ数は0歳児: 8,018, 1-6歳: 43,634, 6-11歳: 177,821, 12-15歳: 276,864であった.カテゴリ予測精度は,0歳児はおよそ20 %の精度,1-5歳, 6-11歳, 12-15歳の患者はおよそ70 %の予測精度となった.また,12-15歳で最大76 %(k=39)の精度となった.低精度の原因として入力パラメータである合併症を一次元の名義尺度で数値化したこと,また0歳児のデータ数が少なかったことが考えられる.今後は入力データの多次元化,および年齢区分の最適化により精度向上が期待できる.(本研究は慶應義塾 学事振興資金より助成を受けて実施された.)