[3-G-1-07] 原死因決定プロセスの効率化に資する機械学習による原死因コード変更予測
Underlying Cause of Death, Automated ICD coding, Machine Learning, Artificial Intelligence
【背景と目的】日本では、原死因決定を行うために独自の人口動態死因オートコーディングシステムを利用しているが、約4割の原死因決定は自動的に行われず、人手による確定作業が行われている。その主な要因は、傷病名以外の手術欄や解剖所見、外因の発生状況など「付帯情報」の記載である。しかし、実際に付帯情報の人手確認により仮原死因コードの修正に至るケースは少なく、作業の効率化のためこれらを自動的に弁別する手法の確立が求められている。そこで本研究では機械学習ベースの分類モデルにより、付帯情報の影響による仮原死因の変更有無が判別可能かの調査を行う。
【方法】統計法33条に基づき提供を受けたH27-H30の死亡票実データからランダム抽出した50万件に対し、標準病名マスター等を用い傷病名にICD-10コードを付与した。全ての傷病名にICD-10コード付与できた死亡票(約6割)に対し、原死因選択をするフリーソフトウェアIrisを用いて仮原死因を決定した。またI 欄 II 欄各病名の ICD10 コード、付帯情報の各項目の有無、Iris が付与した仮原死因を入力とし、分類器学習モデルとして汎用的な勾配ブースティング決定木の一種であるXGBoostを用いて、確定原死因が仮原死因から変更されるか否かを予測するモデルを構築し精度を算出した。
【結果と考察】本手法による変更予測モデルの精度は約9割で、重要度の高い因子は、年齢、備考欄の記載の有無、I501コードの存在、その他不言すべき事柄の記載の有無、手術年月日の有無などであった。記載の有無だけを用いたベースライン手法でも高い精度を達成しており、非常に有望な手法と考えられた。今後自然言語記載内容の分散表現の利用等でさらなる精度向上と変更後のコード提示への発展が見込まれ、人手確認によって行われてきた原死因確定作業の大幅な効率化、負荷軽減が図れると期待される。
【方法】統計法33条に基づき提供を受けたH27-H30の死亡票実データからランダム抽出した50万件に対し、標準病名マスター等を用い傷病名にICD-10コードを付与した。全ての傷病名にICD-10コード付与できた死亡票(約6割)に対し、原死因選択をするフリーソフトウェアIrisを用いて仮原死因を決定した。またI 欄 II 欄各病名の ICD10 コード、付帯情報の各項目の有無、Iris が付与した仮原死因を入力とし、分類器学習モデルとして汎用的な勾配ブースティング決定木の一種であるXGBoostを用いて、確定原死因が仮原死因から変更されるか否かを予測するモデルを構築し精度を算出した。
【結果と考察】本手法による変更予測モデルの精度は約9割で、重要度の高い因子は、年齢、備考欄の記載の有無、I501コードの存在、その他不言すべき事柄の記載の有無、手術年月日の有無などであった。記載の有無だけを用いたベースライン手法でも高い精度を達成しており、非常に有望な手法と考えられた。今後自然言語記載内容の分散表現の利用等でさらなる精度向上と変更後のコード提示への発展が見込まれ、人手確認によって行われてきた原死因確定作業の大幅な効率化、負荷軽減が図れると期待される。