[3-G-1-01] 蛋白分画検査の波形情報を使用した血液検査の欠測値補間の試み
serum protein electrophoresis, blood chemical analysis, machine learning, missing data
【背景】
血液検査結果はReal World Data study(RWDs)で多用されるが、様々な要因にて欠測が発生する。本研究では、蛋白分画検査結果のうち、分析精度が高いキャピラリー電気泳動法による波形データを使用し、種々の血液検査結果を識別するためのモデルを網羅的に構築、欠測値の補間手段となり得るか検討する。
【方法】
高知大学医学部附属病院にて蛋白分画検査を実施した20歳以上の患者(2010年〜2015年)を対象とし、病院情報システムに蓄積されたデータを使用した。波形データはプレアルブミン分画側からγグロブリン分画側までの計300区画の易動度を使用し、総蛋白値による補正を実施した。対象の検査項目は、CBCや生化学検査など頻度の高い22項目とし、蛋白分画検査と同日に実施した結果値を使用した。年齢および性別、波形データを説明変数、目的変数を対象検査項目の結果値を基準範囲内か否かとした識別モデルを作成し、モデル候補として決定木系およびニューラルネットワーク系のアルゴリズムを網羅的に作成した。対象データから独立した検証用データを400件、残りの75%をモデル構築用、25%をパラメータ調整用データとしてランダムに抽出し、モデルの評価をAUC値にて実施した。
【結果】
対象の波形データは2379件であった。多くの検査項目において勾配ブースティング決定木が識別性能の優位性を示し、中でもC反応性蛋白に関してはAUC値0.90と、既存手法であるロジスティック回帰モデルよりも良好であった。
【考察】
各種疾患に対する波形パターンが既知であり、かつ血液検査結果に反映される検査項目に関しては少なくとも精度よく識別可能であることが示唆された。本手法を展開することで、安価であるが臨床的に活用頻度が低い蛋白電気泳動検査の波形データを、RWDsで問題となる欠測値の補間手段の1つとして活用できると考える。
血液検査結果はReal World Data study(RWDs)で多用されるが、様々な要因にて欠測が発生する。本研究では、蛋白分画検査結果のうち、分析精度が高いキャピラリー電気泳動法による波形データを使用し、種々の血液検査結果を識別するためのモデルを網羅的に構築、欠測値の補間手段となり得るか検討する。
【方法】
高知大学医学部附属病院にて蛋白分画検査を実施した20歳以上の患者(2010年〜2015年)を対象とし、病院情報システムに蓄積されたデータを使用した。波形データはプレアルブミン分画側からγグロブリン分画側までの計300区画の易動度を使用し、総蛋白値による補正を実施した。対象の検査項目は、CBCや生化学検査など頻度の高い22項目とし、蛋白分画検査と同日に実施した結果値を使用した。年齢および性別、波形データを説明変数、目的変数を対象検査項目の結果値を基準範囲内か否かとした識別モデルを作成し、モデル候補として決定木系およびニューラルネットワーク系のアルゴリズムを網羅的に作成した。対象データから独立した検証用データを400件、残りの75%をモデル構築用、25%をパラメータ調整用データとしてランダムに抽出し、モデルの評価をAUC値にて実施した。
【結果】
対象の波形データは2379件であった。多くの検査項目において勾配ブースティング決定木が識別性能の優位性を示し、中でもC反応性蛋白に関してはAUC値0.90と、既存手法であるロジスティック回帰モデルよりも良好であった。
【考察】
各種疾患に対する波形パターンが既知であり、かつ血液検査結果に反映される検査項目に関しては少なくとも精度よく識別可能であることが示唆された。本手法を展開することで、安価であるが臨床的に活用頻度が低い蛋白電気泳動検査の波形データを、RWDsで問題となる欠測値の補間手段の1つとして活用できると考える。