Japan Association for Medical Informatics

[3-G-5-06] 数値特徴量を用いた不均衡な医用画像良悪性分類問題の精度改善

*Ryuya Nakashiro1, Kenji Yoshitsugu1, Tadamasa Takemura1 (1. 兵庫県立大学大学院 情報科学研究科)

radiomics, machine learning, image processing

【目的】近年、機械学習による画像分類が医療分野でも活躍している。その一つに乳癌の良悪性判定がある。乳癌の良悪性判定は、乳房の複雑な構造、初期症状が乏しいといった理由から判定することが難しい。また、画像検査で疑わしい部分が発見された場合、生検を行う必要があり患者に負担がかかる。このような理由から機会学習を用いた画像判定の研究が進んでいる。特にradiomicsという数値データを用いた分類を行うことで、高い精度で分類することができる。このとき、データ数が不均衡なので、悪性の予想をすることが難しいため、SMOTEという数値データからのアップサンプリングを行うことで、不均衡なデータのバランスをとる。しかし、アップサンプリング前後で相関行列に変化があるため、真にモデルが有用な特徴を学習できていない可能性がある。そこで本研究ではradiomicsを使って分類する際に、SMOTEでのアップサンプリングを行ったとき、相関行列の差異が小さくなるように行うことで、より高精度に分類することを目的とする。
【方法】SMOTEでアップサンプリングを行った際に、相関係数がアップサンプリング前とどのように異なるのかを計算する。そこで元データと相関係数が大きく異なる変数を調べ、その変数に対して様々な処理を行うことで、アップサンプリング前後で相関行列の差異を小さくする。
【結果】相関行列の差異が小さくなるようなアップサンプリングを行うことで、より高精度で乳癌の良悪性判定を行えることが示唆された。
【考察・結論】アップサンプリング前後で相関行列が異なる、すなわち元データとの関係性が失われているため、相関行列の差異が小さくなるようなアップサンプリングを行うことは、モデルが元々のデータのパターンを学習しやすくなるので、精度向上につながったと考えることができる。
【倫理的背景】本研究は、医療機関情報及び患者の個人情報を匿名加工することによって、患者が特定されないよう配慮した。