[4-E-2-OP28-3] 機械学習アルゴリズムによる効率的なリアルワールドデータ解析を実現する手法の提案
【目的】
病院情報システムにて蓄積され続ける医療ビッグデータ(リアルワールドデータ)は、多種多様でかつ構造は複雑で、多くの欠測値・バイアス・外れ値を含んでいる。従来の解析手法を利用しても有意性のある結果を出力することは困難であり、データクレンジング技術が必須である。データが整理された後も機械学習においては最適なアルゴリズムの選択、及びハイパーパラメータの探索など多様な技術を駆使した処理の実現が必須である。一般的には個々の研究テーマに応じて試行錯誤的にそれらの処理を実施・評価する為、多くの時間・コストを費やす。データ解析に必要な処理を予め部品化し、内部的にデータ構造を解析することで、最適な部品を組み合わせて、解析モデルを作成する為のフローを推薦する仕組みを提案する。
【方法】
上記提案手法について有効性を立証する為、データ解析システムのプロトタイプを開発し、過去に実施された研究テーマにおける解析プロセスと比較してどれくらい作業効率化されたかという点と正しく結果が出力されたかという点について評価した。病名・血液検査・副作用の時系列データをインプットとして、データ構造からクレンジングの変換定義を自動的に作成・推薦を行い、その後に最適な解析アルゴリズムとハイパーパラメータを抽出した上でモデルを作成し、評価用のPLOT図を作成する一連の解析フローについて検証した。
【結果】
データクレンジングの実施から解析結果出力までの一連の処理を試行錯誤することにかかる時間を今回のデータ解析システムでは数日単位から数時間単位に削減することが出来る。今まで解析が困難な欠損値が多い組合せデータ群の利用価値を高め、統計的な傾向分析でなく、ビッグデータが持つ実際の値の組合せからの類似性や特徴性の探索とモデル化が可能となった。今後、出力されたモデルの組合せにより医療現場で利用できるレコメンドシステムへの応用が期待される。
病院情報システムにて蓄積され続ける医療ビッグデータ(リアルワールドデータ)は、多種多様でかつ構造は複雑で、多くの欠測値・バイアス・外れ値を含んでいる。従来の解析手法を利用しても有意性のある結果を出力することは困難であり、データクレンジング技術が必須である。データが整理された後も機械学習においては最適なアルゴリズムの選択、及びハイパーパラメータの探索など多様な技術を駆使した処理の実現が必須である。一般的には個々の研究テーマに応じて試行錯誤的にそれらの処理を実施・評価する為、多くの時間・コストを費やす。データ解析に必要な処理を予め部品化し、内部的にデータ構造を解析することで、最適な部品を組み合わせて、解析モデルを作成する為のフローを推薦する仕組みを提案する。
【方法】
上記提案手法について有効性を立証する為、データ解析システムのプロトタイプを開発し、過去に実施された研究テーマにおける解析プロセスと比較してどれくらい作業効率化されたかという点と正しく結果が出力されたかという点について評価した。病名・血液検査・副作用の時系列データをインプットとして、データ構造からクレンジングの変換定義を自動的に作成・推薦を行い、その後に最適な解析アルゴリズムとハイパーパラメータを抽出した上でモデルを作成し、評価用のPLOT図を作成する一連の解析フローについて検証した。
【結果】
データクレンジングの実施から解析結果出力までの一連の処理を試行錯誤することにかかる時間を今回のデータ解析システムでは数日単位から数時間単位に削減することが出来る。今まで解析が困難な欠損値が多い組合せデータ群の利用価値を高め、統計的な傾向分析でなく、ビッグデータが持つ実際の値の組合せからの類似性や特徴性の探索とモデル化が可能となった。今後、出力されたモデルの組合せにより医療現場で利用できるレコメンドシステムへの応用が期待される。