[3-D-2-03] PDF形式で保存される検査レポートからデータの抽出と構造化を実現するプログラムの開発
PDF, Acquired, Data Accuracy, Data Format
背景:電子カルテデータの二次利用に際して、後ろ向き研究では、非構造化データの取得が課題となる。検査レポートは検査種ごとに特徴的な書式で出力されるため、非構造化データではあるが構造化を目指した情報抽出ができる可能性が高い。 目的:PDF形式の検査レポートから、臨床研究に必要なデータを取得して構造化するプログラムを作成し、その抽出精度を検証する。 方法:大阪大学医学部附属病院で作成された放射線検査レポートと呼吸機能検査レポートから、それぞれ100枚、125枚を学術研究目的で抽出した。そのうち各10枚を評価用データとして、それら以外を抽出ルール作成のための学習データとして使用した。プログラミング言語は JavaとJavaScriptを使用した。PDFにはテキストとそれに対応する座標が保存されているが、内部に格納されている順番が必ずしも画面上で表現されるような順番になっているとは限らない。抽出ルール構築のために、PDF内の目的データをKey-Value型とテーブル型の二つに分類した。抽出ルールを学習データから構築した後に、簡単なHTMLインターフェースを使って、データの座標エリアを特定した。分類とその対応するエリアに合致するルールを適用してデータ抽出と構造化を行い、JSON形式で保存した。最後に、構築した抽出ルールの精度を評価用データで検証した。 結果:本プログラムを用い、Key-Value型データについては、全て正確に取得し、JSONにフォーマットすることが出来た。テーブル型データの項目名と対応する値に誤りがあり、その抽出精度は78.7%であった。 結語:電子カルテに蓄積されたPDF形式の検査レポートから高精度にデータを抽出して構造化することが可能であることを確認した。