[3-J-5-03] 公開情報を用いた保健医療データベース構築支援方式の開発
Healthcare open data, Database, Natural language processing, Data collection
【背景】病院の経営や医療提供の状況を比較するには公開データの活用が有効だが,公的統計は夫々独立して作成され記載の表記ゆれも存在するため,データ間の連携に関して考慮が十分とは言えない.データの収集も公開されているサイトや開示の時期が異なるため,時間と労力を要する.【目的】公開されているデータの収集とデータベース化可能なデータ形式への変換を省力化する,保健医療データベース構築支援方式の開発を目的とする.【方法】保険医療機関一覧,病床機能報告,DPC導入調査など、厚生労働省が公開している各データに関して,データファイルを収集しデータごとに項目名の作成や正規化等の加工を行うプログラムを開発した.また,データごとに表記に差がある医療機関名称を統一するために表記ゆれを吸収するプログラムを開発し, 自然言語処理技術のN-gramとTF-IDFを使用して医療機関同士の名寄せ及び統一IDの付与を行った.統一IDは全国の病院,診療所に使用できるよう厚労省のコード内容別医療機関一覧表に含まれる医療機関コードをもとに作成した.【結果】プログラムを使用した自動化によりデータ収集・処理は13分で完了し,手作業で行った場合の約4分の1に短縮でき,手作業によるミスも削減できる.表記ゆれを吸収する前処理プログラムを用いて名寄せを行うことで,厚労省が公開しているDPC導入調査,病床機能報告のへの統一ID付与の自動化率は約92%となり前処理無しの名寄せ時の50%を大きく改善できた.【結論】公開データの収集とデータ前処理を自動化するプログラムにより作業効率と正確性を改善し,保健医療分野の公開データを利用するデータベース構築を支援することができる.