[4-E-1-03] NDB特別抽出データ活用の準備と加工作業の落とし穴
ー利用経験からの紹介ー
NDB, Database research, Data wrangling
ナショナルデータベースを活用する利点として、「世界最大規模の症例集積」、「悉皆性」、「国内唯一のペイシェントジャーニーの(ほぼ)完全追跡」があげられる。
ただし、これらの特徴を特別抽出データの活用において活かすには、膨大なデータを対象に様々な加工作業が必要であり、加工環境の準備から加工方法の検討など、従来の研究において行う統計処理等の分析に加え異なる作業が求められる。
特に加工においては、そもそもNDBデータの起源となるレセプトデータが分析を目的として入力されていないため、NDBデータ活用特有の多くの落とし穴がある。
例えば、現状のNDBデータでは、月別、レセプトの発行医療機関別に分割されデータを患者毎に名寄せする必要があるが、患者を特定する統一IDが割り振られていないため完全な名寄せは不可能である。そのため、分析の目的に合わせ、最適な名寄せ方法を検討する必要がある。
本発表では、NDBの利用経験を踏まえ、特別抽出データの活用において共通的に必要となる準備とデータ加工作業での注意すべき点について紹介する。
ただし、これらの特徴を特別抽出データの活用において活かすには、膨大なデータを対象に様々な加工作業が必要であり、加工環境の準備から加工方法の検討など、従来の研究において行う統計処理等の分析に加え異なる作業が求められる。
特に加工においては、そもそもNDBデータの起源となるレセプトデータが分析を目的として入力されていないため、NDBデータ活用特有の多くの落とし穴がある。
例えば、現状のNDBデータでは、月別、レセプトの発行医療機関別に分割されデータを患者毎に名寄せする必要があるが、患者を特定する統一IDが割り振られていないため完全な名寄せは不可能である。そのため、分析の目的に合わせ、最適な名寄せ方法を検討する必要がある。
本発表では、NDBの利用経験を踏まえ、特別抽出データの活用において共通的に必要となる準備とデータ加工作業での注意すべき点について紹介する。