[4-B-1-04] NDBデータ解析の感想
2018年2月から6ヶ月間、オンサイトセンターにおいてNDBデータを用いた解析を行った。解析内容は、平成23-27年に新たに認可された糖尿病薬及び抗がん剤の、国内における拡散状態についての把握であった。解析の感想を以下の3点として要約する。
1点目は、NDBデータの包括的な理解に時間を要する点である。NDBデータはそれを初めて扱う者には大変難解なデータ構造である。例えば、医科レセプトにはないレコードがDPCレセプトに存在することがある。それを知らずに解析を進めれば、結果について誤った解釈をしかねない。データ抽出の際には、それぞれのレセプト構造を理解した上で必要に応じて別々の適切な抽出条件を設けることが求められる。
2点目は、解析には多くの仮定が必要とされることが大半であるため、自らの設けた解析における仮定をよく検討し、それに伴う限界を事前に検討することが大切な点である。例えば、入院日や退院日の正確な把握は現段階では困難である。そこで、入院基本料の算定が途切れた日を退院日と仮定するなど、1つの解析を行うに際し多くの仮定を設定することが求められる。解析前に、仮定を設けたことによる限界について感度分析を行うなど、慎重な検討が大切である。
3点目として、結果の検証が困難である点が挙げられる。NDBデータは非常に大きなデータであり、解析に多くの専門的な知識を必要とする。またデータの大きさがゆえに使用できる解析ソフトも限られている。本来ならば、データ解析は2名以上のその分野を熟知したものによっておこなわれ、結果の一致度も確認されるべきものだが、現実的にそうならないことも多い。このため、検証が比較的容易な解析方法を考案することが解決策の1つである。言い換えると、多くの仮定をおく必要のある項目を解析し検討するよりも、比較的単純でわかりやすい項目を検討することの方が解析にむいていると言える。
1点目は、NDBデータの包括的な理解に時間を要する点である。NDBデータはそれを初めて扱う者には大変難解なデータ構造である。例えば、医科レセプトにはないレコードがDPCレセプトに存在することがある。それを知らずに解析を進めれば、結果について誤った解釈をしかねない。データ抽出の際には、それぞれのレセプト構造を理解した上で必要に応じて別々の適切な抽出条件を設けることが求められる。
2点目は、解析には多くの仮定が必要とされることが大半であるため、自らの設けた解析における仮定をよく検討し、それに伴う限界を事前に検討することが大切な点である。例えば、入院日や退院日の正確な把握は現段階では困難である。そこで、入院基本料の算定が途切れた日を退院日と仮定するなど、1つの解析を行うに際し多くの仮定を設定することが求められる。解析前に、仮定を設けたことによる限界について感度分析を行うなど、慎重な検討が大切である。
3点目として、結果の検証が困難である点が挙げられる。NDBデータは非常に大きなデータであり、解析に多くの専門的な知識を必要とする。またデータの大きさがゆえに使用できる解析ソフトも限られている。本来ならば、データ解析は2名以上のその分野を熟知したものによっておこなわれ、結果の一致度も確認されるべきものだが、現実的にそうならないことも多い。このため、検証が比較的容易な解析方法を考案することが解決策の1つである。言い換えると、多くの仮定をおく必要のある項目を解析し検討するよりも、比較的単純でわかりやすい項目を検討することの方が解析にむいていると言える。