[3-E-1-07] 死亡個票における「死亡の原因」欄の記載文字列の分析
Natural language processing, Vocabulary, death certificates
【背景】死亡診断書には死亡原因として、ア)直接死因、イ)アの原因、ウ)イの原因、エ)ウの原因、またこれらに影響を及ぼした傷病名等の5つの記入欄が用意されており、またそれぞれに対応する発症から死亡までの期間の記入欄がある。国の死亡統計ではこれらを元に決定した単独の原死因を用いるが、個票が研究利用可能となり、より詳細な分析が可能となった。その際、死亡原因の自由記載を病名コードに、期間を日数等に正規化する必要がある。
【目的】死亡診断書の悉皆データの原因・期間欄に対する自動正規化を実装して適用し、正規化処理の観点からこの自由記載データの特徴を明らかにする。
【方法】電子データとして利用可能な全データである平成15年から令和1年までの全死亡個票データを統計法に基づき申請し、材料とした。死亡原因の自動コーディングの実装として前処理および標準病名マスターから作成した辞書・万病辞書・追加の辞書による分割数最小法を、期間の自動正規化として有限状態機械を実装した。これを年ごとに材料に適用し、各辞書による病名のカバー率や期間表現を分析した。
【結果】17年分15725292件の個票データを用いた。各欄は必ずしも全てが記入されるわけではなく、「不詳」に該当する表現を削除すると65%前後が空欄であり、その割合は年とともに増える傾向にあった。実装した解析器を適用した結果、何らかの記入がある欄のうち9割前後から病名が抽出された。病名のうち、マスターに収載されているものが97%以上を占めていた。正規化に必要な情報は、原因欄・期間欄の文字列のみならず、死亡日・生年月日・備考欄が必要である場合があった。また、一つの欄に複数の原因・期間が記載されることがあるため、正規化処理中には原因欄と期間欄を同時に参照することが必要であった。
【目的】死亡診断書の悉皆データの原因・期間欄に対する自動正規化を実装して適用し、正規化処理の観点からこの自由記載データの特徴を明らかにする。
【方法】電子データとして利用可能な全データである平成15年から令和1年までの全死亡個票データを統計法に基づき申請し、材料とした。死亡原因の自動コーディングの実装として前処理および標準病名マスターから作成した辞書・万病辞書・追加の辞書による分割数最小法を、期間の自動正規化として有限状態機械を実装した。これを年ごとに材料に適用し、各辞書による病名のカバー率や期間表現を分析した。
【結果】17年分15725292件の個票データを用いた。各欄は必ずしも全てが記入されるわけではなく、「不詳」に該当する表現を削除すると65%前後が空欄であり、その割合は年とともに増える傾向にあった。実装した解析器を適用した結果、何らかの記入がある欄のうち9割前後から病名が抽出された。病名のうち、マスターに収載されているものが97%以上を占めていた。正規化に必要な情報は、原因欄・期間欄の文字列のみならず、死亡日・生年月日・備考欄が必要である場合があった。また、一つの欄に複数の原因・期間が記載されることがあるため、正規化処理中には原因欄と期間欄を同時に参照することが必要であった。