[3-H-4-01] 臨床検査マスターによる施設固有コードの標準化と評価
standard code, JLAC10, automatic conversion of house code, Standardization
【緒言】医療機関における臨床検査項目の施設固有コードを標準コードJLAC10に対応づける作業は困難なプロセスであり、多くの時間が必要である。そのため、自動マッピング手法を開発し提供できれば、精度が100%でなくても効率的作業を支援することができる。【目的】 MID-NET事業のJLAC10コード付き頻用検査項目318項目に、施設ごとにその施設固有コード項目を対応づけるアルゴリズムを開発し、その精度を評価する。
【方法と材料】頻用検査マスター項目の標準名称や辞書拡張した語の組み合わせからなる標準項目名称関連情報と、20施設分の施設ごとの分析物、材料、結果識別単位、同義語、重視語を組み合わせた施設固有検査名文字列とを、比較除外語を辞書化し、新たな文字列類似度アルゴリズムを作成して、その類似度を求めた。次に、標準項目ごとに、その平均値である総合類似度の上位5位までの施設固有項目レコードを抽出するアルゴリズムを作成した。評価は、施設ごとのローカル分析物コードでグルーピングし、筆者自身が目視でその妥当性を確認し、マッチング成否を判定した。
結果:マッチング成功率は最低89.9%、最高95.9%、施設平均で93.2%であった。総合類似度に0.9259の閾値を設定した場合に、その閾値以上を人手による確認が不要とみなした場合の成否率は、最低34.3%、最高63.8%、平均で51.7%であった。これは、もともとマッチング項目が存在しない標準項目を施設ごとに除くと、最低56.3%、最高84.6%、平均で72.6%となった。【考察】人手での確認が不要な項目を80%程度に維持できれば、省力化につながる。施設固有の比較除外辞書などを追加すれば、精度を向上することが期待できる。他の複数施設についても同様に評価して、アルゴリズムの改善を行い、標準コードへのマッピング作業の効率化につなげたい。
【方法と材料】頻用検査マスター項目の標準名称や辞書拡張した語の組み合わせからなる標準項目名称関連情報と、20施設分の施設ごとの分析物、材料、結果識別単位、同義語、重視語を組み合わせた施設固有検査名文字列とを、比較除外語を辞書化し、新たな文字列類似度アルゴリズムを作成して、その類似度を求めた。次に、標準項目ごとに、その平均値である総合類似度の上位5位までの施設固有項目レコードを抽出するアルゴリズムを作成した。評価は、施設ごとのローカル分析物コードでグルーピングし、筆者自身が目視でその妥当性を確認し、マッチング成否を判定した。
結果:マッチング成功率は最低89.9%、最高95.9%、施設平均で93.2%であった。総合類似度に0.9259の閾値を設定した場合に、その閾値以上を人手による確認が不要とみなした場合の成否率は、最低34.3%、最高63.8%、平均で51.7%であった。これは、もともとマッチング項目が存在しない標準項目を施設ごとに除くと、最低56.3%、最高84.6%、平均で72.6%となった。【考察】人手での確認が不要な項目を80%程度に維持できれば、省力化につながる。施設固有の比較除外辞書などを追加すれば、精度を向上することが期待できる。他の複数施設についても同様に評価して、アルゴリズムの改善を行い、標準コードへのマッピング作業の効率化につなげたい。