Japan Association for Medical Informatics

[3-F-3-OP24-2] 正規化処理を利用した臨床検査値単位とCDISC SDTMのマッピング

西本 尚樹1, 田村 菜穂美2, 國方 淳1, 谷川原 綾子5, 赤堀 澄子3, 十河 智昭3, 谷 佑馬4, 横井 英人4 (1.香川大学医学部附属病院 臨床研究支援センター, 2.北海道大学 環境健康科学研究教育センター, 3.香川大学医学部附属病院 医療情報部, 4.香川大学 大学院医学研究科 医療情報学分野, 5.北海道科学大学 保健医療学部 診療放射線学科)

[背景及び目的]我々は、これまで、電子カルテデータを臨床研究において二次利用を促進するために、臨床検査値のデータをCDISC SDTM(Study Data Tabulation Model)に対応させる標準的な手法を探索してきた。SDTMのLBドメインに定義された45変数のうち、何らかの変換処理が必要な変数は12変数(27%)であった。そこで、本研究では臨床検査データをSDTMに対応付け(マッピング)する際の一致性及び問題点を明らかにするために、文字列の正規化処理を用いてマッピング手法を探索した。

[方法]香川大学医学部附属病院(以下、病院)の臨床検査マスターをUnicodeで定義されている互換合成を用いて正規化したのち、統計解析パッケージJMPを用いてSDTM Terminologyに対応した単位名をdice係数による一致度で評価した。フィージビリティ研究として後ろ向きに330例のデータ収集を計画し、収集可能であった225例(42,544レコード)を正規化とマッピング処理の調査に用いた。

[結果及び考察]

SDTM Terminologyより、Codelist Name=Unitで絞り込みを行ったところ、CDISC Submission Valueの変数から441種類の単位名を取得した。同様に病院臨床検査マスターから166種類の単位名が得られた。SDTM Terminologyと病院臨床検査マスターの単位名をマッチングさせたdice係数は、0.053であった。互換合成を施した後、単位名に関してSDTM Terminologyと病院臨床検査マスターとの一致を評価したところ、dice係数は0.075であった。Dice係数を低下させる要因に、「μ」の代わりに「u」を代替的に用いるなど、SDTM Terminology独自の仕様が見られた。臨床検査値データについて評価指標を算出中である。