[3-F-3-OP24-2] 正規化処理を利用した臨床検査値単位とCDISC SDTMのマッピング
[背景及び目的]我々は、これまで、電子カルテデータを臨床研究において二次利用を促進するために、臨床検査値のデータをCDISC SDTM(Study Data Tabulation Model)に対応させる標準的な手法を探索してきた。SDTMのLBドメインに定義された45変数のうち、何らかの変換処理が必要な変数は12変数(27%)であった。そこで、本研究では臨床検査データをSDTMに対応付け(マッピング)する際の一致性及び問題点を明らかにするために、文字列の正規化処理を用いてマッピング手法を探索した。
[方法]香川大学医学部附属病院(以下、病院)の臨床検査マスターをUnicodeで定義されている互換合成を用いて正規化したのち、統計解析パッケージJMPを用いてSDTM Terminologyに対応した単位名をdice係数による一致度で評価した。フィージビリティ研究として後ろ向きに330例のデータ収集を計画し、収集可能であった225例(42,544レコード)を正規化とマッピング処理の調査に用いた。
[結果及び考察]
SDTM Terminologyより、Codelist Name=Unitで絞り込みを行ったところ、CDISC Submission Valueの変数から441種類の単位名を取得した。同様に病院臨床検査マスターから166種類の単位名が得られた。SDTM Terminologyと病院臨床検査マスターの単位名をマッチングさせたdice係数は、0.053であった。互換合成を施した後、単位名に関してSDTM Terminologyと病院臨床検査マスターとの一致を評価したところ、dice係数は0.075であった。Dice係数を低下させる要因に、「μ」の代わりに「u」を代替的に用いるなど、SDTM Terminology独自の仕様が見られた。臨床検査値データについて評価指標を算出中である。
[方法]香川大学医学部附属病院(以下、病院)の臨床検査マスターをUnicodeで定義されている互換合成を用いて正規化したのち、統計解析パッケージJMPを用いてSDTM Terminologyに対応した単位名をdice係数による一致度で評価した。フィージビリティ研究として後ろ向きに330例のデータ収集を計画し、収集可能であった225例(42,544レコード)を正規化とマッピング処理の調査に用いた。
[結果及び考察]
SDTM Terminologyより、Codelist Name=Unitで絞り込みを行ったところ、CDISC Submission Valueの変数から441種類の単位名を取得した。同様に病院臨床検査マスターから166種類の単位名が得られた。SDTM Terminologyと病院臨床検査マスターの単位名をマッチングさせたdice係数は、0.053であった。互換合成を施した後、単位名に関してSDTM Terminologyと病院臨床検査マスターとの一致を評価したところ、dice係数は0.075であった。Dice係数を低下させる要因に、「μ」の代わりに「u」を代替的に用いるなど、SDTM Terminology独自の仕様が見られた。臨床検査値データについて評価指標を算出中である。