[4-L-1-PP16-1] 分散意味表現を利用したUMLSの概念と日本語の医学用語間のマッピングの試み
統合医学用語システム(UMLS: Unified Medical Language System)は各情報源から電子化された生物医学情報を統合するシステムの開発支援を意図して設計された、メタシソーラス、語義ネットワーク、情報源マップ、SPECIALIST辞書よりなる知識ソースである。以来、Watsonに代表されるように医療情報を機械学習に取り込むための有力なツールとして活用されている。我が国でもUMLSの邦訳が試みられているが、その成果は継続性のある形で公開されていない。UMLSに収録されている概念の数は膨大であり、かつ継続的にアップデートしている。また翻訳は単なる表記上のマッチングのみならず、ドメイン固有の利用状況も踏まえる必要があるため、ドメインエキスパートの参加が不可欠である。日本語の医学用語をUMLSの概念に自動的にマッピングする手法を開発し、工数削減に貢献することを目標とした。各種ソースから英語-日本語のペアを抽出し、英和辞書を構築する。英和辞書に収録した日本語の用語は形態素解析の辞書にも取り込む。電子カルテの診療禄を形態素解析し、その結果をニューラルネットワークにかけて各単語の分散意味表現としての多次元ベクトルを獲得する。UMLSの概念に割り当てられた英語の代表的表記にマッチする英単語に対応する日本語の単語群を英和辞書から抽出する。その単語群を分散意味表現に置き換え、アウトライヤー処理し、重心となるベクトルを算出する。さらにそのベクトルに最も距離が近い分散表現を持つ単語を当該概念の「訳語」の候補として、アウトライヤー処理にて除外されなかった単語を当該概念の「同義語」とし、かつ同義語として提示したもののうち、編集距離が一定距離内にあるものを「異表記」候補として提示した。サンプリングした概念を検証した結果、機械的に英和の単語ベースでマッチングするよりも精度の高いマッピングが確認された。