Japan Association for Medical Informatics

[4-F-1-03] 形態素解析が日本語医学BERTモデルに与える影響

*Shoya Wada1, Toshihiro Takeda1, Shiro Manabe1, Shozo Konishi1, Yasushi Matsumura1 (1. 大阪大学大学院医学系研究科医学専攻 情報統合医学講座医療情報学)

Natural Language Processing, Deep Learning, Data Mining


文脈に沿った単語分散表現の獲得を可能にするBidirectional Encoder Representations from Transformers (BERT)の発表後,医学領域に適合した英語BERTモデルが複数公開され、様々な医療自然言語処理タスクで精度向上に寄与したことが報告されている。我々は小規模医学コーパスと日本語Wikipediaコーパスを組み合わせて事前学習を行うことで、実用に足る日本語医学BERTモデルが構築可能であることをこれまでに報告した。
日本語の自然言語処理では、英語のように単語間にスペースがある言語と違い、形態素解析で適切な言語単位に単語分割した後に行う必要がある。日本語形態素解析には、意味処理には構文解析との連携に強いJUMAN、音声のことを考えた場合には最小単位で単語分割を行うunidic、情報抽出には固有表現が積極的に登録されているneologdを選択することが好ましいとされる。一般ドメインでは異なる形態素解析を適用したBERTモデルが京都大学、東北大学、情報通信研究機構などから公開され、タスクに応じた使い分けが報告されているが、日本語医学BERTモデルでは、そのような報告はまだない。
そこで我々は、医療系の自然言語処理タスクでBERTを用いる際に適した形態素解析について調査する。具体的には、まず医学教科書の記述から、① 記載されている文章から疾患領域の分類を行うマルチクラス文書分類タスク、②教科書に記述されている疾患名、症状、検査所見等を抽出する固有表現抽出タスクの2つを整備する。次に形態素解析に用いる辞書を切り替えてBERTの事前学習モデルをそれぞれ構築し、各々の精度を評価する。