日本語医療テキスト平易化の訓練用データセットの構築

堀口 航輝

10:00 〜 10:20

[3S1-OS-7b-04] 日本語医療テキスト平易化の訓練用データセットの構築

〇堀口航輝¹、梶原智之¹、二宮崇¹、若宮翔子²、荒牧英治² (1. 愛媛大学、2. 奈良先端科学技術大学院大学)

キーワード：医療言語処理、テキスト平易化、パラレルコーパスマイニング

本研究では、医療用語を患者が理解しやすい表現に言い換える日本語の医療テキスト平易化に取り組む。医師によって記述される医療文書には専門用語が多く含まれるため、非専門家である患者はその情報を有効活用できない場合が多い。そのため、医療用語を用いずに入力文を言い換える医療テキスト平易化が期待されている。本研究では、日本語における医療テキスト平易化の少資源問題に対処するために、医療テキスト平易化モデルの訓練用パラレルコーパスを構築する。具体的には、オンライン医学辞典における専門家向けおよび一般向けの記事対の中で自動的な文アライメントを実施し、医療テキスト平易化のためのパラレルコーパスを自動収集する。本稿では、コーパス構築の方法について説明するとともに、本コーパスを用いて訓練した日本語の医療テキスト平易化モデルの性能について報告する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3S1-OS-7b] 医歯薬学・生命科学の革新を目指した言語処理

[3S1-OS-7b-04] 日本語医療テキスト平易化の訓練用データセットの構築

パスワード