ニューラル機械翻訳による公的文書平易化

丸山 拓海

10:30 〜 12:10

[3Rin2-41] ニューラル機械翻訳による公的文書平易化

〇丸山拓海¹、山本和英¹ (1. 長岡技術科学大学)

キーワード：テキスト平易化

我々は公的文書を対象に平易化を試みた。公的文書とは、市役所や病院、学校等の公共施設で配布される文書であり、生活する上で重要な情報を多く含んでいる。しかし、日本語初学者が学習する文に比べ、難解な語彙や公的文書に出現する固有の表現も含み、理解が困難であるため、平易化が必要な文書である。本研究では、約40名の日本語教師がが公的文書の日本語を逐語訳、意訳、要約の3段階の「やさしい日本語」に書き換えたものをコーパスとし、機械翻訳的なアプローチにより、文単位の平易化を行った。また、学習済みの単語ベクトルの使用やエンコーダの単語埋め込みとデコーダの入出力の単語埋め込み層の共有を行い、モデル側で学習データの不足を補うことを試みた。結果として、Transformerに学習済みの単語ベクトルやエンコーダの単語埋め込みとデコーダの入出力の単語埋め込み層の共有を利用することにより、小規模な学習データであっても適切に平易化できることを示した。学習済みベクトルや単語埋め込み層の共有による性能改善は、Transformerにおいて、学習データの拡張によってさらなる改善が可能であることを示している。

講演情報

[3Rin2] インタラクティブセッション１

[3Rin2-41] ニューラル機械翻訳による公的文書平易化