2019年度 人工知能学会全国大会(第33回)

講演情報

一般セッション

一般セッション » [GS] J-9 自然言語処理・情報検索

[2L4-J-9] 自然言語処理・情報検索: 変換と生成

2019年6月5日(水) 15:20 〜 16:40 L会場 (203+204 小会議室)

座長:小林 一郎(お茶の水女子大学) 評者:岡嶋 穣(NEC)

15:40 〜 16:00

[2L4-J-9-02] 新聞記事データを用いたテキスト平易化

小藤 直紀1、〇難波 英嗣1、竹澤 寿幸1 (1. 広島市立大学)

キーワード:テキスト平易化、パラレルコーパス、対応付け

近年,テキスト平易化を同一言語内の翻訳問題と考え,機械翻訳の枠組みで入力文から平易な同義文を生成する研究が盛んに行われている.その代表的な手法に,難解なテキストと平易なテキストからなる大規模な単言語パラレルコーパスを用いたテキスト平易化が挙げられる.しかし,その多くは英語で作成された大規模パラレルコーパスを用いた手法である.そこで,本研究では毎日新聞と毎日小学生新聞の記事データをそれぞれ難解なテキスト,平易なテキストとして対応付けを行い,大規模パラレルコーパスを作成する.
本研究では,毎日新聞と毎日小学生新聞から構築されたパラレルコーパスによるテキスト平易化手法を提案した.パラレルコーパスの構築手順である記事単位の類似度判定実験ではTF-IDFによる評価結果がSCDVを用いた評価結果より優れた結果となり,文単位の類似度判定実験では.4つのアライメント手法のうちMaximum Alignmentによる評価結果が最も優れたか結果を示した,以上のアライメント手法により30,940文対からなる平易化のパラレルコーパスを構築した.