2018年度人工知能学会全国大会(第32回)

講演情報

インタラクティブ発表

一般セッション » インタラクティブ

[4Pin1] インタラクティブ(2)

2018年6月8日(金) 09:00 〜 10:40 P会場 (4F エメラルドロビー)

09:00 〜 10:40

[4Pin1-48] Twitter URL Paraphrase Corpusに基づく要約データセットの構築

〇永塚 光一1 (1. 創価大学)

キーワード:要約、パラフレーズ、データセット、ツイッター、自然言語処理

要約の目的とは, 元の文章の意味を捉えたまま, 圧縮された形にして新たに文章を生み出すことである. 大半の要約システムは, ニュース記事を用いたデータセットに基づいて, 開発されている. しかし, ツイッターなどのソーシャルネットワーキングサービスがますます新たな情報源になりつつある中, こうしたSNSのための要約データセットは不足しており, 要約システムの応用を広げる上で, 一つの障害となっている. 本論では, Twitter URL Paraphrase Corpusを要約データセットに応用することで, この問題を解決することを提案する. データセット構築過程では, 重要なパラフレーズを選別し, 質の高いパラフレーズの数を増やす目的で, 教師付き学習により, パラフレーズ分類器と生成器を作成した. 実験においては, 分類器を量的評価により, 生成器を質的評価により, それぞれ評価する.