09:00 〜 10:40
[4Pin1-48] Twitter URL Paraphrase Corpusに基づく要約データセットの構築
キーワード:要約、パラフレーズ、データセット、ツイッター、自然言語処理
要約の目的とは, 元の文章の意味を捉えたまま, 圧縮された形にして新たに文章を生み出すことである. 大半の要約システムは, ニュース記事を用いたデータセットに基づいて, 開発されている. しかし, ツイッターなどのソーシャルネットワーキングサービスがますます新たな情報源になりつつある中, こうしたSNSのための要約データセットは不足しており, 要約システムの応用を広げる上で, 一つの障害となっている. 本論では, Twitter URL Paraphrase Corpusを要約データセットに応用することで, この問題を解決することを提案する. データセット構築過程では, 重要なパラフレーズを選別し, 質の高いパラフレーズの数を増やす目的で, 教師付き学習により, パラフレーズ分類器と生成器を作成した. 実験においては, 分類器を量的評価により, 生成器を質的評価により, それぞれ評価する.