[4Yin2-17] 文間意味的類似度のベンチマークタスクと実応用タスクの乖離
キーワード:意味的類似度、データセット、ベンチマーク
Semantic Textual Similarity (文間意味的類似度タスク) は,機械翻訳の評価や関連文書検索などの後段タスクにおいて必要な「2文間の類似度を評価する」能力を測るタスクであり,このタスクのためのベンチマークデータセットでの精度を元に,2文間の類似度を測定するシステムの良し悪しが議論されている.しかし,このベンチマークデータセットによって高評価を得たシステムが,実際の応用タスク中でも高評価を出すとは限らない.本研究では,このSTSと後段タスクの評価ギャップの要因を突き止めるための分析を行い,結果データセット間の文長ギャップが評価ギャップの一因となっていることを突き止めた.この結果を元に,適切なベンチマークデータに改善するための方針について議論する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。