[4Rin1-36] 自動拡張した参照応答に基づく雑談対話システムの自動評価
キーワード:自然言語処理、雑談対話、評価手法
雑談では発話に対して多様な内容・表現の応答が可能であるが,実会話データを利用した雑談対話システムの評価では,利用できる参照応答は基本的に一応答のみであるため,応答の多様性を考慮した評価を行うことが困難である.
この問題を解消する半自動評価手法ΔBLEUでは,大規模対話データの利用して拡張した参照応答に,応答としての妥当性を人手で付与した妥当性付き拡張参照応答を用いて評価を行う.
しかし,人手による妥当性評価をオープンドメインな雑談応答生成タスクでの評価に足るだけの大規模評価データに対して行うことは現実的でない.
そこで本研究では,応答の意味的多様性を考慮するために参照応答の拡張方法を改良し,さらに複数応答を持つ発話から学習された分類器によって拡張参照応答に対する妥当性付与を自動で行うことで,既存手法ΔBLEUを自動化したΔBLEU-autoを提案する.
実験では複数の雑談対話システムに対する人手評価との相関により,提案手法の有効性を確認した.
また提案手法を既存の自動評価手法と組み合わせることで,自動評価手法として高い相関が得られることを確認した.
この問題を解消する半自動評価手法ΔBLEUでは,大規模対話データの利用して拡張した参照応答に,応答としての妥当性を人手で付与した妥当性付き拡張参照応答を用いて評価を行う.
しかし,人手による妥当性評価をオープンドメインな雑談応答生成タスクでの評価に足るだけの大規模評価データに対して行うことは現実的でない.
そこで本研究では,応答の意味的多様性を考慮するために参照応答の拡張方法を改良し,さらに複数応答を持つ発話から学習された分類器によって拡張参照応答に対する妥当性付与を自動で行うことで,既存手法ΔBLEUを自動化したΔBLEU-autoを提案する.
実験では複数の雑談対話システムに対する人手評価との相関により,提案手法の有効性を確認した.
また提案手法を既存の自動評価手法と組み合わせることで,自動評価手法として高い相関が得られることを確認した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。