15:00 〜 15:20
[4C3-GS-11-04] 多様な言語現象を考慮した多言語VTEベンチマークの提案
キーワード:多言語マルチモーダル推論、自然言語推論、マルチモーダルモデル
近年,画像や言語など複数のモダリティの情報を組み合わせて推論を行うマルチモーダルモデルが提案され,様々なマルチモーダル推論タスクにおいて高い性能を達成している.本研究ではそのようなタスクの一つである,画像と文の間の含意関係を予測するVisual-Textual Entailment(VTE)タスクに着目する.VTEタスクを解くには,画像内の情報と文の意味を理解し,それらを組み合わせて推論する必要があるため,VTEタスクはモデルのマルチモーダル推論能力を測るのに適している.マルチモーダルモデルが文に含まれる数量や否定のような言語現象をどの程度理解しているかや,英語以外の言語での推論能力については,まだ十分に評価されていない.そこで本研究では,言語現象に注目した2つの多言語VTEベンチマークを提案する.提案したベンチマークを用いて2つのマルチモーダルモデルを評価した結果,他の言語に比べて日本語の推論能力に特に課題があり,文に含まれる数量や否定の理解についても改善の余地があることが示された.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。