2023年度 人工知能学会全国大会(第37回)

講演情報

一般セッション

一般セッション » GS-6 言語メディア処理

[1E4-GS-6] 言語メディア処理

2023年6月6日(火) 15:00 〜 16:40 E会場 (大会議室 A2)

座長:長谷川 拓(NTT) [現地]

15:00 〜 15:20

[1E4-GS-6-01] モデル検査と知識補完を用いた数量表現に関するマルチモーダル推論

〇五百川 展行1、谷中 瞳1 (1. 東京大学)

キーワード:自然言語推論、マルチモーダル推論、数量理解、モデル検査

近年,異なるモダリティ間での推論が盛んに研究されている.本研究では,マルチモーダル推論の重要なタスクの一つであるVisual-Textual Entailment (VTE)を対象とする.VTEは画像と文章との間の含意関係を認識するタスクである.VTEタスクを解く手法として,深層学習を使った様々な手法が提案されているが,それらは数量を正確に扱うことに課題がある.一方で,論理推論に基づく手法では数量を頑健に扱えるが,既存手法では自動定理証明器を用いており,大きな数量を伴う推論を行う際に高い計算コストが必要となる.そこで,本論文ではモデル検査と知識補完を用いたVTEシステムを提案する.提案手法では,まず画像と文を一階述語論理のモデルと論理式にそれぞれ変換する.そして,必要な知識を補完して画像のモデルに対して文の論理式の真偽をモデル検査で判定し,論理推論を行う.また,提案手法の性能を評価するために,数量や否定を含むVTEタスクの評価データセットを構築する.このデータセットを用いて,提案手法が従来の手法よりも数量や否定を含むVTEタスクを頑健に解けることを示す.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード