14:20 〜 14:40
[1Q3-GS-11-04] Cross-modal BERT : Self-Attentionによるマルチモーダル情報表現の獲得と相互予測
キーワード:マルチモーダル情報処理、Self-Attention、コミュニケーション、記号創発ロボティクス、自然言語処理
人間は複数の感覚情報を利用することによって,1つの感覚情報よりも正確で抽象度の高い情報表現を得ることができる.とりわけコミュニケーションにおいてこの情報表現は重要となる.コミュニケーションでは,話し手が自らの感覚器官により観測した情報を言語化して表現する一方で,聞き手は話し手から得た言語情報を自らの感覚器官で得られる情報へと変換することで話し手の言葉を理解する.このように情報は双方向にやり取りされるため,マルチモーダル情報を単方向に予測するだけでは不十分であり,双方向に予測可能でなければならない.
本研究ではBERTを用いて物体画像と言語情報を相互に予測可能なモデルを提案する.提案モデルの有用性を検証するためにクロスモーダル情報予測とマルチモーダル情報の分類タスクを行った.結果として,マルチモーダル情報表現を獲得し,物体画像と言語情報に関するクロスモーダル情報予測が可能なことを示した.また,マルチモーダル情報を利用することで,単モダリティのみを利用した場合よりも分類精度が向上することを示した.
本研究ではBERTを用いて物体画像と言語情報を相互に予測可能なモデルを提案する.提案モデルの有用性を検証するためにクロスモーダル情報予測とマルチモーダル情報の分類タスクを行った.結果として,マルチモーダル情報表現を獲得し,物体画像と言語情報に関するクロスモーダル情報予測が可能なことを示した.また,マルチモーダル情報を利用することで,単モダリティのみを利用した場合よりも分類精度が向上することを示した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。