2022年度 人工知能学会全国大会(第36回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-19 世界モデルと知能

[2M1-OS-19a] 世界モデルと知能(1/4)

2022年6月15日(水) 09:00 〜 10:40 M会場 (Room B-2)

オーガナイザ:鈴木 雅大(東京大学)、岩澤 有祐(東京大学)[現地]、河野 慎(東京大学)、熊谷 亘(東京大学)、森 友亮(スクウェア・エニックス)、松尾 豊(東京大学)

09:40 〜 10:00

[2M1-OS-19a-03] マルチモーダルデータから共通・個別潜在表現を抽出する深層生成モデル

〇楠本 海斗1、村田 真悟1 (1. 慶應義塾大学)

キーワード:深層生成モデル、マルチモーダル、変分自己符号化器、共通個別潜在表現

画像や音声といった非時系列・時系列のマルチモーダルデータから潜在表現の抽出や生成に関する学習が出来れば,モダリティ間に共通する構造の理解やモダリティ間の変換が可能になる.本研究は特に,深層生成モデルを用いたマルチモーダルデータの潜在表現抽出に関する方法論の確立を目指す.特定モダリティのデータは低次元の潜在表現を有すると考えられるが,別のモダリティとその表現全てを共有可能であるとは限らない.そこで本研究では,モダリティ間に共通・個別の潜在表現が存在すると仮定し,それらを分離抽出可能なマルチモーダル深層生成モデルの構築及び人工データを用いた評価実験を実施した.  2種類のモダリティを想定し,評価実験のデータとして,アルファベット文字の背景色を変化させた背景色付き画像(非時系列データ)と,文字の軌跡の速度を変化させた速度変更ストローク(時系列データ)のペアを用意した.  学習後の各潜在空間を可視化したところ,両モダリティ間の共通表現として文字ラベルが,個別表現としてそれぞれ,背景色情報と速度情報が分離抽出されていることを確認した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード