15:40 〜 16:00
[3D5-OS-22b-01] 分散表現に基づく漫画の画像と台詞の対応識別
キーワード:コミック工学、マルチモーダル解析、畳み込みオートエンコーダ
人工知能(AI)に漫画や小説,音楽といった人間の創作物を理解させる研究が盛んである.しかしながら創作行為は高度な知的作業であるため依然として難しいタスクである.本研究では人間の創作物の中でも特に4コマ漫画を扱い,AIに理解させることを目的とする.同分野では日々画像処理や自然言語モデルを用いた多くの研究がなされているが,画像と自然言語をマルチモーダルに用いた研究は数が少ないのが現状である.よって本研究では漫画のコマ画像とセリフの分散表現を用いたマッチング問題を解くことで,画像と自然言語を結びつける研究の可能性を考察する.画像の分散表現化の手法には畳み込みオートエンコーダモデルを用い,自然言語の分散表現化には Bidirectional encoder representations from transformers(BERT) を用いる.また,学習した機械学習モデルをテスト画像に適用しセリフのマッチング問題を解くことでマルチモーダルデータを用いた研究の可能性を確認する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。