15:00 〜 15:20
[1H4-OS-17a-03] Vision Transformer と BERT を用いた漫画のマルチモーダル識別
キーワード:ViT、BERT、創作物理解、コミック工学、マルチモーダル
深層学習の発展を背景として,人工知能 ( AI ) による小説,イラストの自動生成といった分野の研究が盛んである. しかし, 創作の理解は高次の知的作業であり計算機による理解は困難な課題である. 本研究では人間の創作物の中でも代表的なマルチモーダルな創作物である漫画を扱う. 漫画は絵と字から構成されるため, 画像処理としての側面と自然言語処理としての側面を持っている. よって本研究では漫画の画像とセリフの分散表現を用いた識別問題を解くことで,画像と自然言語を結びつけて,AIに理解させることを目的とする.
画像の分散表現化の手法には Vision Transformer ( ViT ) を用い,自然言語の分散表現化には Bidirectional encoder representations from transformers(BERT) を用いた. それぞれから得られた分散表現を組み合わせて識別器に入れることで作品識別した.
結果として Vision Transformer のみを用いた画像識別,BERT のみを用いた自然言語処理の両方の結果を上回る高精度な結果が得られた.
画像の分散表現化の手法には Vision Transformer ( ViT ) を用い,自然言語の分散表現化には Bidirectional encoder representations from transformers(BERT) を用いた. それぞれから得られた分散表現を組み合わせて識別器に入れることで作品識別した.
結果として Vision Transformer のみを用いた画像識別,BERT のみを用いた自然言語処理の両方の結果を上回る高精度な結果が得られた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。