2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[4N2-GS-7] 画像音声メディア処理:

2025年5月30日(金) 12:00 〜 13:40 N会場 (会議室1009)

座長:金子 敏充(東芝)

13:20 〜 13:40

[4N2-GS-7-05] 深度情報を用いた画像識別における解釈性向上に関する一考察

〇更家 崚介1、清水 良太郎1、後藤 正幸1 (1. 早稲田大学)

キーワード:トランスフォーマー、深層学習、画像認識、深度データ、説明可能AI

デバイス技術の進化により,取り扱うデータの量,種類ともに増加の一途にあり,画像や言語,三次元情報など,異なるモダリティ(データ形式)を統合的に扱えるマルチモーダルモデルの重要性が増している.VisionTransformer(ViT)はコンピュータビジョン分野において基盤モデルとして確立されており,特に,RGB情報とその深度の情報(Depth)を併せたデータであるRGB-Dデータを扱うために,エンコーダ出力を融合させたViTなどが提案されている.RGB-Dデータを用いた予測モデルは自動運転や拡張現実といった応用領域で需要が高まっている一方で,従来手法では異なるモダリティに対して一貫した解釈が要求される場面において課題が残る.例えば自動運転において歩行者を識別するとき,深度エンコーダが歩行者に注目している一方で,RGBエンコーダが歩行者にほとんど注目していないなど,モダリティ間で注目箇所の矛盾が生じるとき,モデルの解釈・信頼性が失われるだけでなく,誤分類や不安定性の原因になる.本研究ではモダリティ間で注目箇所の矛盾を軽減し,解釈の一貫性を担保するモデルを提案する.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード