2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[2C6-GS-7] 画像音声メディア処理:

2024年5月29日(水) 17:30 〜 19:10 C会場 (イベントホール仮設1)

座長:寺下直行(株式会社日立製作所)

18:10 〜 18:30

[2C6-GS-7-03] マルチモーダルモデルによる公共空間の行動認識

〇岡野 将大1、吉田 龍人1、藤井 純一郎1、高森 秀司1、天方 匡純1 (1. 八千代エンジニヤリング株式会社)

キーワード:マルチモーダルモデル、VQA、行動認識

スマートシティを推進する上で,公共空間における活動量や活動の質の評価が求められている。活動量の調査はAIによる省力化の研究が進められているが,質の調査に関する省力化の研究は端緒についたところである。公共空間の質的評価の省力化を目的として検討された従来研究のAIモデルは,①モデル作成コストが高い,②モデルの汎用性が低いという問題があり,十分な省力化には至らなかった。この問題を受けて,本研究ではマルチモーダルモデルを用いた公共空間の行動認識手法を提案する。マルチモーダルモデルとは複数のデータソースを統合しするよう学習したモデルであり,①モデル作成コストが0である,②モデルの汎用性が高いといった強みを持つ。マルチモーダルモデルの質的評価に関する性能を小規模な動画データによって定量評価することで,基盤モデルによる省力化の可能性を示す。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード