マルチモーダルモデルによる公共空間の行動認識

岡野 将大

18:10 〜 18:30

[2C6-GS-7-03] マルチモーダルモデルによる公共空間の行動認識

〇岡野将大¹、吉田龍人¹、藤井純一郎¹、高森秀司¹、天方匡純¹ (1. 八千代エンジニヤリング株式会社)

キーワード：マルチモーダルモデル、VQA、行動認識

スマートシティを推進する上で，公共空間における活動量や活動の質の評価が求められている。活動量の調査はAIによる省力化の研究が進められているが，質の調査に関する省力化の研究は端緒についたところである。公共空間の質的評価の省力化を目的として検討された従来研究のAIモデルは，①モデル作成コストが高い，②モデルの汎用性が低いという問題があり，十分な省力化には至らなかった。この問題を受けて，本研究ではマルチモーダルモデルを用いた公共空間の行動認識手法を提案する。マルチモーダルモデルとは複数のデータソースを統合しするよう学習したモデルであり，①モデル作成コストが0である，②モデルの汎用性が高いといった強みを持つ。マルチモーダルモデルの質的評価に関する性能を小規模な動画データによって定量評価することで，基盤モデルによる省力化の可能性を示す。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2C6-GS-7] 画像音声メディア処理：

[2C6-GS-7-03] マルチモーダルモデルによる公共空間の行動認識

パスワード