18:00 〜 18:20
[3N6-GS-7-02] 自動車組立作業映像におけるVision and Language基盤モデルを利用した行動解析に関する基礎検討
[[オンライン]]
キーワード:マルチモーダル基盤モデル、行動解析、時系列行動セグメンテーション、自然言語処理、動画像処理
作業手順の遵守状況の把握や各作業時間の計測の自動化を目的として,自動車製造における作業員の行動解析に対する要望が高まっている.先行研究で提案された,行動解析を行うための深層ニューラルネットワークを教師あり学習により訓練するためには,映像を構成するフレーム単位のラベルが必要となり,教師データの不足が問題となる.一方で近年,画像と言語で共通する埋込みを大規模事前学習によって獲得する視覚言語モデル(Vision and Language Model: VLM)が基盤モデルの一種として注目を集めている.VLMの活用により,従来は大量の教師ラベル付き訓練データが必要とされていた領域においても,より効率的なモデル構築が可能となりつつある.このため本研究では,代表的なVLMの1つであるCLIP(Contrastive Language-Image Pre-training)を自動車組立映像の行動解析に適用し,言語モダリティを活用した学習手法を提案する.特に,言語モダリティの活用をすることにより,少量の教師付き訓練データでのモデルを構築が可能であるかを検証する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。