[2Win5-83] 物体追跡モデルとVideo-LLMの協調利用に基づくタイヤ点検の動作認識に関する検討
キーワード:産業応用、物体追跡、大規模言語モデル、Video-LLM、詳細な動画キャプショニング
タイヤ点検業務では,異常があるタイヤを確実に検出するため,専門家による目視および指触確認を実施している.高い専門性を要するタイヤ点検過程においては,タイヤの各部位に対し複数の点検項目が存在し,それらを正確に実施することが重要であることから,タイヤ点検の動作認識を行う必要性が生じている.本論文では,タイヤ点検業務の円滑な遂行の支援を目的として,物体追跡モデルとVideo-LLMの協調利用に基づくタイヤ点検の動作認識手法の提案を行う.映像の各セグメントに対し詳細なキャプションを与えるDense Video Captioning技術は,Video-LLMの登場により発展しているが,映像内の詳細な動作に着目し,専門的な認識を行うことは困難であった.そこで,本手法では,点検動作認識に重要な物体を,物体追跡モデルに基づき映像からクロッピングする機構を導入することにより,映像内の特定の物体の詳細なキャプションをVideo-LLMが捉えることを可能とする.その後,複数物体のキャプションを統合し,タイヤ点検の動作認識を実現する.実際のタイヤ点検映像を用いた実験により,本手法の有効性を定量的に示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。