10:00 〜 10:20
[3G1-OS-24a-04] 日常生活支援ロボットに向けた大規模視覚-言語モデルと進化的計算に基づく状態認識
キーワード:大規模視覚-言語モデル、ロボティクス、日常生活
日常生活支援を行うロボットには, 物体や環境の多様な状態認識が必要である. 大抵の場合, これらはポイントクラウドの処理やアノテーションデータに基づく機械学習, 専用のセンサを使って行われる. これに対して本研究では, 大規模なデータセットから学習された視覚-言語モデルにおけるVisual Question Answering (VQA)を応用した状態認識を行う. VQAを用いることで, 言語による直感的な状態認識記述が可能である. 一方, 同じ認識すべき状態についても, 言語による質問形式は様々な方法考えられ, その質問ごとに状態認識の性能は異なる. そこで本研究では, VQAを用いた状態認識の性能を向上させるため, 遺伝的アルゴリズムによる適切な質問文の組み合わせの探索を行う. これにより, 冷蔵庫ドアの開閉やディスプレイのオンオフだけでなく, 認識の難しい透明なドアの開閉や水の状態認識が, 高い精度で実現でき, ロボットの多様な認識行動が可能となることを示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。