日常生活支援ロボットに向けた大規模視覚-言語モデルと進化的計算に基づく状態認識

河原塚 健人

10:00 〜 10:20

[3G1-OS-24a-04] 日常生活支援ロボットに向けた大規模視覚-言語モデルと進化的計算に基づく状態認識

〇河原塚健人¹、大日方慶樹¹、金沢直晃¹、岡田慧¹、稲葉雅幸¹ (1. 東京大学)

キーワード：大規模視覚-言語モデル、ロボティクス、日常生活

日常生活支援を行うロボットには, 物体や環境の多様な状態認識が必要である. 大抵の場合, これらはポイントクラウドの処理やアノテーションデータに基づく機械学習, 専用のセンサを使って行われる. これに対して本研究では, 大規模なデータセットから学習された視覚-言語モデルにおけるVisual Question Answering (VQA)を応用した状態認識を行う. VQAを用いることで, 言語による直感的な状態認識記述が可能である. 一方, 同じ認識すべき状態についても, 言語による質問形式は様々な方法考えられ, その質問ごとに状態認識の性能は異なる. そこで本研究では, VQAを用いた状態認識の性能を向上させるため, 遺伝的アルゴリズムによる適切な質問文の組み合わせの探索を行う. これにより, 冷蔵庫ドアの開閉やディスプレイのオンオフだけでなく, 認識の難しい透明なドアの開閉や水の状態認識が, 高い精度で実現でき, ロボットの多様な認識行動が可能となることを示す.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3G1-OS-24a] 日常生活知識とAI

[3G1-OS-24a-04] 日常生活支援ロボットに向けた大規模視覚-言語モデルと進化的計算に基づく状態認識

パスワード