14:20 〜 14:40
[4P3-OS-17c-02] 手書き指示を用いたロボット遠隔操作におけるVision-Language Modelベースのロボットタスク計画の導入
キーワード:生活支援ロボット、遠隔操作、Vision-language Model(VLM)
生活支援ロボットの社会実装は,高齢社会の労働力不足やQoL向上等の社会問題に対する重要な解決策である。日常生活でのロボット活用には,ユーザがいつでもどこでも簡単にロボットを操作できる遠隔操作システムが必要不可欠である。操作者にとって直感的な操作方法の一つに,画面上の任意の位置に自由に指示を描くことができる手書き入力がある。しかし,手書き線でロボットを操作するためには,その線の意味情報を汲み取り,ロボットへの指令に変換する必要がある。本稿では,近年発展著しいVision-Language Model(VLM)を用いて,手書き線で与えられた指示を推論する手法を提案する。提案手法において、VLMはタスクAPI,制約,出力例を含む事前情報と,手書き線を上書きした観測画像を受け取り、ローレベルタスクのコード配列を出力する。また,生成コードに手書き線のピクセル情報を引数として提供し,言語では難しい曖昧な位置,経路の指定を含めた遠隔操作を実現する。提案手法を用いて複数タスクで高い成功率を示す。また、10名のユーザ実験で従来の音声遠隔操作との比較を行い,提案手法の高いユーザビリティを示す。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。