17:00 〜 17:20
[3Q5-GS-8-05] 大規模言語モデルを用いたシーン固有の共起情報の抽出とロボットによるシーン理解への応用
キーワード:大規模言語モデル、シーン理解、シーングラフ
ロボットが動作空間で適切に行動するには、特定の場面に即した物体間の関係性を理解することが重要である。
これは、物体同士の配置や関連性がその場面における機能や用途を決定づけるためである。
このような関係性を正確に把握することで、ロボットはシーンの意図を理解し、適切なタスクを計画・実行することが可能になる。
本研究では、場面特化型の共起情報を大規模言語モデル(LLM)から抽出する手法を提案する。
LLMは広範な共起知識を提供するが、特定の場面で精度が低下するため現場に合わせた追加学習をする必要がある。
本手法では、物体Aと物体Bの共起情報を出力する際に、それぞれの近接物体の情報を同時に入力することにより物体配置に基づくシーン固有の共起情報の抽出を行う。
このアプローチにより、特定のシーンや環境に適した共起情報を追加学習なしに生成することを目指している。
物体の集合が形成する機能的な関係性を強調することで、シーン理解などの応用において高い有効性を発揮することを示す。
これは、物体同士の配置や関連性がその場面における機能や用途を決定づけるためである。
このような関係性を正確に把握することで、ロボットはシーンの意図を理解し、適切なタスクを計画・実行することが可能になる。
本研究では、場面特化型の共起情報を大規模言語モデル(LLM)から抽出する手法を提案する。
LLMは広範な共起知識を提供するが、特定の場面で精度が低下するため現場に合わせた追加学習をする必要がある。
本手法では、物体Aと物体Bの共起情報を出力する際に、それぞれの近接物体の情報を同時に入力することにより物体配置に基づくシーン固有の共起情報の抽出を行う。
このアプローチにより、特定のシーンや環境に適した共起情報を追加学習なしに生成することを目指している。
物体の集合が形成する機能的な関係性を強調することで、シーン理解などの応用において高い有効性を発揮することを示す。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。