09:00 〜 09:20
[4J1-GS-5-01] 自律エージェントのための大規模マルチモーダルモデルに基づく自動建築物構築フレームワーク
キーワード:自律エージェント、シミュレーション、マルチモーダル処理、コンピュータビジョン
近年,仮想環境で動作する大規模言語モデル(LLM)エージェントが発展している.しかし,Minecraft環境内の建築タスクにおいて,人間によるフィードバックを必要とするエージェントを必要とするものがあり,そのコストは膨大である. 本研究では,大規模マルチモーダルモデル(LMM)を用いて人間の介入なしに自動フィードバックを提供し,目標建築物の再現を可能にするフレームワークを提案する. 本フレームワークでは,エージェントが目標建築物と現状の画像をLMMに入力し,フィードバックを受け取って修正を繰り返す.フレームワークの性能を向上させる手法として(1)パーツ単位での認識,(2)過去の指示の再利用,(3)中間ステップの導入,(4)マルチエージェント化,(5)複数視点からの入力という改善を試みた.結果,(1)(2)(3)(4)では制度の向上が見られたが,(5)の導入には課題が残った.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。