2025年度 人工知能学会全国大会(第39回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-41 世界モデルと知能

[2B1-OS-41d] 世界モデルと知能

2025年5月28日(水) 09:00 〜 10:40 B会場 (小ホール)

オーガナイザ:鈴木 雅大(東京大学),岩澤 有祐(東京大学),河野 慎(東京大学),熊谷 亘(オムロンサイニックエックス),松嶋 達也(東京大学),Paavo Parmas(東京大学),谷口 尚平(東京大学)

09:40 〜 10:00

[2B1-OS-41d-03] 地理情報を考慮した3D都市ビジュアルプログラミング

〇安木 駿介1、宮西 大樹2,3、井上 中順4、栗田 修平5、坂本 滉也6,3、東 大地7、Lee Jungdae4、瀧 雅人1、松尾 豊2 (1. 立教大学、2. 東京大学、3. 国際電気通信基礎技術研究所、4. 東京科学大学、5. 国立情報学研究所、6. 京都大学、7. ソニーセミコンダクタソリューションズ)

キーワード:3Dガウシアンスプラッティング、ビジュアルプログラミング、マルチモーダル特徴量、地理的視覚タスク、コンテキスト内学習

我々は、都市規模の3Dシーンとの自然言語インタラクションを可能にするビジュアルプログラミングフレームワーク、GeoProg3Dを提案する。GeoProg3Dは、我々が紹介する2つの重要な技術を制御する: 地理情報を考慮した都市規模3D言語フィールド(GCLF)と地理的視覚API(GV-API)である。GCLFは言語フィールドを都市規模の3Dデータに拡張し、地理情報に基づいた正確なクエリを可能にする。GV-APIは、セグメンテーションや物体検出などの特殊な地理的視覚処理ツールを提供する。GeoProg3Dは、GCLFとGV-APIのコンポーネントを動的に組み合わせて実行可能なプログラムを構築し、正確な地理推論を実現する。さらに、我々は評価のためのデータセット、GeoEval3Dを紹介する。GeoEval3Dデータセットには、5つの難解な地理的視覚タスクに対する952のクエリと正解のペアが含まれている。実験の結果、GeoProg3Dは様々な地理的視覚タスクにおいて既存のモデルを凌駕することが示された。このフレームワークは、都市計画、災害対応、環境モニタリングなどの分野への応用が期待される。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード