オーガナイズドセッション

オーガナイザ: 菅沼 雅徳 氏
(東北大学大学院 情報科学研究科)
概要: 深層学習技術や計算機環境の飛躍的な進展のおかげで、単一のモダリティだけでなく、複数のモダリティのデータを統合的に扱うマルチモーダル情報処理が近年急速に発展しています。 例えば、画像と自然言語、画像と音声、画像と様々なメタデータなど、数多くの応用があります。 本セッションでは、マルチモーダル情報処理に精通しておられる先生方をお招きし、マルチモーダル情報処理の最先端技術ならびに今後の展望について解説していただきます。
講演

マルチモーダルだからこそわかること
~マルチモーダルで人の感性を紐解く~
登壇者:山崎 俊彦 氏
(東京大学大学院 情報理工学系研究科)
概要:あの心に残るテレビCMは、映像が綺麗だからであろうか、流れる音楽が印象的だからだろうか、はたまたキャッチコピーが感動的だからだろうか、それとも今をときめく好感度タレントのお陰だろうか。これらは別個に分析するべきものではなく、マルチモーダルなモデルを用いてこそ様々な分析が可能になり、また精度良く人が受ける印象等の予測も可能となる。本講演では我々が行っている取り組みをいくつか紹介する。

グラフィックデザインとマルチモーダル処理
登壇者:山口 光太 氏
(株式会社サイバーエージェント)
概要:本講演ではサイバーエージェントが取り組むグラフィックデザインのための機械学習の研究について紹介します。グラフィックデザインは画像であると同時にレイアウトやタイポグラフィのような特有のマルチモーダル構造を持ったドキュメントデータとして見ることができます。レイアウトの生成、デザイン工程のモデリング、Webページの自動彩色など最近の研究事例をマルチモーダル処理の視点から解説します。

GPT-4とVision-and-Languageの未来
登壇者:西田 京介 氏
(NTT人間情報研究所)
概要:大規模言語モデル(LLM)の発展、中でもOpenAIによって発表されたChatGPT、そしてGPT-4によりVision-and-Languageの分野は大きく発展し、世間から大きな関心を集めている。本講演では、LLMをベースとしたVision-and-Language研究の動向を紹介した後に、講演時点で明らかになっているGPT-4に関する情報を共有し、今後の展望について議論したい。

オーガナイザ: 井手 一郎 氏
(名古屋大学大学院 情報学研究科)
概要: 近年、コンピュータビジョン及び画像認識技術が高度化するに伴って、様々な形で我々が安全・安心に暮らしていくための実用技術が普及しつつあります。本セッションでは、その中でも健康、見守り、都市基盤という3つの大きなトピックについて、最先端で活躍されている若手研究者にご紹介いただきます。
講演

医療支援における画像処理研究の動向と展望
登壇者:小田 昌宏 氏
(名古屋大学情報連携推進本部情報戦略室 /
名古屋大学大学院情報学研究科)
概要:高齢化による患者数増加や新興感染症の発生などで医療現場の負担が増加している。医師の負担軽減と患者に提供される医療の質の向上を目指し、コンピュータによる医療支援の研究開発が活発に行われている。近年では画像処理技術の発展に後押しされ、医用画像処理を用いた診断支援や治療支援システムが多数登場している。本講演では、COVID-19診断支援、大腸内視鏡診断支援、外科手術支援などの最新の事例紹介を行うと共に、データドリブンな画像処理技術が主流となった現在、大規模データ収集が難しい医療における研究開発の今後の展望を述べる。

安全見守りを支える人物行動理解技術と応用事例
登壇者:劉 健全 氏
(NECビジュアルインテリジェンス研究所)
概要:本講演では、映像から人や行動を捉えて理解し、実世界とデジタル社会を繋ぎ、安全見守りを支える人物行動理解に関する最先端の技術と応用事例を紹介する。具体的には、大量な映像データから人々の行動パターンをうまく抽出し、定量化を行い、特定の人や行動を如何に高速かつ高精度で検出・検索する複数の技術を紹介する。そしてこれらの技術はどうやって安全見守りを支えているかに関する応用事例を併せて紹介する。最後に、人物行動理解技術に関して今後の展望を述べる。

WovenCityに向けたVision AIプラットフォームの開発
登壇者:小堀 訓成 氏
(Woven by Toyota Inc.)
概要:WovenCityは自動運転技術やロボット、AIなどを検証するテストコースの街である。 防犯用途で使用するカメラは、都市の交通安全のサポートや空間の活用理解など、幅広い応用が期待できる。 大規模な数のカメラ映像を入力に、AIを実装できる基盤ソフトウェアの開発しており、 その応用として、グラフデータベースを活用したオンラインでの人の動線理解、AIを活用した警備業務の省人化の取り組み、 Human in the loopによる価値あるデータ収集など、Computer visionとAIの開発事例を紹介する。
オーガナイザ: 金崎 朝子 氏
(東京工業大学 情報理工学院)
概要: 経路計画、ナビゲーション、マニピュレーションといった様々なロボット分野のタスクは、コンピュータビジョン技術と機械学習の導入により近年飛躍的に発展しています。 本セッションでは、コンピュータビジョン技術に基づくデータ拡張や表現学習、マルチエージェント学習、Embodied AI等の分野の専門家をお招きし、ロボットタスクにおける高度な自律性と汎用性を実現するための最新技術や動向について学びます。
講演

マルチエージェント経路計画の基礎と最新動向
登壇者:奥村 圭祐 氏
(産業技術総合研究所 / ケンブリッジ大学)
概要:マルチエージェント経路計画(Multi-Agent Path Finding; MAPF)とはグラフ上のエージェント群に衝突のない経路を割当てるプランニング問題であり、ファクトリーオートメーションを始め多方面に魅力的な応用がある。本講演ではその基礎と応用について解説する。加えて、データ駆動型のアプローチを取入れることで、経路計画を効率化できる可能性について議論する。

三次元データを用いた学習技術
~ロボット応用にむけて~
登壇者:吉安 祐介 氏
(産業技術総合研究所)
概要:深層学習の発展により、画像認識においてAIは人間を上回る性能を発揮するようになった。最近では、ChatGPTやDALL-Eなどの対話型AIが人間に近い自然な回答を生成することで大きな注目を集めている。一方、ロボットのように現実空間で作業する場合、周囲のものや環境を立体的(三次元的)に認識し身体を使って行動する必要が生じる。本講演では、ロボット技術への応用に向けた取り組みとして、三次元データを用いたナビゲーション行動学習技術や物体認識技術を紹介する。

経験拡張:ロボット学習における仮想経験の生成と応用
登壇者:堂前 幸康 氏
(産業技術総合研究所 / 大阪大学 / NAIST)
概要:外界情報をもとに行動学習するロボットにおいて、視覚的経験の獲得は重要な課題です。近年の研究により仮想的な視覚データを容易に生成できるようになりつつあります。しかしこれを行動学習のための「経験」とするにはいくつかのギャップがあり、様々なアプローチが研究されています。画像の技術者・研究者にとって馴染み深いデータ拡張や環境乱択化から、現実では得難い経験を活用する方法論などを概観するとともに、マニピュレーションやクロスモダリティ獲得への応用事例を紹介します。