JSAI2024

Presentation information

Proposed Session

Proposed Program » Proposed Student Session

[3G5-SS-1] Proposed Student Session

Thu. May 30, 2024 3:30 PM - 5:10 PM Room G (Room 22+23)

3:30 PM - 5:10 PM

[3G5-SS-1-01] Proposed Student Session

品川 政太朗1,2、増村 亮3、松嶋 達也4 (1. SB Intuitions、2. 奈良先端科学技術大学院大学、3. 日本電信電話株式会社 、4. 東京大学)

ハードウェア及びソフトウェアの進歩を背景に,深層学習モデルの発展は顕著であり,特に大規模事前学習済みモデルの進展は目覚ましいものとなっています.例えば,自然言語処理分野ではOpenAIのGPT-4やGoogleのGemini 1.5 Proが知られています.また,これと同時に,自然言語処理と画像,音声など複数のモダリティを統合した大規模事前学習済みモデルの研究も盛んに行われています.実際に,画像と自然言語を組み合わせたモデルにはGPT-4V,CLIP,Stable diffusion等があり,また,自然言語と音声を組み合わせたモデルとしてはWhisper等が挙げられます.
この進展により,研究を始めたばかりの学生たちにとっては,大規模事前学習済みモデルの性能は圧倒的に思え,既に未解決な問題など無いのではないかという無力感を感じるのではないでしょうか.一方で,以前できなかったことができるようになっているということはすなわち,これらのモデルが新たな研究機会を提供していることも事実です.そのため,重要なことは,大規模事前学習済みモデルの出現により何ができるようになったかを理解し,どのように捉えると問題解決に活かせるかを考えることであるのではないでしょうか.
このことから,本企画では,大規模事前学習済みモデルがマルチモダリティを扱う研究においてどのように活用できるか,また現時点での限界はどこにあるかについて探求します.具体的には,大規模事前学習モデルを用いてマルチモダリティを扱っている,異なる分野の3名の研究者をお招きし,招待講演及び対談を行っていただくことで,これらのモデルの応用範囲について深く掘り下げます.これによって,基盤モデルの進展がもたらす新たな視点を提供し,マルチモダリティ研究における研究テーマの発掘に貢献することを目指します.

Authentication for paper PDF access

A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password