マルチモダリティ革命ー大規模事前学習済みモデルの新たな視点を探るー

品川 政太朗

15:30 〜 17:10

[3G5-SS-1-01] マルチモダリティ革命ー大規模事前学習済みモデルの新たな視点を探るー

品川政太朗^1,2、増村亮³、松嶋達也⁴ (1. SB Intuitions、2. 奈良先端科学技術大学院大学、3. 日本電信電話株式会社、4. 東京大学)

ハードウェア及びソフトウェアの進歩を背景に，深層学習モデルの発展は顕著であり，特に大規模事前学習済みモデルの進展は目覚ましいものとなっています．例えば，自然言語処理分野ではOpenAIのGPT-4やGoogleのGemini 1.5 Proが知られています．また，これと同時に，自然言語処理と画像，音声など複数のモダリティを統合した大規模事前学習済みモデルの研究も盛んに行われています．実際に，画像と自然言語を組み合わせたモデルにはGPT-4V，CLIP，Stable diffusion等があり，また，自然言語と音声を組み合わせたモデルとしてはWhisper等が挙げられます．
この進展により，研究を始めたばかりの学生たちにとっては，大規模事前学習済みモデルの性能は圧倒的に思え，既に未解決な問題など無いのではないかという無力感を感じるのではないでしょうか．一方で，以前できなかったことができるようになっているということはすなわち，これらのモデルが新たな研究機会を提供していることも事実です．そのため，重要なことは，大規模事前学習済みモデルの出現により何ができるようになったかを理解し，どのように捉えると問題解決に活かせるかを考えることであるのではないでしょうか．
このことから，本企画では，大規模事前学習済みモデルがマルチモダリティを扱う研究においてどのように活用できるか，また現時点での限界はどこにあるかについて探求します．具体的には，大規模事前学習モデルを用いてマルチモダリティを扱っている，異なる分野の3名の研究者をお招きし，招待講演及び対談を行っていただくことで，これらのモデルの応用範囲について深く掘り下げます．これによって，基盤モデルの進展がもたらす新たな視点を提供し，マルチモダリティ研究における研究テーマの発掘に貢献することを目指します．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3G5-SS-1] マルチモダリティ革命ー大規模事前学習済みモデルの新たな視点を探るー

[3G5-SS-1-01] マルチモダリティ革命ー大規模事前学習済みモデルの新たな視点を探るー

パスワード