Tutorial

西田京介

10:00 AM - 11:30 AM

[TU-B-1 ] Tutorial

西田京介，安藤厚志（NTT 人間情報研究所）

対象：学部4年生レベル～

ChatGPTの登場以降、LLMをベースとした汎用人工知能（AGI）の実現が現実味を帯びつつある。OpenAIのGPT-4は、言語理解・生成の高度な能力に加えて視覚入力の処理も可能となり、一部のタスクでは平均的なヒトを超える能力を既に実現している。さらに、GoogleのGeminiは、言語と視覚に加えて音声に対する学習も組み込むことで、ヒトとAIの共生社会に革命的な進化をもたらす可能性を秘めている。このチュートリアルでは、大規模言語モデル（Large Language Model; LLM）および、LLMのマルチモーダル拡張における音声の理解と生成の分野に着目する。前半では、LLMの基本から最新の進展について詳しく解説し、後半ではLLM関連技術が音声理解・生成に与えた影響やLLMを活用したマルチモーダルなアプローチについて紹介する。

Presentation information

[TU-B-1] LLMと音声理解・生成の最新動向

[TU-B-1 ] Tutorial