16th Forum on Data Engineering and Information Management

Presentation information

Tutorials & Special Lectures

Tutorial

[TU-B-1] LLMと音声理解・生成の最新動向

Mon. Mar 4, 2024 10:00 AM - 11:30 AM Large conference room: 408 (4F, Acurier Himeji)

10:00 AM - 11:30 AM

[TU-B-1 ] Tutorial

西田京介,安藤厚志(NTT 人間情報研究所)

対象:学部4年生レベル~

ChatGPTの登場以降、LLMをベースとした汎用人工知能(AGI)の実現が現実味を帯びつつある。OpenAIのGPT-4は、言語理解・生成の高度な能力に加えて視覚入力の処理も可能となり、一部のタスクでは平均的なヒトを超える能力を既に実現している。さらに、GoogleのGeminiは、言語と視覚に加えて音声に対する学習も組み込むことで、ヒトとAIの共生社会に革命的な進化をもたらす可能性を秘めている。このチュートリアルでは、大規模言語モデル(Large Language Model; LLM)および、LLMのマルチモーダル拡張における音声の理解と生成の分野に着目する。前半では、LLMの基本から最新の進展について詳しく解説し、後半ではLLM関連技術が音声理解・生成に与えた影響やLLMを活用したマルチモーダルなアプローチについて紹介する。