第16回データ工学と情報マネジメントに関するフォーラム

講演情報

チュートリアル・特別講演

チュートリアル

[TU-B-1] LLMと音声理解・生成の最新動向

2024年3月4日(月) 10:00 〜 11:30 大会議室:408 (アクリエひめじ 4F)

10:00 〜 11:30

[TU-B-1 ] LLMと音声理解・生成の最新動向

西田京介,安藤厚志(NTT 人間情報研究所)

対象:学部4年生レベル~

ChatGPTの登場以降、LLMをベースとした汎用人工知能(AGI)の実現が現実味を帯びつつある。OpenAIのGPT-4は、言語理解・生成の高度な能力に加えて視覚入力の処理も可能となり、一部のタスクでは平均的なヒトを超える能力を既に実現している。さらに、GoogleのGeminiは、言語と視覚に加えて音声に対する学習も組み込むことで、ヒトとAIの共生社会に革命的な進化をもたらす可能性を秘めている。このチュートリアルでは、大規模言語モデル(Large Language Model; LLM)および、LLMのマルチモーダル拡張における音声の理解と生成の分野に着目する。前半では、LLMの基本から最新の進展について詳しく解説し、後半ではLLM関連技術が音声理解・生成に与えた影響やLLMを活用したマルチモーダルなアプローチについて紹介する。