2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-6 言語メディア処理

[1G3-GS-6] 言語メディア処理:

2024年5月28日(火) 13:00 〜 14:40 G会場 (22+23会議室)

座長:赤間 怜奈(東北大学)

14:00 〜 14:20

[1G3-GS-6-04] 連続表現を用いたSpeech-to-Text対話モデルの構築

〇中畔 彪雅1、河野 誠也1,2、Contreras Angel2、吉野 幸一郎1,2 (1. 奈良先端科学技術大学院大学、2. 理化学研究所)

キーワード:大規模言語モデル、音声対話システム

大規模言語モデルは柔軟性が高く,多種多様な自然言語タスクを処理できる.大規模言語モデルを用いて構築した対話モデルと音声認識システムや音声合成システムなどの他モジュールを連結することで,音声による対話が可能となった.しかし,このような複数モジュールを連結したカスケード型のモデルは複雑で,前モジュールからの誤差を蓄積しやすいという問題がある.また,音声を離散的な表現に変換して大規模言語モデルに入力しているため,本来は連続的な表現である音声が持つパラ言語などの情報が欠落している可能性がある.本研究では,入力音声を連続的な表現のベクトルに変換して対話モデルに連結することで,これらの問題を解決することを目指した.実験結果として,生成文は対話コンテキストが十分に考慮されておらず,改善の余地が見られたが,自然な文章の生成は学習されていることから,連続表現を用いた対話モデルが実現可能であることを示唆していると考える.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード