2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[2C1-GS-7] 画像音声メディア処理:

2024年5月29日(水) 09:00 〜 10:40 C会場 (イベントホール仮設1)

座長:西澤直樹((株)東芝)

09:00 〜 09:20

[2C1-GS-7-01] 深層学習に基づいた富山弁音声認識とその標準日本語への変換

〇堀元 優花1、張 逸群1、斎藤 博昭1 (1. 慶應義塾大学)

[[オンライン]]

キーワード:富山弁、方言認識、深層学習

著者の育った富山への郷土愛から,富山弁の音声認識にフォーカスを置いた.富山らしい言葉や話し方は魅了的だが,他地方の人々とのコミュニケーションにおいて障壁になってしまう.そのため本研究では,音声認識による富山弁の標準語への変換を行い,他地方から訪れた人々でもコミュニケーションをとれるようなシステムを作る.本研究では,音声認識モデルではwav2vec 2.0を用い,標準語変換モデルではGPT-2の2つのモデルを用いた.データセットとして自作の富山弁コーパスを収録し,手作業で書きおこしを行うことで品質を高めた.また,学習段階では全ての音声データに対しRMSによる平滑化や,マスキングによるデータ増強を行った.実験では,生成結果の自動評価指標としてCER,WERを用い,人手評価では同義性,文法性の観点でそれぞれ評価を行った.実験結果として,提案手法はベースラインと比較して性能が良くなり,モデルの有効性を検証した.

要旨・抄録、PDFの閲覧には参加者用アカウントでのログインが必要です。参加者ログイン後に閲覧・ダウンロードできます。
» 参加者用ログイン