2021年度 人工知能学会全国大会(第35回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[4I2-GS-7c] 画像音声メディア処理:音声認識と指示理解

2021年6月11日(金) 11:00 〜 12:40 I会場 (GS会場 4)

座長:宮西 大樹(国際電気通信基礎技術研究所)

12:20 〜 12:40

[4I2-GS-7c-05] ゼロ資源状況におけるサブワード単位の獲得にむけて

グラフニューラルネットワークを用いた手法

〇高橋 舜1、サクリアニ サクティ1,2、中村 哲1,2 (1. 奈良先端科学技術大学院大学、2. 理化学研究所革新知能統合研究センター)

キーワード:音声認識、低資源言語、教師なし学習、ゼロ資源、グラフニューラルネットワーク

ゼロ資源音声技術は限られた量の音声データから教師ラベルを利用せずに離散的な音響単位や言語学的記号を獲得することを目的とする.現在,ベクトル量子化に基づく離散オートエンコーダーによる手法が著しい性能を見せている.一方でこれらの手法は固定長の時間単位(タイムフレーム)における音響特徴量の離散的表現の学習に重きが置かれているため,獲得される表現はビットレートが非常に高いという問題がある.そこで本研究ではより抽象的な表現単位を獲得するため,VQVAEをベースとしたGNNによる新たな手法を提案する.VQVAEは音声データを予め決められた数の離散単位からなる系列データに変換する.われわれはVQ-VAEによって離散化された各音響単位をグラフにおけるノードとし,それらの遷移を辺として考える.そしてGNNsを利用して各ノードについて近傍の特徴量を畳み込み,ノードの特徴量に基づくスペクトラルクラスタリングを行う.本稿ではこの手法によって獲得される表現をABX誤り率及びビットレートの観点から評価し,その結果ABX誤り率を抑えつつ,ビットレートを半減させることに成功したことを報告する.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード