[3Win5-47] CNNの選定とデータ拡張手法の導入による環境音認識モデルのノイズ耐性向上
キーワード:環境音認識、畳み込みニューラルネットワーク、データ拡張
環境音認識は周囲の状況を把握する上で重要な技術であり、近年ではVision Transformerの枠組みを活用した手法が注目されている。しかし、Transformerモデルはデータが不足すると過学習が起きやすく、また事前学習済みモデルが、目的の音環境に適合しない事もある。一方、CNNは事前学習なしかつ少量のデータでも安定した性能を発揮し、畳み込み処理によるデノイジング機能によってノイズの影響を軽減出来るという利点を持つ。そこで本研究では、CNNのノイズ耐性に着目し、最適なCNNの選定とデータ拡張手法の導入を検討した。まず、実績のある5種類のCNNを比較し、次にデータ拡張手法としてCutMixを導入してノイズを含むデータでの性能向上を図った。その結果、EfficientNetが優れたノイズ耐性を示し、CutMixが認識性能全体を向上させる事を確認した。本結果は、高精度かつノイズに強い環境音認識モデルの実用化に資すると考える。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。