11:00 〜 11:20
[1K1-GS-6-04] 自然言語処理におけるデータ拡張による性能改善への影響分析
キーワード:自然言語処理、データ拡張
機械学習では,モデルのパラメータ数に対してデータ数が不足すると,モデルがデータに過剰に適合してしまい,汎化性能が低下する過学習が発生することがある.過学習を避ける有力な正則化戦略の一つが学習に用いるデータを人為的に増やすデータ拡張である.データ拡張は画像認識の分野では広く活用されて成果を上げている一方で,自然言語処理の分野においてはデータ拡張の利用は限られたものとなっている.この理由として,自然言語処理の分野でのデータ拡張手法が性能に対してどのような影響を与えるかが統一的に評価されておらず,それぞれのタスクにとっての有効なデータ拡張手法が不透明になっていることが挙げられる.
本研究では,いくつかのデータセットを用いて,従来のデータ拡張手法が自然言語処理の性能に与える影響を調査した.その結果,事前学習モデルを用いて少量のデータで学習する場合,データ拡張が有効となる場合があることが明らかになった.また,データ拡張の強さを示す指標を定義し,その指標と学習後の性能との相関関係についても評価した.
本研究では,いくつかのデータセットを用いて,従来のデータ拡張手法が自然言語処理の性能に与える影響を調査した.その結果,事前学習モデルを用いて少量のデータで学習する場合,データ拡張が有効となる場合があることが明らかになった.また,データ拡張の強さを示す指標を定義し,その指標と学習後の性能との相関関係についても評価した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。