16:30 〜 16:50
[2E5-GS-6-04] 往復翻訳を教師とした言い換え生成モデルによる高速テキストデータ拡張
キーワード:機械学習、自然言語処理、データ拡張
機械学習において,モデルの性能を向上させるためには大量のデータが必要である.しかし,データを大量に収集するにはコストがかかるため,既存のデータから新たなデータを生成する,データ拡張と呼ばれる手法が用いられている.自然言語処理分野では,テキストデータを他言語に翻訳し,再度元の言語に翻訳することで,元のテキストの言い換えを生成する往復翻訳(Round-trip translation)と呼ばれるテキストデータ拡張手法が存在する.しかし,往復翻訳は1種類のテキストに対し2回の翻訳を行う必要があるため,計算コストと時間のかかる拡張手法である.そこで本研究では,テキストと往復翻訳結果を教師データとして訓練することで,往復翻訳を一度に行うモデルを作成し,拡張に用いる手法を提案する.実験ではText-To-Text Transfer Transformer (T5)に基づいたモデルを用いることにより,往復翻訳と比較して約1.6倍の速度でデータ拡張を行うことができ,さらにT5が事前学習で獲得した知識によって,学習データには含まれない言い換えを生成できることを確認した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。