2023年度 人工知能学会全国大会(第37回)

講演情報

一般セッション

一般セッション » GS-6 言語メディア処理

[2E5-GS-6] 言語メディア処理

2023年6月7日(水) 15:30 〜 17:10 E会場 (大会議室 A2)

座長:本浦 庄太(NEC) [現地]

16:30 〜 16:50

[2E5-GS-6-04] 往復翻訳を教師とした言い換え生成モデルによる高速テキストデータ拡張

〇田中 慎太郎1、飯間 等1 (1. 京都工芸繊維大学)

キーワード:機械学習、自然言語処理、データ拡張

機械学習において,モデルの性能を向上させるためには大量のデータが必要である.しかし,データを大量に収集するにはコストがかかるため,既存のデータから新たなデータを生成する,データ拡張と呼ばれる手法が用いられている.自然言語処理分野では,テキストデータを他言語に翻訳し,再度元の言語に翻訳することで,元のテキストの言い換えを生成する往復翻訳(Round-trip translation)と呼ばれるテキストデータ拡張手法が存在する.しかし,往復翻訳は1種類のテキストに対し2回の翻訳を行う必要があるため,計算コストと時間のかかる拡張手法である.そこで本研究では,テキストと往復翻訳結果を教師データとして訓練することで,往復翻訳を一度に行うモデルを作成し,拡張に用いる手法を提案する.実験ではText-To-Text Transfer Transformer (T5)に基づいたモデルを用いることにより,往復翻訳と比較して約1.6倍の速度でデータ拡張を行うことができ,さらにT5が事前学習で獲得した知識によって,学習データには含まれない言い換えを生成できることを確認した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード