機械翻訳を用いた多言語文符号化器のマルチソース入力によるテキスト分類

梶川 怜恩

14:40 〜 15:00

[4N3-GS-6-03] 機械翻訳を用いた多言語文符号化器のマルチソース入力によるテキスト分類

〇梶川怜恩¹、山田啓一朗²、梶原智之¹、二宮崇¹ (1. 愛媛大学、2. 東京都立産業技術高等専門学校)

キーワード：自然言語処理、多言語モデル、マルチソース、テキスト分類

自然言語処理サービスの開発者が言語ごとにモデルを構築するのはコストが高いため，多言語モデルの活用が有望視されている．しかし，多言語モデルの事前訓練データに，英語以外の言語のデータは少しずつしか含まれていないため，英語以外の言語における性能は充分ではないという課題が残っている．そこで本研究では，日本語のテキスト分類タスクを対象に，事前訓練済み多言語文符号化器の性能改善に取り組む．提案手法では，入力文を事前訓練データ量が多い英語に機械翻訳した上で，元の日本語文とともに学習および推論するマルチソース入力を行う．日本語の感情極性分類およびニュース記事のカテゴリ分類における評価実験の結果，英訳文の併用によってテキスト分類の性能改善を確認した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4N3-GS-6] 言語メディア処理：

[4N3-GS-6-03] 機械翻訳を用いた多言語文符号化器のマルチソース入力によるテキスト分類

パスワード