2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-6 言語メディア処理

[4N3-GS-6] 言語メディア処理:

2024年5月31日(金) 14:00 〜 15:40 N会場 (54会議室)

座長:田中涼太(NTT人間情報研究所)

14:40 〜 15:00

[4N3-GS-6-03] 機械翻訳を用いた多言語文符号化器のマルチソース入力によるテキスト分類

〇梶川 怜恩1、山田 啓一朗2、梶原 智之1、二宮 崇1 (1. 愛媛大学、2. 東京都立産業技術高等専門学校)

キーワード:自然言語処理、多言語モデル、マルチソース、テキスト分類

自然言語処理サービスの開発者が言語ごとにモデルを構築するのはコストが高いため,多言語モデルの活用が有望視されている.しかし,多言語モデルの事前訓練データに,英語以外の言語のデータは少しずつしか含まれていないため,英語以外の言語における性能は充分ではないという課題が残っている.そこで本研究では,日本語のテキスト分類タスクを対象に,事前訓練済み多言語文符号化器の性能改善に取り組む.提案手法では,入力文を事前訓練データ量が多い英語に機械翻訳した上で,元の日本語文とともに学習および推論するマルチソース入力を行う.日本語の感情極性分類およびニュース記事のカテゴリ分類における評価実験の結果,英訳文の併用によってテキスト分類の性能改善を確認した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード