含意関係認識におけるActive Learningを用いた不適切なラベルへの対策

松帆 愛

10:00 〜 10:20

[3A1-GS-6-04] 含意関係認識におけるActive Learningを用いた不適切なラベルへの対策

〇松帆愛¹、彌冨仁¹ (1. 法政大学)

キーワード：含意関係認識、自然言語処理、能動学習

含意関係認識は重要な技術であるが，不適切な教師ラベルがデータセットに多く含まれることが研究上の課題として挙げられる．本報告ではActive Learning (AL)を活用し不適切なラベル付けの検出を行いうActive Cleanを提案する．Actine Cleanは，まず少ない学習データに基づく予測モデルを構築した後，予測の難しい少量のデータを選抜し，これらに手動で正解ラベルを付与して再学習を繰り返すことで性能向上を図るとともに、不適切ラベルを検出する手法である．本研究で扱うJSNLIデータセットのラベルはサンプル調査で1割程度に誤りがあることが示唆された．このデータに対し，Active Cleanで不適切ラベルデータ候補を検出したところ，そのうち過半数が不適切であると推定された．これらの不適切ラベル候補データを学習データから除いて構築された含意関係認識モデルは，ラベルが正しいことが確認できているテストデータに対して平均予測能が7.8%向上した．このことからActive Cleanは，不適切なラベルが多く含まれているデータを特定することに役立ち，より頑健なモデルを構築できる可能性を示した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3A1-GS-6] 言語メディア処理

[3A1-GS-6-04] 含意関係認識におけるActive Learningを用いた不適切なラベルへの対策

パスワード