15:20 〜 15:40
[1E4-GS-6-02] 制御可能な日本語時間推論データセットの構築
キーワード:自然言語推論、含意関係認識、時間関係認識、データセット構築
時間に関する自然言語推論は事前学習済み言語モデルにとって挑戦的なタスクである.そのため,これまで様々な評価用データセットが構築されてきた.しかし,既存のデータセットは主に英語を対象としており,他言語を扱ったものは少ない.そこで本研究では,時間推論に関する日本語NLIベンチマークを構築する.提案手法では,まず形式意味論のテストセットに基づいて様々な推論パターンからなる時間推論テンプレートを作成する.次に,テンプレートに対して日本語格フレームを用いて動詞や名詞,時間表現を自動で割り当てることで,多様な時間推論の問題を生成する.構築したデータセットを制御して分割し,言語モデルの学習・評価に用いることで,時間推論パターンや時間表現における多言語・単言語の言語モデルの汎化性能を評価する.実験により,既存の言語モデルは習慣などの特定の言語現象の理解に課題があることを示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。