[4Xin2-48] 英語テキストに対する一貫性評価の検討
キーワード:人工知能、自然言語処理、自動採点、教育応用、一貫性
本稿ではテキストの品質評価における,論理展開の自然さを示すcoherenceについてのタスクを定義しルーブリックを作成した.また,作成したルーブリックを用いて英語学習者のエッセイに対し専門家の人手評価を行ったデータセットを作成した.この際,文法や語彙の間違いのようなcohesionに関わるミスを考慮させないよう指示し,coherenceに特化した評価を実施した.3人の専門家による人手評価のFleiss' Kappaは0.17だった.また,特化モデルやLLMを用いたcoherence自動評価も行った.自動評価においては,GPT-4によって直接評価する手法が最も人手のcoherence評価と近く,Pearsonの積率相関係数で0.381となった.また,Sentence Orderingを用いた独自の手法は,特定のスコア指標を用いることで,従来のMultiNLIモデルを超える性能となった.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。