15:00 〜 15:20
[1P3-OS-1a-04] 「評価」の評価
言語モデル評価における構成概念妥当性について
キーワード:評価、自然言語処理、ベンチマーク、構成概念妥当性
深層学習を基盤とした言語モデル(LM)の発展は目覚ましく、自然言語処理(NLP)等の分野ではLMの性能向上を目指す研究や、モデルがもつ能力についての分析を行う研究が盛んに行われている。その双方で、モデルの性能測定・評価や、そこにおける得点の解釈は重要な役割を果たしており、多くのベンチマークや性能評価タスクが提案されている。それらの評価手法の良し悪しは、タスクの包括性や実践の容易さ、最先端のモデルにとっての難しさや頑健さといった実用的な観点に基づいて判断されることが多い。しかしながら、当該の測定手法が、そこで測定しようとしているモデルの性質や能力を過不足なく測定できているかや、その測定結果を用いた解釈や推論が十分に正当化されるかといった側面も、「評価方法自体の評価」において重要である。他方、測定や評価におけるこのような側面は、心理学において、構成概念妥当性理論として豊富な議論が蓄積されている。本稿では、構成概念妥当性やその確認方法についての導入を行い、NLPにおける実践の現状を整理しながら、経験的な構成概念妥当性確認の必要性とその実践方法を提案する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。