[PH88] テスト項目の採点方式が受検者の能力測定値へ及ぼす影響
実データに基づくシミュレーション
Keywords:項目応答理論, 採点方式
問題と目的
近年,大学入試改革が話題となっている。新しい試験の一部の科目では,現在の択一式による項目形式のみならず,複数選択式や正答が一つに限らないといった形式が導入される予定となっている(文部科学省,2016)。しかし,項目の形式の違いが受検者の能力値推定への影響を及ぼす可能性についての検討は不十分である。
本研究では,同一内容を問うている項目について異なる採点方法を適用したときに,受検者の能力測定値へどの程度の影響を及ぼすかについて検討する。
方 法
用いるテスト 本研究では,文科省調査研究「高等学校における多様な学習成果の評価手法の調査研究」事業において,ベネッセコーポレーション(岡下博美 牧野直道 長谷川康代(研究代表))が2013年12月に行った多肢選択式問題を用いた。受検者は,995名(高校生563名,大学生・社会人432名)であった。
採点方法 各項目において,正答を1,誤答を0としてテストデータの整形を行った。また,複数選択式の項目については,単答式,段階得点式,完解式の3パタンの採点方法を適用した。単答式は,複数選択式の全ての選択項目について1項目ずつとみなし,それぞれの正誤について正答を1,誤答を0とした得点を与えるものである。段階得点式は,複数選択式の選択項目について,正答数を数え上げるテストレット(Wainer and Kiely, 1987)と見なし,正答数を得点としたものである。完解式は,複数選択式の選択項目の全てを正答したとき1, 1項目でも誤答があれば0を与えるものである。
テストの分析モデル テスト項目の検討ならびに受検者の能力値の測定には,IRT(Item Response Theory)(Lord & Novick, 1968)を用いた。適用モデルは,単答式ならびに完解式では2PLM(2-parameter Logistic Model)を,段階得点式ではGRM(Graded Response Model)(Samejima,1969)を用いた。
結果と考察
受検者の能力推定値を,採点方式ごとに散布図で示したものがTable1~3である。それぞれの相関係数は,左よりr=.982,.982,.992であった。それぞれの採点方式間の相関はいずれも強いものとなったが,一方で,散布図を確認すると,受検者の能力推定値が高い受検者において,分布のばらつきが見られた。
高能力値帯において単答式では,完解式,段階式よりも能力推定値が高い傾向となった。複数選択式の項目について,完解式では,項目困難度が高かったため,高能力値の受検者も必ずしも正答できなかった。一方,単答式では複数選択式項目の全てを正答できなくても正答になる項目があるため正答数が増え,能力推定値を上げる結果になったと考えられる。また,単答式では,複数選択式の選択項目数が項目数になるのに対し,段階式では1項目として扱われるため,段階式で扱った場合に能力推定への影響が小さくなったと考えられる。そのため,完解式と段階式では単答式に比べて相関係数が高くなったと考えられる。
近年,大学入試改革が話題となっている。新しい試験の一部の科目では,現在の択一式による項目形式のみならず,複数選択式や正答が一つに限らないといった形式が導入される予定となっている(文部科学省,2016)。しかし,項目の形式の違いが受検者の能力値推定への影響を及ぼす可能性についての検討は不十分である。
本研究では,同一内容を問うている項目について異なる採点方法を適用したときに,受検者の能力測定値へどの程度の影響を及ぼすかについて検討する。
方 法
用いるテスト 本研究では,文科省調査研究「高等学校における多様な学習成果の評価手法の調査研究」事業において,ベネッセコーポレーション(岡下博美 牧野直道 長谷川康代(研究代表))が2013年12月に行った多肢選択式問題を用いた。受検者は,995名(高校生563名,大学生・社会人432名)であった。
採点方法 各項目において,正答を1,誤答を0としてテストデータの整形を行った。また,複数選択式の項目については,単答式,段階得点式,完解式の3パタンの採点方法を適用した。単答式は,複数選択式の全ての選択項目について1項目ずつとみなし,それぞれの正誤について正答を1,誤答を0とした得点を与えるものである。段階得点式は,複数選択式の選択項目について,正答数を数え上げるテストレット(Wainer and Kiely, 1987)と見なし,正答数を得点としたものである。完解式は,複数選択式の選択項目の全てを正答したとき1, 1項目でも誤答があれば0を与えるものである。
テストの分析モデル テスト項目の検討ならびに受検者の能力値の測定には,IRT(Item Response Theory)(Lord & Novick, 1968)を用いた。適用モデルは,単答式ならびに完解式では2PLM(2-parameter Logistic Model)を,段階得点式ではGRM(Graded Response Model)(Samejima,1969)を用いた。
結果と考察
受検者の能力推定値を,採点方式ごとに散布図で示したものがTable1~3である。それぞれの相関係数は,左よりr=.982,.982,.992であった。それぞれの採点方式間の相関はいずれも強いものとなったが,一方で,散布図を確認すると,受検者の能力推定値が高い受検者において,分布のばらつきが見られた。
高能力値帯において単答式では,完解式,段階式よりも能力推定値が高い傾向となった。複数選択式の項目について,完解式では,項目困難度が高かったため,高能力値の受検者も必ずしも正答できなかった。一方,単答式では複数選択式項目の全てを正答できなくても正答になる項目があるため正答数が増え,能力推定値を上げる結果になったと考えられる。また,単答式では,複数選択式の選択項目数が項目数になるのに対し,段階式では1項目として扱われるため,段階式で扱った場合に能力推定への影響が小さくなったと考えられる。そのため,完解式と段階式では単答式に比べて相関係数が高くなったと考えられる。