[PG58] 複数の英語文章を読解する項目における困難度の規定因の検討
Keywords:困難度モデリング、英語文章読解、教育測定
問題と目的
ターゲットとした能力を精度よく測定できるテストを作成するためには,さまざまな観点からテストの品質評価を行う必要がある。その一例として,予備テストを行い各テスト項目の機能を事前に検討することが挙げられる。ただし,日本的テスト文化の下ではテスト項目の公開が強く求められるため,予備テストを行うことが極めて難しい。各項目の機能を事前に確認できないことは,テストの品質管理に大きな影響を及ぼしうる。
このような状況下でテストの品質管理を行う方法のひとつとして,項目統計量の規定因を検討し,その要因に配慮して将来の項目作成を行うことが考えられる。そこで本研究では,複数の英語文章を読解するテスト項目を題材とし,項目困難度の規定因を検討することを目的とする。
方 法
研究参加者 大学入試センター・研究開発部が実施するモニター調査に参加した大学生のうち151名(女性28名,男性123名)であった。
英語文章 同一のテーマについて述べられている文章2つを1セットとし,計4セット・8つの英語文章を使用した。4セットのうち2セットは相補的文章セット,2セットは矛盾・対立的文章セットとした。相補的文章セットは,私立大学の入学試験問題で使用されたものから選定し,矛盾・対立的文章セットは,特定のテーマについて賛成意見・反対意見をまとめたウェブサイト(ProCon.org)から選定した。
実験項目の作成 本研究では,文章セット1つにつき3種類の実験項目を作成した。第1に「分類問題」として,文章セットの記述内容に関連する文を作成し,①文章Aのみを読んでわかることがら,②文章Bのみを読んでわかることがら,③文章Aと文章Bの両方を読んではじめてわかることがら,④いずれの文章を読んでもわからないことがらの選択枝のうちから適切なものを1つ選ぶよう求める問題とした。第2に「共通点問題」であり,2つの文章の共通点を記述した選択枝として最も適切なものを1つ選ぶよう求める問題とした。第3に「相違点問題」であり,2つの文章の相違点を記述した選択枝として最も適切なものを1つ選ぶよう求める問題とした。文章セット1つにつき,分類問題10項目,共通点問題1項目,相違点問題1項目の計12項目を作成した。
テストデザイン 共通項目デザインを用いて,4つの文章セットのうち2つを収録したテスト冊子を計4種類作成した。
手続き 4種類のテスト冊子のうち1種類をランダムに各研究参加者に割り当てた。解答時間は45分間であった。
結果と考察
項目分析 本研究の実験用テスト項目の機能を確認するため,正答率・I-T相関係数(当該項目削除得点を使用)を算出した。結果として,正答率が極端な値(0.1以下,0.9以上)を示す項目は存在しなかった一方で,I-T相関係数が0.2を下回った項目がいくつか存在した。
項目困難度の規定因の検討 項目困難度を規定する要因の影響の大きさを検討するため,線形ロジスティックテストモデル (LLTM; Fischer, 1973) を適用した。モデルの適合度指標として∆^(1/2) (Embretson, 1995) を算出した結果,分類問題に対するLLTMの∆^(1/2)は.685,共通点問題・相違点問題に対するLLTMの∆^(1/2)は.686であったため,十分な適合があるものと判断した。
分類問題に対してLLTMをあてはめた結果,文章Aのみを読んでわかることがらに比べ,文章Aと文章Bの両方を読んではじめてわかることがらのほうが難しかった (η = -1.505, 95%CI = [-1.749, -1.260]) であった。一方,文章Bのみを読んでわかることがら (η = -0.246, 95%CI = [-0.441, -0.050]),いずれの文章を読んでもわからないことがら (η = -0.550, 95%CI = [-0.771, -0.328]),文章セットの種類の違い (η = 0.211, 95%CI = [0.001, 0.402]) はそれほど困難度に影響していなかった。
共通点問題・相違点問題に対してLLTMをあてはめた結果,相補的文章セットよりも矛盾・対立的文章セットにおいて,共通点問題・相違点問題が易しかった (η = 0.854, 95%CI = [0.440, 1.266])。一方,共通点問題と相違点問題との間には小さな困難度の差のみが見られた (η = -0.373, 95%CI = [-0.730, -0.017])。
考 察
上記の分析で影響力の大きかった要因に配慮することで,将来の項目作成を支援できる可能性が示唆された。
ターゲットとした能力を精度よく測定できるテストを作成するためには,さまざまな観点からテストの品質評価を行う必要がある。その一例として,予備テストを行い各テスト項目の機能を事前に検討することが挙げられる。ただし,日本的テスト文化の下ではテスト項目の公開が強く求められるため,予備テストを行うことが極めて難しい。各項目の機能を事前に確認できないことは,テストの品質管理に大きな影響を及ぼしうる。
このような状況下でテストの品質管理を行う方法のひとつとして,項目統計量の規定因を検討し,その要因に配慮して将来の項目作成を行うことが考えられる。そこで本研究では,複数の英語文章を読解するテスト項目を題材とし,項目困難度の規定因を検討することを目的とする。
方 法
研究参加者 大学入試センター・研究開発部が実施するモニター調査に参加した大学生のうち151名(女性28名,男性123名)であった。
英語文章 同一のテーマについて述べられている文章2つを1セットとし,計4セット・8つの英語文章を使用した。4セットのうち2セットは相補的文章セット,2セットは矛盾・対立的文章セットとした。相補的文章セットは,私立大学の入学試験問題で使用されたものから選定し,矛盾・対立的文章セットは,特定のテーマについて賛成意見・反対意見をまとめたウェブサイト(ProCon.org)から選定した。
実験項目の作成 本研究では,文章セット1つにつき3種類の実験項目を作成した。第1に「分類問題」として,文章セットの記述内容に関連する文を作成し,①文章Aのみを読んでわかることがら,②文章Bのみを読んでわかることがら,③文章Aと文章Bの両方を読んではじめてわかることがら,④いずれの文章を読んでもわからないことがらの選択枝のうちから適切なものを1つ選ぶよう求める問題とした。第2に「共通点問題」であり,2つの文章の共通点を記述した選択枝として最も適切なものを1つ選ぶよう求める問題とした。第3に「相違点問題」であり,2つの文章の相違点を記述した選択枝として最も適切なものを1つ選ぶよう求める問題とした。文章セット1つにつき,分類問題10項目,共通点問題1項目,相違点問題1項目の計12項目を作成した。
テストデザイン 共通項目デザインを用いて,4つの文章セットのうち2つを収録したテスト冊子を計4種類作成した。
手続き 4種類のテスト冊子のうち1種類をランダムに各研究参加者に割り当てた。解答時間は45分間であった。
結果と考察
項目分析 本研究の実験用テスト項目の機能を確認するため,正答率・I-T相関係数(当該項目削除得点を使用)を算出した。結果として,正答率が極端な値(0.1以下,0.9以上)を示す項目は存在しなかった一方で,I-T相関係数が0.2を下回った項目がいくつか存在した。
項目困難度の規定因の検討 項目困難度を規定する要因の影響の大きさを検討するため,線形ロジスティックテストモデル (LLTM; Fischer, 1973) を適用した。モデルの適合度指標として∆^(1/2) (Embretson, 1995) を算出した結果,分類問題に対するLLTMの∆^(1/2)は.685,共通点問題・相違点問題に対するLLTMの∆^(1/2)は.686であったため,十分な適合があるものと判断した。
分類問題に対してLLTMをあてはめた結果,文章Aのみを読んでわかることがらに比べ,文章Aと文章Bの両方を読んではじめてわかることがらのほうが難しかった (η = -1.505, 95%CI = [-1.749, -1.260]) であった。一方,文章Bのみを読んでわかることがら (η = -0.246, 95%CI = [-0.441, -0.050]),いずれの文章を読んでもわからないことがら (η = -0.550, 95%CI = [-0.771, -0.328]),文章セットの種類の違い (η = 0.211, 95%CI = [0.001, 0.402]) はそれほど困難度に影響していなかった。
共通点問題・相違点問題に対してLLTMをあてはめた結果,相補的文章セットよりも矛盾・対立的文章セットにおいて,共通点問題・相違点問題が易しかった (η = 0.854, 95%CI = [0.440, 1.266])。一方,共通点問題と相違点問題との間には小さな困難度の差のみが見られた (η = -0.373, 95%CI = [-0.730, -0.017])。
考 察
上記の分析で影響力の大きかった要因に配慮することで,将来の項目作成を支援できる可能性が示唆された。