[研企チ] 項目反応理論(IRT)の考え方と実践
測定の質の高いテストや尺度を作成するための技術
キーワード:項目反応理論, 教育測定, テスト
企画趣旨
言語能力試験など,様々な大規模能力試験の作成・運用においてグローバル・スタンダードとなっている方法論に項目反応(応答)理論(Item Response Theory:IRT)がある。IRTでは,ある受験者がある項目(問題)に正答する確率を,項目反応モデルと呼ばれる統計モデルで表現する。IRT(および後述する等化)を適用することで,各受験者がそのときに受けた試験問題の難易度や,受験者集団の能力分布の違いに極力左右されないという意味で公平な評価が可能になる。また,IRTはいわゆるテスト(試験)だけでなく,測定の性能評価や効率化等を目的として,(教育)心理学研究における心理尺度の作成・改良のためにも既に広く活用されている。加えて,昨今の高大接続改革において導入が検討されている英語の民間試験にも関わる話題として,異なるテストに基づく得点(スコア)を同一尺度上で比較可能にするための等化(equating) またはリンキング(linking)と呼ばれる方法があるが,これの多くはIRTのもとで体系化された技術である。
本チュートリアルの目的は,IRTについて初めて学ぶ方,またテスト(心理尺度)を作成・利用する立場にある研究者や教育関係者の方などを対象に,IRTの基本的な考え方とともにその適用上の利点や注意点,および実際の心理学研究や実践例を基にした統計ソフトRの実行方法について平易に解説することである。具体的に,本チュートリアルでは,IRTの利点についてまず俯瞰した後に,幾つかの基本的な項目反応モデルを紹介する。そして,項目反応モデルを用いた研究・実践に密接に関わっている等化について,その基本的な考え方や方法を解説し,そして統計ソフトRを用いたIRTの実行例を幾つか紹介する。統計ソフトR については,その操作方法についての解説も本チュートリアル内で行うが,例えば回帰分析の実行などのごく基本的な操作経験は既にあることが,本チュートリアルの内容をスムースに理解する上で望ましい。また,本チュートリアルで使用するデータ等は事前にアップロードし,当日参加者が自身のPCで同じ分析を実行できるようにする予定であるため,Rを予めインストールしたPCを持参することを推奨する。
項目反応理論の考え方
光永悠彦
2020年度から開始される予定の大学入学共通テストなど,新しい高大接続のあり方をめぐる議論の中で,項目反応理論(IRT)やコンピュータ・ベースト・テスティング(computer based testing: CBT)といった言葉がメディアにも頻繁に登場してきている。IRTは決して新しい考え方ではなく,計量心理学をベースに体系化されてきた「テスト理論」の一つとして1950年代ごろから発展を重ねてきたものであり,より質の高いテストや心理尺度を作成するための重要な理論的背景である。
テストを行った結果は,一般に,受験者が各項目(問題)に反応(例えば,正解・不正解)したデータの形式としてまとめられる。このようなデータを用いて各項目の難しさ(項目困難度と呼ばれる)を評価するための素朴な方法として,各項目で正答数や正答率を調べることが挙げられる。しかし,ある項目で正答率が高いからといって,その問題が絶対的な意味で易しい問題であるとは即断できない。なぜなら,仮に客観的に見て問題が「難しい」と感じられるものであったとしても,実際の受験者集団の能力がその水準を超えて高いのであれば,多くの正答が発生することが予期されるためである。ここから分かることは,正答数や正答率といった身近な項目困難度の指標値は,受験者集団の能力分布に依存した相対的なものということになる。これは,例えば期間を隔てて異なる受験者集団に実施した異なるテスト内の項目間の困難度の比較が厳密にはできないことを意味する。そのため,大規模能力試験の文脈で一般に想定されているような,異なる受験者に対して継続的にテストを実施する上では大きな障害となる。
この例からも分かるように,テストの運用では,どのような受験者集団に基づくデータなのかに依存せず,困難度などの項目の統計的特徴を知ることができれば望ましい。同様の点は,項目だけでなく,受験者の能力を評価する場合にも言える。そこで,この問題を解決する一つの有力な方法が,IRTを用いて,ある受験者がある項目に正答する確率を,項目母数(項目困難度)と潜在特性値(個人の能力)の関数としての項目反応モデルにより表現し,実際のデータからこれらの母数や能力値を推定することである。
言語能力試験や適性試験など,現在日本で行われている大規模試験においては,受験者集団の能力分布に依存しない形で項目母数をあらかじめ推定しておき,その値を手がかりとして出題項目を精選し,評価や選抜をより精度よく効率的に行うための最適な項目セット(問題冊子)を作成して本テストを行う,といったプロセスを採用しているものがいくつかある。その基盤を支えるのがIRTを用いた尺度化の考え方であり,これによって異なる項目から構成される問題冊子を用いても相互にスコアが比較可能となるような標準化テストが作成できる。
ただし,標準化テストを実現するためには,あらかじめ尺度化の規準となる「規準集団」を定めておき,異なる受験者集団から得られた尺度化の結果を規準集団上の尺度で表現し直す必要がある。このような操作を「等化」と呼ぶ。IRTを用いた実際の運用においては,上述のように,既知の項目母数の情報を利用して本テストを実施するが,本テストのデータから推定される項目母数を規準集団上に等化することで,等化された項目母数の情報を将来のテストの実施に利用することができる。
IRTは,ある受験者がある項目に正答する確率を,項目母数と潜在特性値の関数としての項目反応モデルで表現していることを上で述べた。一方,質問紙調査データの分析の文脈において広く見られるように,複数の項目への回答の相関関係を説明するために,各調査対象者に因子得点を仮定し,それを用いて各項目に対する回答をモデル化することがある。ここで因子得点を潜在特性値(または個人の能力)と読み替えれば,数理的には,IRTは因子分析モデルに類似した分析手法と言える。このことからも示唆されるように,IRTの適用の際は,因子分析における因子数(例えば,一因子性)のような,モデル適用上の前提条件が満たされているかどうかのチェックが必要となる。
なお,項目の形式によっては,正解・不正解といった二値のデータだけではなく,正解・部分点・不正解といったような多値のデータや,他にも名義データなど別の形式のデータを扱うことも多くある。これらに対応した項目反応モデルも既に提案されており,実際のテストで活用されている。
本発表では,IRTに関する理論的基礎やデータの前提条件,および様々な項目反応モデルについて解説するとともに,実際のテストの運用にIRTがどのように用いられているのかについてより掘り下げて説明する。さらに,IRTに基づく等化について,その理論的な背景を説明し,テストの実施にどのように応用されているか説明する。あわせて,より質の高い心理尺度の作成のために必要な手続きについてテスト理論の視点から述べる。
Rを用いた項目反応理論による分析方法・実践例の紹介
登藤直弥
本チュートリアルセミナーで取り上げる項目反応理論(IRT)に基づく分析は,今現在,様々なソフトウェアによって実行可能となっており,このようなソフトウェアの代表例としてはBILOG-MG (Zimowski, Muraki, Mislevy, & Bock, 1996)が,日本で開発されたものとしては,たとえば,EasyEstimation (熊谷, 2009)やExametrika (荘島, 2008)を挙げることができる。一方で,近年,心理学領域の研究でも用いられることの多くなってきた統計解析用のソフトウェアとしてR (e.g., R Core Team, 2017)が挙げられる。Rは,インストールさえできれば,誰でもすぐに無償で利用できるソフトウェアであり,IRTを用いた分析も実行可能である。
そこで,本発表では,IRTによる項目母数と潜在特性値の推定ならびに等化を,参加者がRを用いて行うことができるようになることを目指す。そのために,1) Rで分析データを読み込み,2) 分析対象のデータにおいてIRTを適用する際の前提条件が満たされているか確認して,3) 適用した項目反応モデルの項目母数と潜在特性値を推定し,4) 推定結果を解釈し,5) 等化を実施する手続きについて,1~5の順で実際にデータを解析しながら説明を行うこととする。その際,2における前提条件としてはテストの一次元性の仮定と,局所独立性と呼ばれる仮定を取り上げることとし,3における項目反応モデルとしては,利用されることの多い,二値データのためのモデル(1パラメタ・ロジスティックモデル,2パラメタ・ロジスティックモデル,3パラメタ・ロジスティックモデル)および多値データを扱うための段階反応モデル(Samejima, 1969)を取り上げることとする。
また,IRTによる実践に密接に関わる指標として,テスト特性関数とテスト情報関数がある。テスト特性関数とは,任意の潜在特性値に対応するテスト得点の期待値を潜在特性値の関数として表したものである。テスト情報関数とは,そのテストを実施して得られる潜在特性値の推定精度に関する情報を潜在特性値の関数として表したものである。これら二つを利用することにより,IRTでは,a) 同じ構成概念の測定を意図した異なるテスト間の統計的性質(e.g., 難易度や誤差の大きさ)の比較が可能となり,また,b) 当該のテストがどのような能力層の受験者の測定・評価に適しているか検討することが可能となる。そこで,上述5の手続きを解説した後に,テスト特性関数とテスト情報関数を用いた実践例として,『教育心理学研究』に掲載された論文を中心に説明し,Rでテスト特性関数ならびにテスト情報関数を求める手続きについても解説する。
言語能力試験など,様々な大規模能力試験の作成・運用においてグローバル・スタンダードとなっている方法論に項目反応(応答)理論(Item Response Theory:IRT)がある。IRTでは,ある受験者がある項目(問題)に正答する確率を,項目反応モデルと呼ばれる統計モデルで表現する。IRT(および後述する等化)を適用することで,各受験者がそのときに受けた試験問題の難易度や,受験者集団の能力分布の違いに極力左右されないという意味で公平な評価が可能になる。また,IRTはいわゆるテスト(試験)だけでなく,測定の性能評価や効率化等を目的として,(教育)心理学研究における心理尺度の作成・改良のためにも既に広く活用されている。加えて,昨今の高大接続改革において導入が検討されている英語の民間試験にも関わる話題として,異なるテストに基づく得点(スコア)を同一尺度上で比較可能にするための等化(equating) またはリンキング(linking)と呼ばれる方法があるが,これの多くはIRTのもとで体系化された技術である。
本チュートリアルの目的は,IRTについて初めて学ぶ方,またテスト(心理尺度)を作成・利用する立場にある研究者や教育関係者の方などを対象に,IRTの基本的な考え方とともにその適用上の利点や注意点,および実際の心理学研究や実践例を基にした統計ソフトRの実行方法について平易に解説することである。具体的に,本チュートリアルでは,IRTの利点についてまず俯瞰した後に,幾つかの基本的な項目反応モデルを紹介する。そして,項目反応モデルを用いた研究・実践に密接に関わっている等化について,その基本的な考え方や方法を解説し,そして統計ソフトRを用いたIRTの実行例を幾つか紹介する。統計ソフトR については,その操作方法についての解説も本チュートリアル内で行うが,例えば回帰分析の実行などのごく基本的な操作経験は既にあることが,本チュートリアルの内容をスムースに理解する上で望ましい。また,本チュートリアルで使用するデータ等は事前にアップロードし,当日参加者が自身のPCで同じ分析を実行できるようにする予定であるため,Rを予めインストールしたPCを持参することを推奨する。
項目反応理論の考え方
光永悠彦
2020年度から開始される予定の大学入学共通テストなど,新しい高大接続のあり方をめぐる議論の中で,項目反応理論(IRT)やコンピュータ・ベースト・テスティング(computer based testing: CBT)といった言葉がメディアにも頻繁に登場してきている。IRTは決して新しい考え方ではなく,計量心理学をベースに体系化されてきた「テスト理論」の一つとして1950年代ごろから発展を重ねてきたものであり,より質の高いテストや心理尺度を作成するための重要な理論的背景である。
テストを行った結果は,一般に,受験者が各項目(問題)に反応(例えば,正解・不正解)したデータの形式としてまとめられる。このようなデータを用いて各項目の難しさ(項目困難度と呼ばれる)を評価するための素朴な方法として,各項目で正答数や正答率を調べることが挙げられる。しかし,ある項目で正答率が高いからといって,その問題が絶対的な意味で易しい問題であるとは即断できない。なぜなら,仮に客観的に見て問題が「難しい」と感じられるものであったとしても,実際の受験者集団の能力がその水準を超えて高いのであれば,多くの正答が発生することが予期されるためである。ここから分かることは,正答数や正答率といった身近な項目困難度の指標値は,受験者集団の能力分布に依存した相対的なものということになる。これは,例えば期間を隔てて異なる受験者集団に実施した異なるテスト内の項目間の困難度の比較が厳密にはできないことを意味する。そのため,大規模能力試験の文脈で一般に想定されているような,異なる受験者に対して継続的にテストを実施する上では大きな障害となる。
この例からも分かるように,テストの運用では,どのような受験者集団に基づくデータなのかに依存せず,困難度などの項目の統計的特徴を知ることができれば望ましい。同様の点は,項目だけでなく,受験者の能力を評価する場合にも言える。そこで,この問題を解決する一つの有力な方法が,IRTを用いて,ある受験者がある項目に正答する確率を,項目母数(項目困難度)と潜在特性値(個人の能力)の関数としての項目反応モデルにより表現し,実際のデータからこれらの母数や能力値を推定することである。
言語能力試験や適性試験など,現在日本で行われている大規模試験においては,受験者集団の能力分布に依存しない形で項目母数をあらかじめ推定しておき,その値を手がかりとして出題項目を精選し,評価や選抜をより精度よく効率的に行うための最適な項目セット(問題冊子)を作成して本テストを行う,といったプロセスを採用しているものがいくつかある。その基盤を支えるのがIRTを用いた尺度化の考え方であり,これによって異なる項目から構成される問題冊子を用いても相互にスコアが比較可能となるような標準化テストが作成できる。
ただし,標準化テストを実現するためには,あらかじめ尺度化の規準となる「規準集団」を定めておき,異なる受験者集団から得られた尺度化の結果を規準集団上の尺度で表現し直す必要がある。このような操作を「等化」と呼ぶ。IRTを用いた実際の運用においては,上述のように,既知の項目母数の情報を利用して本テストを実施するが,本テストのデータから推定される項目母数を規準集団上に等化することで,等化された項目母数の情報を将来のテストの実施に利用することができる。
IRTは,ある受験者がある項目に正答する確率を,項目母数と潜在特性値の関数としての項目反応モデルで表現していることを上で述べた。一方,質問紙調査データの分析の文脈において広く見られるように,複数の項目への回答の相関関係を説明するために,各調査対象者に因子得点を仮定し,それを用いて各項目に対する回答をモデル化することがある。ここで因子得点を潜在特性値(または個人の能力)と読み替えれば,数理的には,IRTは因子分析モデルに類似した分析手法と言える。このことからも示唆されるように,IRTの適用の際は,因子分析における因子数(例えば,一因子性)のような,モデル適用上の前提条件が満たされているかどうかのチェックが必要となる。
なお,項目の形式によっては,正解・不正解といった二値のデータだけではなく,正解・部分点・不正解といったような多値のデータや,他にも名義データなど別の形式のデータを扱うことも多くある。これらに対応した項目反応モデルも既に提案されており,実際のテストで活用されている。
本発表では,IRTに関する理論的基礎やデータの前提条件,および様々な項目反応モデルについて解説するとともに,実際のテストの運用にIRTがどのように用いられているのかについてより掘り下げて説明する。さらに,IRTに基づく等化について,その理論的な背景を説明し,テストの実施にどのように応用されているか説明する。あわせて,より質の高い心理尺度の作成のために必要な手続きについてテスト理論の視点から述べる。
Rを用いた項目反応理論による分析方法・実践例の紹介
登藤直弥
本チュートリアルセミナーで取り上げる項目反応理論(IRT)に基づく分析は,今現在,様々なソフトウェアによって実行可能となっており,このようなソフトウェアの代表例としてはBILOG-MG (Zimowski, Muraki, Mislevy, & Bock, 1996)が,日本で開発されたものとしては,たとえば,EasyEstimation (熊谷, 2009)やExametrika (荘島, 2008)を挙げることができる。一方で,近年,心理学領域の研究でも用いられることの多くなってきた統計解析用のソフトウェアとしてR (e.g., R Core Team, 2017)が挙げられる。Rは,インストールさえできれば,誰でもすぐに無償で利用できるソフトウェアであり,IRTを用いた分析も実行可能である。
そこで,本発表では,IRTによる項目母数と潜在特性値の推定ならびに等化を,参加者がRを用いて行うことができるようになることを目指す。そのために,1) Rで分析データを読み込み,2) 分析対象のデータにおいてIRTを適用する際の前提条件が満たされているか確認して,3) 適用した項目反応モデルの項目母数と潜在特性値を推定し,4) 推定結果を解釈し,5) 等化を実施する手続きについて,1~5の順で実際にデータを解析しながら説明を行うこととする。その際,2における前提条件としてはテストの一次元性の仮定と,局所独立性と呼ばれる仮定を取り上げることとし,3における項目反応モデルとしては,利用されることの多い,二値データのためのモデル(1パラメタ・ロジスティックモデル,2パラメタ・ロジスティックモデル,3パラメタ・ロジスティックモデル)および多値データを扱うための段階反応モデル(Samejima, 1969)を取り上げることとする。
また,IRTによる実践に密接に関わる指標として,テスト特性関数とテスト情報関数がある。テスト特性関数とは,任意の潜在特性値に対応するテスト得点の期待値を潜在特性値の関数として表したものである。テスト情報関数とは,そのテストを実施して得られる潜在特性値の推定精度に関する情報を潜在特性値の関数として表したものである。これら二つを利用することにより,IRTでは,a) 同じ構成概念の測定を意図した異なるテスト間の統計的性質(e.g., 難易度や誤差の大きさ)の比較が可能となり,また,b) 当該のテストがどのような能力層の受験者の測定・評価に適しているか検討することが可能となる。そこで,上述5の手続きを解説した後に,テスト特性関数とテスト情報関数を用いた実践例として,『教育心理学研究』に掲載された論文を中心に説明し,Rでテスト特性関数ならびにテスト情報関数を求める手続きについても解説する。