[k-tut01] 教育・臨床実践のための介入効果の解析と評価
キーワード:プログラム評価, ロジックモデル, 調査観察研究
企画の趣旨
知覚心理学や生理心理学などの基礎心理学分野はもちろんのこと、教育心理学研究においても研究協力者をランダムに各条件に割り当て、条件間の比較を行う「無作為割り当てを伴う実験研究」を行った研究の方が、実験を伴わない調査研究や観察研究、あるいは介入研究よりも“高度”であり“より正確な結果を与える”という一種の思い込みが存在するようである。実験状況で生じえるホーソン効果などの生態学的妥当性の問題はもちろんのこと、実験研究は往々にして本来研究の対象となる人々とは異なる人々(例えば大学生)をターゲットとしたものになりがちであり、アナログ研究としての問題点(対象者が異なることによって生じる外的妥当性の問題点)を有している。また、そもそも教育実践や臨床実践を志向する研究や実践の現場で行う研究では、対象者に特定の治療条件を強制することは倫理的な理由から難しく、対象者がどの条件を受け入れるかを選択するという場合が多い。教育心理学研究において多く生じる、実験ができない調査観察研究から介入効果を評価するために、様々な準実験デザインとそこでの分析方法やデータ取得の注意点などについて企画者が紹介する。話題提供者からはより広い意味でのプログラム評価の考え方と方法論について、ロジックモデルの重要性を中心に、コミュニティ介入研究などの実例を交えながらご講演頂く。
調査観察研究での研究デザインと解析の基礎
星野崇宏
無作為割り当てが行えない調査・調査研究では教授法や学習方略の効果など、観察された群間差が背景要因による見かけ上の効果か、本当に関心のある要因によって生じているのかを判別することが難しい。「もし無作為割り当てを伴う実験研究を行った時に得られるであろう介入効果」(これを統計的な因果効果と呼ぶ)を推定する因果効果推定法の開発はこの20年ほどの間に統計学において急速に進展した研究領域であるが(星野,2009)、そのルーツは教育心理学にあるだけに、本来的には教育心理学研究と高い親和性を有する。メタ分析などと同様に、応用研究への普及は医学疫学研究で先行していたが、この10年間で社会科学での調査観察研究でも必須とされつつあり(APAのJournal Article Reporting Standards, 2008など)、国内でも近年やっと認知されるようになった。本講演では、調査観察研究から因果効果を推定するための様々な研究デザインと、因果効果を推定する際に必要な背景要因(共変量と呼ぶ)の選択方法、およびそれを利用した統計的な調整法について、数理的な知識を要求せずにその本質と応用研究での利用のあり方について説明する。
心理教育プログラムの効果実証に向けた
プログラム評価の導入方法
安田節之
プログラム評価とは
プログラムとは「何らかの問題解決や目標達成を目的に人が中心となって行う実践的介入」のことを指す。プログラム評価とは,その“プログラム”を“評価”することであり,主に,欧米の心理学,教育学,社会学などの社会科学領域の研究者によって発展を遂げてきた。発展初期である1950年代から1970年代には,実験心理学の手法を用いたプログラム評価の方法論が整備され,特に実験・準実験デザイン(experimental and quasi-experimental design)を用いたデータに基づく教育プログラム及び社会・公共サービスの変革が目指された(例:Campbell, 1969)。一方,実験・準実験デザインの方法論に偏ったプログラム評価は,政治・社会経済的な要因の影響や倫理的配慮の必要性が存在するフィールド(現場)においては,非現実的かつ視野狭窄であるという見方が専門家の間で広まっていった(Shadish & Luellen, 2013)。
“プログラミング”の可視化
プログラムの実施目的は様々であり,その規模(small-/medium-/large-scale)はもとより,介入レベル(個人・組織・地域コミュニティ),介入方法(直接的介入・間接的介入),評価主体(自己評価・外部評価)等も多種多様である。そのため,①プログラムの目的は何か(ゴールの構造化),②どのような効果・成果がどのような道筋で利用者に及ぼされるのか(インパクト理論),③期待される効果・成果をもたらすためにどのようなプログラムの運営を行うのか(ロジックモデル),を可視化する作業が求められる。その上で,④評価の焦点や優先順位を絞り評価活動で迷わないために評価クエスチョンを設定し(評価クエスチョン),実際のデータ収集・分析等を行うことになる(安田,2011;安田・渡辺,2008)。以上の4つの基本ステップの検討は,実際のプログラムの「評価実践」のみならず,「評価研究」そして「評価教育」の各側面において実用的なアプローチとなる。また,プログラムの実践者や評価者を含むステークホルダーの“評価マインド”を涵養し,評価キャパシティ構築(evaluation capacity building)につなげる上で有効である。本セミナーでは,実例を参考にし,このアプローチに基づいたプログラム評価の方法を検討する。
エビデンスに基づく実践とプログラム評価
エビデンスに基づく実践(evidence-based practice)とは「研究による最適な科学的根拠に臨床の専門的知識・技術と患者の価値尊重を統合したもの」(Institute of Medicine, 2001, p. 147)のことを指し,心理学領域では「研究による最適な科学的根拠にクライエントの特徴・文化・嗜好を考慮した上での臨床の専門的知識・技術を統合したもの (APA Presidential Task Force on Evidence-Based Practice, 2006, p. 273)」と定義されている。
ここでの“研究による最適な科学的根拠(best research evidence)”とは,つまるところ,ランダム割付か否か,比較群が存在するか,サンプル数は十分であるか,統計的有意性があると同時に効果量の程度は高いか,といった方法論の厳格性(methodological rigor)に拠るところが大きい。しかしながら,ランダム化無作為試行(RCT : randomized control trial)に代表される方法論に厳格な実験デザインを適用したプログラム評価は,ヒューマンサービス領域では数少ない。利用者やクライエントへの倫理的配慮や現場の理解(“buy-in”),方法論の技術移転(technology transfer)が十分進んでいない現状を踏まえると,実験デザインのような厳格な評価方法を用いた評価に堪えうるプログラムはごくわずかと予想される。本セミナーでは,フィールドの要請や制約のもと,いかにプログラム評価を進めていくかについて,アカウンタビリティや評価キャパシティ構築といった関連概念を参考に検討する。
文献
星野崇宏 (2009). 調査観察データの統計科学―因果推論・選択バイアス・データ融合 岩波書店
APA Presidential Task Force on Evidence-Based Practice (2006). Evidence-based practice in psychology, 61, 271-285.
Institute of Medicine. (2001). Crossing the quality chasm: A new health system for the 21st century. Washington, DC: National Academy Press.Shadish, W.R., Cook, T.D., and Campbell, D.T. (2002). Experimental and Quasi-Experimental Design for Generalized Causal Inference, Boston, Houghton Mifflin.
Shadish, W. R., & Luellen, J. K. (2013). Donald Campbell: The accidental evaluator. In M. C. Alkin (ed.).Evaluation roots: Tracing theorists’ views and influences (2nd edition). Sage publication (pp. 61-65).
安田節之 (2011). プログラム評価―対人・コミュニティ援助の質を高めるために. 新曜社
安田節之・渡辺直登 (2008). プログラム評価研究の方法. 新曜社
知覚心理学や生理心理学などの基礎心理学分野はもちろんのこと、教育心理学研究においても研究協力者をランダムに各条件に割り当て、条件間の比較を行う「無作為割り当てを伴う実験研究」を行った研究の方が、実験を伴わない調査研究や観察研究、あるいは介入研究よりも“高度”であり“より正確な結果を与える”という一種の思い込みが存在するようである。実験状況で生じえるホーソン効果などの生態学的妥当性の問題はもちろんのこと、実験研究は往々にして本来研究の対象となる人々とは異なる人々(例えば大学生)をターゲットとしたものになりがちであり、アナログ研究としての問題点(対象者が異なることによって生じる外的妥当性の問題点)を有している。また、そもそも教育実践や臨床実践を志向する研究や実践の現場で行う研究では、対象者に特定の治療条件を強制することは倫理的な理由から難しく、対象者がどの条件を受け入れるかを選択するという場合が多い。教育心理学研究において多く生じる、実験ができない調査観察研究から介入効果を評価するために、様々な準実験デザインとそこでの分析方法やデータ取得の注意点などについて企画者が紹介する。話題提供者からはより広い意味でのプログラム評価の考え方と方法論について、ロジックモデルの重要性を中心に、コミュニティ介入研究などの実例を交えながらご講演頂く。
調査観察研究での研究デザインと解析の基礎
星野崇宏
無作為割り当てが行えない調査・調査研究では教授法や学習方略の効果など、観察された群間差が背景要因による見かけ上の効果か、本当に関心のある要因によって生じているのかを判別することが難しい。「もし無作為割り当てを伴う実験研究を行った時に得られるであろう介入効果」(これを統計的な因果効果と呼ぶ)を推定する因果効果推定法の開発はこの20年ほどの間に統計学において急速に進展した研究領域であるが(星野,2009)、そのルーツは教育心理学にあるだけに、本来的には教育心理学研究と高い親和性を有する。メタ分析などと同様に、応用研究への普及は医学疫学研究で先行していたが、この10年間で社会科学での調査観察研究でも必須とされつつあり(APAのJournal Article Reporting Standards, 2008など)、国内でも近年やっと認知されるようになった。本講演では、調査観察研究から因果効果を推定するための様々な研究デザインと、因果効果を推定する際に必要な背景要因(共変量と呼ぶ)の選択方法、およびそれを利用した統計的な調整法について、数理的な知識を要求せずにその本質と応用研究での利用のあり方について説明する。
心理教育プログラムの効果実証に向けた
プログラム評価の導入方法
安田節之
プログラム評価とは
プログラムとは「何らかの問題解決や目標達成を目的に人が中心となって行う実践的介入」のことを指す。プログラム評価とは,その“プログラム”を“評価”することであり,主に,欧米の心理学,教育学,社会学などの社会科学領域の研究者によって発展を遂げてきた。発展初期である1950年代から1970年代には,実験心理学の手法を用いたプログラム評価の方法論が整備され,特に実験・準実験デザイン(experimental and quasi-experimental design)を用いたデータに基づく教育プログラム及び社会・公共サービスの変革が目指された(例:Campbell, 1969)。一方,実験・準実験デザインの方法論に偏ったプログラム評価は,政治・社会経済的な要因の影響や倫理的配慮の必要性が存在するフィールド(現場)においては,非現実的かつ視野狭窄であるという見方が専門家の間で広まっていった(Shadish & Luellen, 2013)。
“プログラミング”の可視化
プログラムの実施目的は様々であり,その規模(small-/medium-/large-scale)はもとより,介入レベル(個人・組織・地域コミュニティ),介入方法(直接的介入・間接的介入),評価主体(自己評価・外部評価)等も多種多様である。そのため,①プログラムの目的は何か(ゴールの構造化),②どのような効果・成果がどのような道筋で利用者に及ぼされるのか(インパクト理論),③期待される効果・成果をもたらすためにどのようなプログラムの運営を行うのか(ロジックモデル),を可視化する作業が求められる。その上で,④評価の焦点や優先順位を絞り評価活動で迷わないために評価クエスチョンを設定し(評価クエスチョン),実際のデータ収集・分析等を行うことになる(安田,2011;安田・渡辺,2008)。以上の4つの基本ステップの検討は,実際のプログラムの「評価実践」のみならず,「評価研究」そして「評価教育」の各側面において実用的なアプローチとなる。また,プログラムの実践者や評価者を含むステークホルダーの“評価マインド”を涵養し,評価キャパシティ構築(evaluation capacity building)につなげる上で有効である。本セミナーでは,実例を参考にし,このアプローチに基づいたプログラム評価の方法を検討する。
エビデンスに基づく実践とプログラム評価
エビデンスに基づく実践(evidence-based practice)とは「研究による最適な科学的根拠に臨床の専門的知識・技術と患者の価値尊重を統合したもの」(Institute of Medicine, 2001, p. 147)のことを指し,心理学領域では「研究による最適な科学的根拠にクライエントの特徴・文化・嗜好を考慮した上での臨床の専門的知識・技術を統合したもの (APA Presidential Task Force on Evidence-Based Practice, 2006, p. 273)」と定義されている。
ここでの“研究による最適な科学的根拠(best research evidence)”とは,つまるところ,ランダム割付か否か,比較群が存在するか,サンプル数は十分であるか,統計的有意性があると同時に効果量の程度は高いか,といった方法論の厳格性(methodological rigor)に拠るところが大きい。しかしながら,ランダム化無作為試行(RCT : randomized control trial)に代表される方法論に厳格な実験デザインを適用したプログラム評価は,ヒューマンサービス領域では数少ない。利用者やクライエントへの倫理的配慮や現場の理解(“buy-in”),方法論の技術移転(technology transfer)が十分進んでいない現状を踏まえると,実験デザインのような厳格な評価方法を用いた評価に堪えうるプログラムはごくわずかと予想される。本セミナーでは,フィールドの要請や制約のもと,いかにプログラム評価を進めていくかについて,アカウンタビリティや評価キャパシティ構築といった関連概念を参考に検討する。
文献
星野崇宏 (2009). 調査観察データの統計科学―因果推論・選択バイアス・データ融合 岩波書店
APA Presidential Task Force on Evidence-Based Practice (2006). Evidence-based practice in psychology, 61, 271-285.
Institute of Medicine. (2001). Crossing the quality chasm: A new health system for the 21st century. Washington, DC: National Academy Press.Shadish, W.R., Cook, T.D., and Campbell, D.T. (2002). Experimental and Quasi-Experimental Design for Generalized Causal Inference, Boston, Houghton Mifflin.
Shadish, W. R., & Luellen, J. K. (2013). Donald Campbell: The accidental evaluator. In M. C. Alkin (ed.).Evaluation roots: Tracing theorists’ views and influences (2nd edition). Sage publication (pp. 61-65).
安田節之 (2011). プログラム評価―対人・コミュニティ援助の質を高めるために. 新曜社
安田節之・渡辺直登 (2008). プログラム評価研究の方法. 新曜社