[JH08] 文系学生に対する心理統計教育
質的・カテゴリカルデータの分析
キーワード:心理統計教育、質的データ、カテゴリカルデータ
企画の趣旨
心理学研究では,心理尺度等を用いて測定される量的な変数ばかりではなく,質的な変数が用いられることも多い。例えば,発達心理学領域では,対象となる幼児の行動を観察し,どのような種類の行動が生起したかを分類・記録したデータは,名義尺度(場合によっては順序尺度)の水準となることが多い。このようなカテゴリカルデータ(質的データ)に対して統計的方法を用いて分析を行うのは,量的なデータを分析する場合とは違った難しさがある。
今回の自主企画シンポジウムでは,このような,カテゴリカルデータ(質的データ)の分析に着目する。心理学を専攻する学部生の卒業論文においても,このようなデータの処理について正しい知識・スキルを持つことは重要なことであろう。
3名の話題提供者は,心理統計学,数理社会学,発達心理学といった異なるバックグラウンドを持つ。具体的な話題提供の内容は,1. 質的変数を説明・予測するためのロジスティック回帰分析,2. 社会科学の観点から,因果推論のためのカテゴリカルデータの生成過程の理解とデータ収集法の教育,3. カテゴリーを生成しデータを分類する難しさ,を予定している。
話題提供の後,幼児期の発達心理学を専門とする指定討論者から,3名の話題提供に対してコメントをいただく。続いて,フロアとの意見交換を通じて議論を深め,情報共有を行うことで,心理統計教育の改善に寄与するセッションとしたい。なお,本セッションはJSPS科研費17K04356の助成を受けた。
質的変数を説明・予測するためのロジスティック回帰分析
岩間徳兼
本話題提供では,筆者のこれまでの学習および教育経験に基づき,ロジスティック回帰分析の理論の概要を説明しながら,授業において当該手法を扱う意義について,自分なりの考えを示したい。筆者自身,文系学生として心理統計学を学び,文学部や教育学部といった文系学部において多変量解析の実践や理論について教えてきた。そして,授業において,手法の一つとしてロジスティック回帰分析を取り上げることが多かった。なお,大抵そうではあるが,ロジスティック回帰分析について説明する際には,学習者は記述統計学と推測統計学の枠組みを概ね理解しており,重回帰分析について学習済みであることを想定している。
重回帰分析が「量的な一つの従属変数を質的および量的な複数の独立変数によって説明・予測するための手法」であるのに対して,ロジスティック回帰分析は「質的な一つの従属変数を質的および量的な複数の独立変数によって説明・予測するための手法」である。両者の説明における違いは最初の一文字が「量」か「質」かだけであり,両手法には共通する部分がある。重回帰分析との比較をすることで,質的な従属変数がモデル上でどのように扱われるかに焦点を当ててロジスティック回帰分析の理論について説明することが可能である。
これまで教えてきた経験から,学習者が統計学の考え方を理解する上でもロジスティック回帰分析は有効であると感じている。モデル推定に用いられる最尤推定はその一例である。そもそも重回帰分析は単回帰分析からの流れで記述統計の考え方をベースに説明されることが多いが,最尤推定については連続型確率分布である正規分布を用いるためにイメージが湧きにくい。それに対して,質的変数を扱うロジスティック回帰分析の最尤推定では単純な離散型確率分布を用いるのでイメージが湧きやすい。これは,二項検定によって仮説検定を説明する場合と同様である。
もちろん,ロジスティック回帰分析を教える際に文系学生にとってハードルとなることも存在する。具体的には,指数と対数,オッズとオッズ比などの知識がそうであろう。当日は,上記および関連する事柄について具体的な内容を示しながらお話をしたい。
因果推論をデータ生成過程から考える
大林真也
かねてより社会学では,長らくサーベイデータを用いた研究が盛んに行われてきたが,近年では回収率の低下によりそのデータの質が危機的な状況にある。
その一方で近年では,社会科学にわたるトレンドとして因果推論が盛り上がってきた。因果推論の観点からすると,従来型のサーベイデータでは因果関係の推定が難しいとされ,実験・準実験的なデータ収集が行われるようになった。従来型のサーベイデータでは因果関係を推定することが難しい大きな要因はセレクションが存在することである。そのため,データに含まれる人と含まれない人という質的な違いを生む背後の要因が存在することを理解することが重要になる。さらにそのような問題を克服して因果関係を特定するために重要なのは,ランダム割付である。ある処置を受ける人と受けない人という質的に異なるタイプの人がランダムに存在することが重要になる。意図的にこのような割付を行えない場合は,自然にランダム割付を行なっているかのような要因(操作変数)を見つけることが重要になる。
因果推論で重要なのは,高度な統計的手法ではなく,このような質的な違い(セレクションやランダム割付)を生む要因について洞察するという,データ生成過程への理解やそれに基づいたデータ収集法である。このような要因についての洞察があれば,因果関係の推定は,t検定や重回帰分析など学部生レベルの手法で多くの場合は対処が可能となる。したがって,因果推論の教育で重要となるのは,データ分析の基本が異なるタイプの比較であることに対する理解,またそのタイプの違いが何によって発生しているのかというデータ生成過程(≒収集法)についての洞察を促すことである。そのため,因果推論を行うために望ましい性質を備えたデータを収集することがまずは重要であるという基本的な部分に重点をおいた教育が重要となる。
カテゴリーを生成しデータを分類する難しさ
小松孝至
本シンポジウムの趣旨から,修士論文や卒業論文の指導経験を考えると,「幼児・小学校低学年の子どもたちに対人葛藤場面を仮想的にパペットで提示し反応を検討する」「算数の文章題に解答する際絵図を描くよう教示し,その正誤や問題による差を検討する(小学校5年生)」などの例が思い浮かぶ。ただ,自らの研究でも論文指導でも,質的データはカテゴライズせず分析することが多い(e.g. 山本・小松, 2016)。
(シンポジウムの趣旨から外れるかもしれないが)統計的な分析を意識しデータをカテゴライズする作業は悩ましい。例えば,小学校1年生に遊び道具を友人に取られる仮想場面を示し,「この後どうするかな」と尋ねた際,初発の反応として多いのは「返して」「聞いてから使って」等の発言だが,その後どうするかさらに尋ねると,あくまで平和的なやり取りを答える子どもも,取り返すという子どももみられる。中には最初から力ずくで取り返すと主張する例もあり,その言葉づかいも多様である(森脇, 2012)。こうしたデータの一部分に焦点を絞りカテゴライズすることは可能かつ必要かもしれない。ただ,個々の子どもたちがどのように葛藤に向き合うかを理解するためのカテゴリーづくりは,質的データをそのまま記述し考察するより困難である。
一方,「算数の文章題について,正しい絵図を描いた児童とそうでない児童の数が実験群と統制群で異なるか」(中塚, 2012)というように,比較的基準を設けやすい場合もある。ただ,実際の授業では,典型的な誤表象を描いた児童と,何を描いたか不明確な児童ではその後の指導は変わり,それを意識すればカテゴリーは複雑化してくる。
これらを考えると,時間の流れの中でやりとりが進むプロセス―教育心理学の研究対象の多くが該当する―を,客観性をもつ的確なカテゴリーで統計的に記述することは,少なくとも対象とする事象の周到な理解を必要とする。実際の指導では,その前段として,データそのものをしっかり読み考察することがまず重要であり,教員養成ではむしろそれこそを身につけてほしいと感じる。
心理学研究では,心理尺度等を用いて測定される量的な変数ばかりではなく,質的な変数が用いられることも多い。例えば,発達心理学領域では,対象となる幼児の行動を観察し,どのような種類の行動が生起したかを分類・記録したデータは,名義尺度(場合によっては順序尺度)の水準となることが多い。このようなカテゴリカルデータ(質的データ)に対して統計的方法を用いて分析を行うのは,量的なデータを分析する場合とは違った難しさがある。
今回の自主企画シンポジウムでは,このような,カテゴリカルデータ(質的データ)の分析に着目する。心理学を専攻する学部生の卒業論文においても,このようなデータの処理について正しい知識・スキルを持つことは重要なことであろう。
3名の話題提供者は,心理統計学,数理社会学,発達心理学といった異なるバックグラウンドを持つ。具体的な話題提供の内容は,1. 質的変数を説明・予測するためのロジスティック回帰分析,2. 社会科学の観点から,因果推論のためのカテゴリカルデータの生成過程の理解とデータ収集法の教育,3. カテゴリーを生成しデータを分類する難しさ,を予定している。
話題提供の後,幼児期の発達心理学を専門とする指定討論者から,3名の話題提供に対してコメントをいただく。続いて,フロアとの意見交換を通じて議論を深め,情報共有を行うことで,心理統計教育の改善に寄与するセッションとしたい。なお,本セッションはJSPS科研費17K04356の助成を受けた。
質的変数を説明・予測するためのロジスティック回帰分析
岩間徳兼
本話題提供では,筆者のこれまでの学習および教育経験に基づき,ロジスティック回帰分析の理論の概要を説明しながら,授業において当該手法を扱う意義について,自分なりの考えを示したい。筆者自身,文系学生として心理統計学を学び,文学部や教育学部といった文系学部において多変量解析の実践や理論について教えてきた。そして,授業において,手法の一つとしてロジスティック回帰分析を取り上げることが多かった。なお,大抵そうではあるが,ロジスティック回帰分析について説明する際には,学習者は記述統計学と推測統計学の枠組みを概ね理解しており,重回帰分析について学習済みであることを想定している。
重回帰分析が「量的な一つの従属変数を質的および量的な複数の独立変数によって説明・予測するための手法」であるのに対して,ロジスティック回帰分析は「質的な一つの従属変数を質的および量的な複数の独立変数によって説明・予測するための手法」である。両者の説明における違いは最初の一文字が「量」か「質」かだけであり,両手法には共通する部分がある。重回帰分析との比較をすることで,質的な従属変数がモデル上でどのように扱われるかに焦点を当ててロジスティック回帰分析の理論について説明することが可能である。
これまで教えてきた経験から,学習者が統計学の考え方を理解する上でもロジスティック回帰分析は有効であると感じている。モデル推定に用いられる最尤推定はその一例である。そもそも重回帰分析は単回帰分析からの流れで記述統計の考え方をベースに説明されることが多いが,最尤推定については連続型確率分布である正規分布を用いるためにイメージが湧きにくい。それに対して,質的変数を扱うロジスティック回帰分析の最尤推定では単純な離散型確率分布を用いるのでイメージが湧きやすい。これは,二項検定によって仮説検定を説明する場合と同様である。
もちろん,ロジスティック回帰分析を教える際に文系学生にとってハードルとなることも存在する。具体的には,指数と対数,オッズとオッズ比などの知識がそうであろう。当日は,上記および関連する事柄について具体的な内容を示しながらお話をしたい。
因果推論をデータ生成過程から考える
大林真也
かねてより社会学では,長らくサーベイデータを用いた研究が盛んに行われてきたが,近年では回収率の低下によりそのデータの質が危機的な状況にある。
その一方で近年では,社会科学にわたるトレンドとして因果推論が盛り上がってきた。因果推論の観点からすると,従来型のサーベイデータでは因果関係の推定が難しいとされ,実験・準実験的なデータ収集が行われるようになった。従来型のサーベイデータでは因果関係を推定することが難しい大きな要因はセレクションが存在することである。そのため,データに含まれる人と含まれない人という質的な違いを生む背後の要因が存在することを理解することが重要になる。さらにそのような問題を克服して因果関係を特定するために重要なのは,ランダム割付である。ある処置を受ける人と受けない人という質的に異なるタイプの人がランダムに存在することが重要になる。意図的にこのような割付を行えない場合は,自然にランダム割付を行なっているかのような要因(操作変数)を見つけることが重要になる。
因果推論で重要なのは,高度な統計的手法ではなく,このような質的な違い(セレクションやランダム割付)を生む要因について洞察するという,データ生成過程への理解やそれに基づいたデータ収集法である。このような要因についての洞察があれば,因果関係の推定は,t検定や重回帰分析など学部生レベルの手法で多くの場合は対処が可能となる。したがって,因果推論の教育で重要となるのは,データ分析の基本が異なるタイプの比較であることに対する理解,またそのタイプの違いが何によって発生しているのかというデータ生成過程(≒収集法)についての洞察を促すことである。そのため,因果推論を行うために望ましい性質を備えたデータを収集することがまずは重要であるという基本的な部分に重点をおいた教育が重要となる。
カテゴリーを生成しデータを分類する難しさ
小松孝至
本シンポジウムの趣旨から,修士論文や卒業論文の指導経験を考えると,「幼児・小学校低学年の子どもたちに対人葛藤場面を仮想的にパペットで提示し反応を検討する」「算数の文章題に解答する際絵図を描くよう教示し,その正誤や問題による差を検討する(小学校5年生)」などの例が思い浮かぶ。ただ,自らの研究でも論文指導でも,質的データはカテゴライズせず分析することが多い(e.g. 山本・小松, 2016)。
(シンポジウムの趣旨から外れるかもしれないが)統計的な分析を意識しデータをカテゴライズする作業は悩ましい。例えば,小学校1年生に遊び道具を友人に取られる仮想場面を示し,「この後どうするかな」と尋ねた際,初発の反応として多いのは「返して」「聞いてから使って」等の発言だが,その後どうするかさらに尋ねると,あくまで平和的なやり取りを答える子どもも,取り返すという子どももみられる。中には最初から力ずくで取り返すと主張する例もあり,その言葉づかいも多様である(森脇, 2012)。こうしたデータの一部分に焦点を絞りカテゴライズすることは可能かつ必要かもしれない。ただ,個々の子どもたちがどのように葛藤に向き合うかを理解するためのカテゴリーづくりは,質的データをそのまま記述し考察するより困難である。
一方,「算数の文章題について,正しい絵図を描いた児童とそうでない児童の数が実験群と統制群で異なるか」(中塚, 2012)というように,比較的基準を設けやすい場合もある。ただ,実際の授業では,典型的な誤表象を描いた児童と,何を描いたか不明確な児童ではその後の指導は変わり,それを意識すればカテゴリーは複雑化してくる。
これらを考えると,時間の流れの中でやりとりが進むプロセス―教育心理学の研究対象の多くが該当する―を,客観性をもつ的確なカテゴリーで統計的に記述することは,少なくとも対象とする事象の周到な理解を必要とする。実際の指導では,その前段として,データそのものをしっかり読み考察することがまず重要であり,教員養成ではむしろそれこそを身につけてほしいと感じる。