評定尺度はリカートが発明したわけではない

椎名乾平

[PA63] 評定尺度はリカートが発明したわけではない

リカート(1932)より前の世界

^○椎名乾平 (早稲田大学)

Keywords:評定尺度、歴史、心理測定

　現在，評定尺度と言えば事実上Likertの方法をさす。Likert (1932, A technique…)以前の評定尺度の有様について調べた。以下，文献記述は不完全だがすべて検索可能なのを確認してある。そもそもRating scaleを「評定尺度」と訳したのは増田幸一(1927，心理学研究，p. 129)のようである。Likert法には理論的根拠があるが（椎名，教心予稿集，2016），それ以前にも同様のデータ収集法が強い根拠なしで多用されていたのがわかった。尚，現在の使用法と直接繋がらない古い例はMcReynolds & Ludwig (1987, On the history of rating scales…)に詳しい。現在と同様の評定尺度は，19世紀末頃から，以下の5領域，Ａ:遺伝・知能，Ｂ:教育測定，Ｃ:人事査定・職業適性，Ｄ:性格，Ｅ:態度，でかなり大々的に使用されていた。Garrett & Schneck (1933, Psychological Tests..)では，評定尺度が４分類されている。すなわち，
R1）Man-to-Man Rating Scale ある特性について5人の具体的人物を列挙しその人物に関係付けて評定する。現在は全く使われていないと思われる。下記Ｃ:参照
R2）Graphic Rating Scale　(下記はBills, 1923より)
目盛は等間隔である必要はなく，また線上のどこをマークしても良い。
R3）Numerical Rating Scale パーセントを数値で答える方法。廃れて来ていると言う。
R4）Descriptive or Adjective Rating Scale　現在のLikert法とほぼ同じもの。すなわち分野別に使用例を挙げれば以下のようになろう。
Ａ:遺伝・知能　Galton (1869, Hereditary genius, p.34)の才能による人間等級化は有名だが（R3に近い），実データを取ったわけではないので，評定尺度と呼べるものの最初の使用例はStatistics of mental imagery (1880, Mind)であろう(R4)。心像の明瞭性について9段階尺度で聞いている。Pearson (1903, On the Inheritance of the Mental.., p.210)では下図のような5段階評定尺度が使われている（R4。ここでは姉妹の健康状態の比較が目的である）。
その後のPearsonの心理学的研究でも似たようなデータが扱われている。
Ｂ：教育測定　周知のとおり20世紀初頭に教育測定運動がThorndikeを主導者にして興隆したが，ここでも評定尺度が用いられた。Bradshaw (1930, American Council on Education Rating Scale: its reliability..)に総説がある。また，評定尺度作成・使用についての留意点39項目がまとめられている。この論文では教師の人事評価に用いられたMiner ( 1917, The evaluation of a method for finely graduated) の評定尺度（次図）が重要なものとされている。
さらに古くBoyce (1915, Methods for measuring teachers' efficiency)では，教師の勤務評定用紙(Score Card)の中で評定尺度が広く使用されたことが述べられており(R4)，各用紙で用いられたカテゴリー段階数についての集計結果まである。ちなみに2，3，4，5，6，7段階尺度がそれぞれ2，11，24，12，4，1回使用されたそうである。
Ｃ:人事査定・職業適性第一世界大戦でYerkesが主導して知能テストが作成・実施されたのは良く知られているが，これと平行してScott, W.D.の指導の下に軍隊用適性（職能）検査が作成された。米国陸軍の評価としては後者の方が高かったようである。具体的にはArmy Rating Scale (これがR1)と，Graphic Rating Scaleが開発され利用された。戦後，ScottはScott Companyを設立して，これらの手法を民間企業に広めた。また遠藤公嗣(1999)によれば，大戦後1924年より米国連邦政府は公務員の勤務評定法としてGraphic Rating Scaleを使用し始めた（ただし1935年に廃止）。お上のお墨付きがついたこともあり評定尺度（特にR2）は様々な産業領域で使用されるようになったと考えられ，現在日本の「人事考課」にも繋がるという。　
Ｄ:性格　Pearsonにも性格特性の研究といえるものがあるが，本格的性格心理学での評定尺度の嚆矢はWebb (1915, Character and intelligence)であろう。非常に丁寧に用心深く評定尺度を使用しているのが現在でも参考になる。使われているのは７段階尺度であるが符号付数値を直接回答させているようである。また結果がなるべく正規分布になるように回答に分布制限を定めている。
Ｅ:態度　他の研究分野よりやや遅れて，1920年代から態度研究が盛んになる。教育測定運動の尺度にも態度系のものがある(佐藤隆之，2018，市民を育てる学校)。
結　　論
　20世紀初頭，評定尺度は広く深く使用されていた。当時，実験計画法や統計的検定はまだ普及しておらず，ここで挙げたすべての研究が心理特性の測定あるいはその相関を念頭においたものである。わが国でも米国の動向に４，５年程度の遅れで同じように研究され実際に使用されている。主導者は上野陽一，増田幸一である。

Presentation information

[PA] ポスター発表 PA(01-63)

[PA63] 評定尺度はリカートが発明したわけではない

リカート(1932)より前の世界