このブログを検索

2013年6月27日木曜日

テスティングにおける妥当性の基礎知識

以下の内容は、大学院での授業 特別研究[内容学] で作成した資料を一部改編したものである。

 妥当性とは、ある特定のテスト、あるいはテスト内の下位部門が意図した測定対象を適切に測定しているか否かを指す。テストは常に意図した測定対象を伴うために、妥当性とは常に特定の目的に対して検証する必要がある。妥当性を検証するにあたって、できる限り多くの側面から証拠を挙げることが好ましい。以下では、妥当性を内的妥当性(internal validity)・外的妥当性(external validity)・構成概念妥当性(construct validity)の3つに分類し、それぞれの側面から妥当性とその検証法を示す。

1.  内的妥当性
 内的妥当性は、対象となるテスト内における項目・要素から適切かどうかを判断する妥当性である。内的妥当性の代表例に、表面妥当性(face validity)・内容妥当性(content validity)・応答妥当性(response validity)の3つが挙げられる。

1.1        表面妥当性
表面妥当性は、テストの見かけがそれらしいか、という素人の直観に基づく妥当性である。この表面妥当性が高いと見えるならば、低い場合に比べ、受験者はそれだけ真剣に解答に取り組むことが予想され、後述する応答妥当性も高くなると考えられる。表面妥当性は非科学的であると排除されがちな分野であったが、コミュニカティブテスト(CLT)の広まり・応答妥当性まで踏まえると、確認すべき重要な項目となってきている。
表面妥当性の検証は、受験者・実施者をはじめとしたテスト使用者へのアンケートやインタビューをもとに、態度や情意反応に関するデータを集め、各セクションや項目ごとの受容度を算出することで行われる。

1.2        内容妥当性
内容妥当性とは、第三者としての専門家がテストの測定にかかわる内容が適切かどうかを判断した妥当性である。この内容妥当性は、テスト細目・カリキュラム・作成者の意図・専門家の判断を比較する中で考えられる。これらを比較する際には、判断基準を明記しなければならない。
以下では、内容妥当性の検証方法の一例として、Bachman, Kunnan, Vanniariajan, Lynch(1988)が、ある2つのテストの内容妥当性を比較するために行った手法を示す。まず、彼らはテスト内容を検証するため、言語コミュニケーション能力(CLA, Communicative Language Ability)尺度・テスト方法特徴(TMC, Test Methods Characteristics)尺度という2つの尺度を作成した。前者の言語コミュニケーション能力尺度では、受験者がテストを解く際に求められる能力から5項目―文法・テキスト・発話内行為・社会言語・言語方略―に関して、それぞれの複雑さの観点から、判断者による5段階尺度で評価される。後述のテスト方法特徴(TMC)尺度では、テストの項目・テスト文章に関連した4項目―テスト環境・テスト指示・項目の種類・テストの入力―に関して、それぞれの複雑さと出題頻度の観点から、判断者による3段階尺度で評価される。なお、テスト入力に関しては、さらに6つの下位項目-言語の複雑度・文章構造(rhetorical organization)・文脈化の度合い(degree of contextualization)・テストのトピック・文化的バイアス・語用論的特徴―が存在する。

5段階評価

3段階評価
                                                  
図        Bachman, Kunnan, Vanniariajan, Lynch(1988)における
内容妥当性検証のために用いられる尺度

内容妥当性における検証法を一般化すると、以下の3点として挙げられる。
a.    テストの内容を、シラバスや細目と比較する
b.    授業を実施した教員・科目の専門家・応用言語学者にアンケートやインタビューを行う
c.     専門家が明確な基準をもとに、テスト項目とテキストを評価する

1.3        応答妥当性
応答妥当性とは、受験者がどのような思考過程を辿ってテストを解いているのかを理解することによって、テストが何を測定しているのかを示した妥当性である。それぞれの問題において、テスト作成者の意図した項目が、受験者に適切に解釈されているかを明らかにすることで、妥当性を考えることができる。例えば、クローズテストのそれぞれの空欄を埋めるのに必要な能力について、テスト作成者が想定した能力とは異なる能力を用いて、受験者が解答していた場合には、テストの妥当性は高いとは言えない。
検証法として、テストの最中に思考を発話させて分析を行う・テスト後に録画された受験過程を確認しながらインタビューを行うことが挙げられる。

2.  外的妥当性
外的妥当性は、対象となるテスト外における要素からテストが適切かどうかを判断する妥当性である。外的妥当性の代表例に、併存妥当性(concurrent validity)・予測妥当性(predictive validity)の2つが挙げられる。外的妥当性検証は、相関係数を用いて分析されることがほとんどである。

2.1        併存妥当性
併存妥当性とは、ある受験者から得られた成績と、ほぼ同じ時期に得られた別の測定値を比較し得られた妥当性である。比較するデータは、対象となるテストから独立したものを採用しなければならないため、互いに近い関係にあるテストでない限り、その相関関係から得られる妥当性係数は+0.50 +0.70程度になるのが通常である。比較に用いるデータは、他のテストの結果以外にも、自己評価・教師の評価・同じテストの別の型を使用することができる。併存妥当性で明らかになった内容を用いる利点は大きく2つ挙げられる。1点目に、比較対象のテストが入手しづらい・使用しづらい場合に転用できる可能性が明らかとなることが挙げられる。(e.g. TOEFLの受験は一般校では困難なため、併存妥当性が認められた別の安価な試験での成績を目安として代用する) 2点目に、定期的に新しい試験を作成していかなければならない場合に、過去のテストと測定している能力が異なっていないかを確認できる。(e.g. 毎年異なる問題を作成しなければならない入試において、新・旧形式の試験での相関関係で+0.90以上の併存妥当性が見られ、測定する能力や難易度が大きく変わっていないことが確認できる場合に、新形式の試験を採用することができる) また、テストの結果と、教師による評価・受験者の自己評価を確認することで、両者の結果の関係を明らかにすることも可能である。教師の評価・受験者の自己評価における数値は、通常アンケートを用いることになるが、その数値の求め方は特に留意しなければならない。
併存妥当性の検証法をまとめると、以下の3点がとして挙げられる。
a.    同一の受験者が受けた2つのテストの結果の相関をとる
b.    受験者のテスト得点と教師の順位付けの結果との相関をとる
c.     受験者の受験者自身の評価数値との相関をとる

2.2        予測妥当性
 予測妥当性とは、主に熟達度テスト内において、受験者が得たスコアが将来どのくらい発揮できるかを予測した妥当性である。検証方法として、同一の受験者に対し、一定期間後再度テストを行うことが挙げられる。また、後日テストを行うのではなく、クラス編成後の成績の伸びや教師による評価をもとに予測妥当性を求めることも考えられる。共通して言えることは、一定期間経った際の学習者の変化の予測がその結果と一致しているかどうか、ということである。しかし、予測妥当性の検証には大きく3つの問題点が含まれている。1つ目の問題点に、受験者全員に再テストを行うことが難しいことが挙げられる。(e.g. 留学前の審査に用いられるIELTSTOEFLを留学後の生徒に行った場合には、上位の生徒の予測妥当性しか回収できない) 2つ目の問題点に、後日テストでは、受験者の言語能力以外での能力自体が上がっていることが考えられ、予測妥当性を低くする影響が考えられる。3つ目の問題点は、後日テストの性質が異なるテストを採用した際に限られるが、前後のテストで測定される能力が異なっているため、他の要因が影響することが考えられる。(e.g. TOEFLでの予測妥当性として、先行研究ではGPA(各大学での学期ごとの成績の平均値)を用いることが多いが、GPAには言語能力以外の多くの要素が含まれる。) その他の留意点に、この予測妥当性は一般的にそれほど高い数値にならないことが通常であるため、+0.30程度の数値でも妥当性が見られる、と解釈せざるを得ない場合がある。
予測妥当性の検証法をまとめると、以下の3点として挙げられる
a.    後日受けさせたテストとの両テストとの得点の相関をとる
b.    テスト得点と、しばらくしてからの教師の評価との相関をとる
c.     (クラス編成テストの場合)クラス編成後の成果との相関をとる

3.  構成概念妥当性
 構成概念妥当性はテストの構成そのものに関与する妥当性であるために、上記に挙げた内的妥当性・外的妥当性を統合した上位概念と捉えることができる。構成概念妥当性を検証することは、テストがどの程度理論と合致し、理論を適切に操作化(operationalisation)しているかを検証するプロセスである。以下では、この構成概念妥当性における検証法を6点挙げる。
a.    理論における各構成能力を測定した得点同士の相関をとる
b.    理論における各構成能力を測定した得点と、テスト全体の得点の相関をとる
c.     理論における各構成能力を測定した得点と、その得点をテスト全体から引いた得点と相関をとる
これらの手法は、テスト内の部門に注目し相関をとる点で共通している。テスト内で設置した異なる部門は、異なる能力を測定しているという前提があるため、その相関が+0.30+0.50と低くなるのが通常であり、+0.90などの高い相関が得られた場合には、各部門が同じ特性あるいは技能を測定していることを疑う必要がある。一方で、各部門とテスト全体の相関は、後者がより一般化された能力を測定しているはずなので、+0.70のような高い相関関係が予想される。このテスト全体には、相関関係を求めたい各部門が含まれているため、その分、各部門の相関は高くなっていることが懸念されるため、内的相関にもとづく検証では、「各部門で得られた得点」と「当該部を引いたテスト全体の得点」の相関を求める方が適切である。
d.    テスト得点と学習者のバイオデータ・心理的特性などとの相関をとる
この手法では、相関を扱うという点で上記の方法と共通しているが、相関に用いる数値がテスト以外での、受験者の背景から導き出される点で異なる。受験者の背景―性別・年齢・母語・学習年数など―はテストの結果に影響を与えていることが考えられる。これらのバイオデータが、構成概念妥当性に影響を及ぼす要因を確認しておくことは重要である。また、理論的に関係のある心理特性に注目し、相関を用いる方法もある。たとえば、適性テストの文法感受性(grammatical sensibility)を測定する部門と、それに関連した帰納的学習能力を測定する部門の結果と比較する。このような関連した部門同士はより高い相関を示すことが予想される。
e.     多特性多方法分析を行う
Bachman(1990)の「構成概念妥当性を相関係数を使って設計する古典的アプローチ」、またはCampbell & Fiske(1959)の多特性多方法分析(multitrait - multimethod matrix)を用いることで、収束妥当性(convergent validity)という観点から妥当性を検証することができる。収束妥当性とは、互いに関係のあるテスト同士は高い相関を示し、また関連のないテストでは相関が低くなる、という妥当性である。よって、この多特性多方法分析では、同受験者における、検証する対象のテストでのスコアと同時に、あらかじめ妥当性が明らかにされたテストでのスコアが必要となる。細かい手法に関しては、複雑な統計が絡み、理解が及んでいないので割愛する。
f.     因子分析を行う
因子分析(factor analysis)を用いることで、各因子の関係性をグループに還元できる。行数関数と統計的操作を行う中で、各下位部門での関係性を負荷量(factor loadings)という観点で見出すことで、言語能力のどの側面がどの側面に、どのように関係付けられているのかを予測し、構成概念妥当性の検証を行う。(原理は複雑なため、細かい部分まで理解が及んでいないので今回の発表では割愛させてもらいます。)

4.  妥当性と信頼性の関連
 ここでは、妥当性と信頼性の関連を考える。信頼性とは、テスト全体の首尾一貫性である。しかし、信頼性を高めると妥当性が下がってしまうという問題が考えられる。
 信頼性において重要な観点に、採点における一貫信頼性が挙げられる。採点における測定結果は常に一定の質を保つべきである。しかし、信頼性を最大にするためには、妥当性を犠牲にしなければならない場合が多い。(e.g. 多肢選択問題の数を多くすれば、採点の際の信頼性は高まるが、実際の言語使用能力を図るには不自然な設定になってしまい、妥当性は下がってしまう。)
 また、信頼性の観点には、テスト全体の内部一貫性(consistency reliability)も挙げられる。信頼性においては、テスト全体の項目が均一である方が適切であるとみなされる。しかしながら、3.3構成概念妥当性で述べた通り、各項目が異なる能力を測定している場合においては、異なる下位部門を構成する能力を測定しているため、相関関係は低い方が適切とみなされる。

 妥当性と信頼性の関連において留意しておかなければならない点は、テストの目的に応じて重みづけを考慮し、折り合いをつけることが必要となることである。テスト作成の際には、テスト細目で明記されているテストの設定条件をもとに折り合いをつける必要がある。(なお、本資料では、テスト作成者に求められるテスト細目の説明を省略している。)


参考文献
J. Charles Alderson, Caroline Clapham, Dianne Wall ;Language Test Construction and Evaluation
渡部良典翻訳 言語テストの作成と評価 あたらしい外国語教育のために

0 件のコメント:

コメントを投稿