4. The rating process
採点の手順
採点は日常にあふれています。身近な所で言うと、就職活動や、スポーツ、もしくは友人の良し悪しを決めるのも含まれるかもしれません。
しかし、完全にフェアな判断は大変難しいです。審判には、どうしても判断ミスはつきものです。そして、採点の判断のミスは大問題に発展するおそれがあります。
身近な事例では、オリンピックの審判の判断のミスが国際問題に発展したり、就職の面接でも心象で結果が大きく変化してしまうことが挙げられます。
この4章では、言語テストにおいて、採点の手順に関して説明していきます。
特に、採点の手順上の妥当性を語る上で求められる3つの側面、採点のルールの設定・採点者間での差の協議・その緩和策を中心に話は展開していきます。
採点のルール設定
コミュニカティブな言語運用能力を育成する英語教育の流れにより、コミュニカティブテストが行われることが多くなってきました。特にコミュニカティブテストでは、採点者による、妥当な採点の判断が求められます。しかし、このことはどのテストでも同じでしょう。
能力の証明となるテストでは、採点の判断のルール設定に、3つの段階を踏みます。
1. (特にパフォーマンステストで) 条件の設定
(時間や説明中の態度を採点の基準に含めるか etc.)
2. 採点の要素の協議
(流暢さ、適当さ、構成、社会的な役割 etc.)
3. 採点の基準の設定
(秀・優・良・可・不可 etc.)
公平な採点を行うためには、採点者間で、事前にこれらの内容を協議しなければいけないでしょう。
ちなみに、2. 採点の要素の協議に関して、先にここで説明を行なっておきます。
Holistic and analytic rating
コミュニカティブテストを始めとするパフォーマンステストは非常に複雑です。学習者のパフォーマンスは様々な特徴を持っています。そのため、採点する際には、そのパフォーマンスのどの特徴に焦点を置けばいいか、という問題が常につきまといます。例えば、スピーキングテストにおいて、受験者のスピーキングは流暢であるが、その内容が伝わりにくい場合の評価はどのようにすればいいでしょうか。
このような場合、パフォーマンステストでの判断は、大きく分けて2つの方法があります。それはholistic ratingとanalytic ratingです。
前者のholistic ratingとは、各項目は度外視して、採点者の印象で、受験者のパフォーマンスを判断する採点方式です。
後者のanalytic racingとは、能力を複数の側面から観察し、それぞれのスコアを出すものです。後者の採点方式に関して言えば、受験者の得点は合計された形で伝えられることが多いのですが、同じ総計得点をとった学習者同士でも、そのパフォーマンスは異質であることが想定されるでしょう。
採点者間での差の協議
採点の手順では、どうしても採点者による主観を含んでしまうという落とし穴が存在します。
仮に、採点基準を明確にし、なるべく主観的な要素を排除し、ほぼ自動的に採点できるような体系を整えたとします。しかしながら、排除しきれない様々な要素で、完全には主観性は取り除くことが出来ないでしょう。
例えば、コミュニカティブテストを受験した生徒が、ある技能に関して評価基準を超えるか超えないか、ギリギリの場合です。この場合は、採点者間で判断が異なってしまう可能性の他に、その前後の受験者との比較が潜在的に働いてしまい、判断が変化してしまうことが考えられます。
1950年代から1960年代頃の言語テストでは、上記のように採点に主観が含まれてしまうことを理由に、ライティングのテストにおいても、なるべく制約を設け、文法や語彙の知識に関してのみ評価を行うテストが採用されることが多くなっていました。受験者のパフォーマンスを直接評価するテストは避けられてしまったのです。
しかしながら、コミュニカティブな言語学習が盛んとなり、この制約だらけの試験は、自然さの観点から、逆に問題視され、テストでのコミュニカティブな言語運用能力の測定の必要性が高まりました。これを契機に、テストに関する手順が固まっていきます。
評価の枠組みの制定
評価の手順を決める時には、テスト内で観察された英語の運用能力に対し、どれくらいのレベルで目標を達成したとみなすかを事前に決めておかなければいけません。そして同時に、その目標に対し、パフォーマンスをいくつのレベルに分けて評価するかを決める必要があります。テストの評価に、1点の判断点を設け、学習者のパフォーマンスの評価をもとに2分するようなテスト(言い換えれば、学習者が目標に対し、出来るか出来ないかという判断基準を持ったテスト)をhurdle/cut-pointといいます。
一方で、テストの評価に、複数の段階を設け、その到達度を評価するテストをladderといいます。
これらの2種類のテストは、そのテストの目的によって用いられ方が大きく異なります。
前者の学習者を2分するhurdle/cut-pointというテスト形式では、主に合否を設定し、能力を持つ受験者に、その能力を保証するために用いられることが多いです。その際、どれだけ運用能力が基準を超えるほど卓越していても、評価は変わりません。
例えば、運転免許証は、安全に運転をする能力を所有する受験者全員に配布されます。その際、運転の技術がどれだけ優れたF1レーサーだろうが、同じ免許を有することになります。
後者の学習者を細分化するladderというテスト形式では、主に上位に少数人を選抜する際に用いられます。
例えば、ピアノのコンテストや奨学金獲得のためのテストは、細分化されたレベルの中でも、上位数%しか到達できないような段階の受験者を選抜するために用いられます。もしくは、大学の単位も「秀・優・良・可・不可」という段階が用意されており、これに当たります。
上で述べたように、テストではパフォーマンスの評価に関して判断基準点を設け、レベル・段階分けを行います。そして、評価の枠組みの制定では、段階分けするだけに留まらず、通常では、設置された各段階に対し、そのレベルの名前や説明を行います。
例えば、運転免許のパフォーマンスに関して、判断(合格)基準点を超えた段階に対しては、「通常の交通状況において、20分間、順当に運転可能である」という名称・説明がつけられます。
このような評価のレベル分けの一覧をrating scaleといいます。TOEICのスコアが保証している運用能力の表が例にあたります。
このレベル分けがどの程度の技能を保証しているかを明言しておくことで、採点者間で評価基準をある程度まとめることができます。言い換えると、採点者間でのズレを予防することができます。また同時に、この結果を外部機関や受験者に伝えるときにも便利となります。
通常、このレベル分けは3~9の段階で構成されます。しかしながら、レベル分けの数の設定は、非常に難しい問題を持っています。というのも、このレベル分けは理論的な根拠より、実践的な感覚によって判断されています。故に、このレベル分けは我々の実践での感覚に頼らなければなりません。レベル分けする際に、闇雲に学習者の言語運用の段階を細分化することは無意味ですが、レベル分けが少なすぎると受験者の要望に応えることが出来ない場合があります。細分化されていないレベル分けは、限られた要素に従って受験者(学習者)の運用を評価することもあり、学習者の成長を捉え損ねることがあります。つまり、受験者の運用能力が伸びていても、ある程度のレベルまで成長しなければ、その評価は変わることはなく、学習者の伸びは確認されません。
一方で、機械的な事務や仕分けでは、そのレベル分けは少ないほうが効率が良いという面を持っています。
また、この段階分けにおいて、把握しておかなければならないのは、最も高いレベルに関して、大抵のテストでは「ネイティブ同等の運用能力を持つ」とされますが、実際のネイティブの運用能力にもかなりの差があり、一概には言えないということです。想定される「ネイティブ」の運用能力は、実際のところ、実施されたテストの難易度に左右され、理想化されてしまっていることが多いことがわかっています。
採点者間での差の緩和策
採点者のトレーニング
上記では、様々な側面から、採点者間での採点のズレが起きてしまう要因を紹介してきました。そのようなズレを緩和する策を1つ紹介します。その手順としては、複数の採点者が互いに様々な熟達度のパフォーマンスを演じ、採点し合います。パフォーマンスを演じた方と、評価した方の感覚が違った場合は協議します。そして、互いの基準の感覚を確かめ合う、という方法です。
このような方法で、完全ではありませんが、採点者間でのズレを緩和することができます。
採点をより公平に行うために、正しい手順に従って採点を行いたいところです。
また、誤字に関して訂正を教えてくださった方に、心より御礼を申し上げます。
TOEICのrating scaleなんかは予測的妥当性にあたると思いますし、「評価の枠組みの制定」なども妥当性の話ですが、採点者間のズレに関しては信頼性(interrater reliability)の話ではないでしょうか。「妥当」という言葉が多く用いられ「信頼」は一つも見られなかったことが、個人的に少し気になったというだけなので、無視してくださっても構いません。
返信削除○採点のルール設定
1. (特にパフォーマンステストで) 条件の設定
(時間や説明中の態度を採点の基準に含めるか etc.)
2. 採点の要素の協議
(流暢さ、適当さ、構成、社会的な役割 etc.)
3. 採点の基準の設定
(秀・優・良・可・不可 etc.)
○ladder・・・テストの評価に、複数の段階を設け、その到達度を評価するテスト
○rating scale・・・設置された各段階に対し、そのレベルの名前や説明を行う。
○採点者間での差の緩和策
・採点者のトレーニング
複数の採点者が互いに様々な熟達度のパフォーマンスを演じ、採点し合う。パフォーマンスを演じた方と、評価した方の感覚が違った場合は協議。 そして、互いの基準の感覚を確かめ合う、という方法。
これらのことはテスティングで基本となる用語だと思います。概念と共に整理されていてわかりやすかったです。院生として覚えておかなければ。。。
いつも、コメントありがとうございます。
削除「妥当性」と「信頼性」に関してですが、明確に定義を分けている本を見かけますが、多くの本では、【妥当性⊃信頼性】という感覚のようです。
信頼性とは通常、「テストの結果の一貫性」に関して焦点をおいた用語です。しかし、この信頼性が保たれなければ、結局のところ「テストの適切さ」にを指す妥当性は保証できないことになります。例えば、毎回採点基準がズレるテストは一貫性がない、故に能力を適切に測定できていないため、妥当性が低いと捉えられます。すなわち、信頼性は、妥当性の一部と位置づけられます。
妥当性は様々な要素があり、その中で信頼性だけ特別異なる性質のものと扱うのは適切ではないと考えているためか、多くの本ではまとめて妥当性として考えられていることが多いように思われます。
現在、同級生が現場でテストに関わることが増えているようです。院生だけに留まらず、現場で働く同級生たちも、生徒の努力をより正しく測定できればいいなぁ、と切実に願いつつ、わかりやすくブログをまとめていきたいですね。(最近多忙にかまけて、ブログ更新をサボっているので、自省を込めて...)