3章 the testing cycle
言語テストの作成は、同じ行程をくるくるくるくる巡って作成されます。 "Language Testing"の本の中では、自動車の設計に例えられていました。日常生活で目にする自動車。一発であの形になるわけではありません。コンセプトの企画、機能の選別、デザインの作成、試行、設計の見直し...世の中に出回るまでには、幾多もの修正を重ねているはずです。
車に限らず、何をするにしても、構成の見直しや、細部の修正は行われます。
この章では、
「どういう行程でテストはデザインされ、改善されていくのか」
「より良いテストを作成するには、どのような段階を踏まなければならないのか」
という問いに対する答えをまとめています。
今回は、そんな一発ですんなりといかない、テスト作成の行程を紹介します。
3. the testing cycle
言語テスト作成の手順を先に紹介しておきます。様々な手順が考えられますが、この順序が無難だと考えられます。
1. 試験を行う上での制約を考慮する
2. テストで評価する内容(能力や分野)を選択する
3. テストで評価する方法を選択する(評価される解答を考案する)
4. 試行し、改善点を探す
これらの手順の意義、注意点を、以下で紹介していきます。
1. 試験を行う上での制約を考慮する
言語テスト作成のきっかけは様々です。それは、生徒が授業で英語を身につけられたかを確認するためだったり、国からの学力テストの実施の要請だったり、留学する学生の選抜を目的としたり、実に多種多様です。
米ソ間での冷戦中には、情報収集を出来る人材を集めることをきっかけに、有名なインタビュー形式の試験 OPI (Oral Proficieny Interview)が発達しました。また、世界のグローバル化に伴って、欧米への留学生が増えたことにより、その選抜目的に迫られ、主に米用の TOEFL (Test of English as a Foreifn Language)と、英・豪用の IELTS (International English Language Testing System)が開発されました。
様々な言語テストが開発されましたが、どの言語テストを作る上でも、一番初めに考えなければいけないことが
「試験を行う上での制約を考慮する」ことです。
どんな試験を行うにしても、試験を行う上での制約は考慮しなければなりません。何の制約も無しに、学習者の言語運用を測定することは、実際に有りえないと思います。試験を考案した後に実現不可能とわかっては手遅れですので、まずは言語テストを行う上での制約を書きだしてみるといいかもしれません。
使用可能な資源を考えてみましょう。
まず、物質的な資源として、教室・机は足りているか。リスニングテストを行うための聴覚機材は設置されているか。インタビューテストの確認を行うためのレコーダーはあるか。
そして、経済的な資源の制約も存在します。パフォーマンステストの場合は、採点者は熟達した言語運用が出来なければなりません。その人材を雇える資金は調達できるのでしょうか。
忘れてはならない制約として、テストのセキュリティーも挙げられます。受験者に対し、試験実施まで試験問題を漏洩せず、保管しなくてはならないという制約も存在します。スピーキングテストにおいて、採点者の数は限られいるため、一斉実施は困難でしょう。スピーキングのトピックが事前に他の受験者に漏洩してしまえば、その場での産出は確認できなくなってしまう恐れがあります。
制約が確認できたら、次の段階へ進みましょう。
2. テストの内容(能力や分野)を選択する
制約を把握したら、次はその言語テストで何を測定したいかを考えましょう。
そのテストの目的に関しては、
1章(Testing, testing... What is a language test?)でまとめています。例えば、その言語テストが「教育の成果を確認する目的」であれば、盛り込むべき内容は教えた内容が中心になると考えられますし、その一方で、「学習者が現在、どれくらい言語運用が熟達しているか」を確認するのであれば、テスト作成者が言語運用能力をどのように捉えているか、という観点が重要となってきます。テストで測定しようとする能力の捉え方に関しては、前回(
2章 Communication and the desgn of language tests)でのtest constructで詳しく説明しています。簡単にまとめて紹介しますと、テスト作成者が言語運用能力をどのように捉えているかで、測定すべき対象が異なってきます。そして、これから作成する言語テストでは、その運用能力を測定するために、具体的にどのような観点から、何を測定するかを決定しなければなりません。
例えば、もし言語運用能力を「文法」と「語彙」と「発音」の知識の総和でであると考える場合は、その3つに関する知識をテストで問えば学習者の言語運用能力を評価出来ます。
また、この段階で選択する「内容」は、テストで測定する対象だけではありません。そのテストでどの領域まで測定し、合格目標基準を特徴づける項目を設定しなければいけません。
この領域・合格目標基準の決め方には2つのベクトルが存在します。
1つ目は、実用的な観点で、パフォーマンスや出題に関して、重要度の高い領域を選択するものです。これにより、マニアックな項目に関してはテストから除外し、実際の使用でよく見られる反応を合格の基準に設定することができます。第2章で紹介したjob analysisが特に顕著な例となります。
2つ目はより抽象的な観点で、理論上存在する能力に焦点を置き、評価すべきパフォーマンス(産出)を構成する能力・要素を選択するものです。例えば、スピーキングに関する能力を測定する際に、「明瞭さ」と「態度」と「流暢さ」を測定対象とすることが、この観点にあたります。
テストで測定する「対象」と「領域(分野)」が設定出来れば、次のステップです。
3. テストで評価する方法を選択する(評価される解答を考案する)
テストで何を対象に測定するかが決定すれば、その能力を測定する方法を考案すれば、ひと通りテストは完成です。テストで測定する内容の選択次第で、適切なテストの手法は大きく異なるでしょう。
パフォーマンステストの場合は、基本的に「どのような側面(能力・要素)で」そのパフォーマンスを観察するかを考案します。
また、独立した「文法」「語彙」といった知識を問うようなdiscrete point testの場合は、ペーパーテストのフォーマットを考案することになります。
主にパフォーマンステストでの注意
どのような方法で評価するにせよ、「受験者の反応の自然さ(Authenticity of response)」という観点は考慮しなければなりません。どんな言語テストでも、受験者に自然な解答を行わせ、なるべく純粋な産出を評価することは大切です。
使わせたい構文を産出させるために、現実では起こり得ないような文脈を与えても、自然な言語使用の中で「本当にに使える」ことを保証出来ません。また、多肢選択式問題のように、選択肢の中から使うことばを選ぶような状況は、生活する上ではありえませんから、受験者がその問題を正解し「知っている」ことは確認できても、その知識が自然な産出の中で使用出来るとは限りません。
受験者の解答には、最大限、自然な環境で測定する配慮が必要です。
しかし、あまりに自然さを求めすぎてしまうとどうなるでしょうか。
学習者による純粋な産出は、個人個人により多種多様であり、評価しづらいという特徴をもちます。各受験者の産出を評価する上で、採点基準が異なってはいけません。学習者に対し、完全に自由な産出を許可してしまえば、採点する際の基準を統一できず、採点者内で不平等が起きてしまいます。また、採点する際の労力も大きくなってしまい、実施が困難となってしまいます。
常に「自然な環境での測定」とは妥協を含むものです。
他にも、テストの環境の設定では、複雑な問題があります。
例えば、学習者が留学しても、きちんと授業を受けられる程の英語運用能力があることを保証するテストを作るとします。留学先で授業を受ける際には、「ノート・メモをとる」というスキルが重要であると考え、そのスキルを測定しようとします。実際の環境に出来るだけ近づけるため、短い講義を受けさせ、ノートをとらせ、ノート上にメモされた内容と実際に行われた授業の内容が一致しているかで評価するとします。
さて、このテストにはどのような問題が含まれているでしょうか。
テストで受験者が受ける講義の内容という点ではどうでしょうか。
授業内でメモ・ノートを取るためには、少なくともその講義の内容を理解できなければなりません。もし、その講義の内容が難しすぎた場合は、受験者はその能力とは関係なしに、メモを取ることができません。そのため、この技能の評価は精確に行われていないことになります。
また、講義が簡単すぎた場合のメモはどうなるでしょうか。
特に内容のない話に関して、我々はメモをとらないように、その講義の内容が受験者にとって簡単過ぎる場合は、受験者はメモを取る必要性を感じないかもしれません。すると、実際にはメモ・ノートをとる技能は備わっているのに、学習者はメモを取ることなく講義を受けてしまうため、能力がないとされてしまいます。この技能の評価を行うことができていないことになります。
また、学習者のノートの取り方は様々なはずです。解答の種類が様々になると、採点者はそれに臨機応変に合わせて対応しなければなりません。すると、採点者の負担が多くなり、短時間での試験の実施は困難になりますし、採点者を確保するための費用も余分にかかってしまいます。
それだけにとどまらず、学習者のノートの取り方が「大きな流れをメモする」場合と「細かな細部の情報をメモする」場合では、どちらのノートが優れているか、その採点は非常に困難となります。
以下の問題は、テストの方法以前の話なので、この段落は適当ではありません。よって、括弧をつけて紹介します。
(また、test constructでの問題です。果たして、留学に行く学習者にとってノート・メモを取る能力は、本当に必要なのでしょうか。
実際の留学中の授業では、録音や録画が可能かもしれません。しかしながら、テストではきっとレコーダーやビデオカメラの持ち込みは許されないでしょう。また、実際の授業では、わからない内容について、周囲や教師に対して質問できる環境が用意されているかもしれません。となると、「メモやノートをとる」という能力は、留学する上ではあまり求められない能力なのかもしれません。
つまり、「留学に必要な能力」を保証するための能力の捉え方そのものに、問題があると考えられます。)
まとめると、テストでの評価の方法を設定する際には、実現可能な範囲での「最大限、自然な環境」を設定する必要がありそうです。測定する能力が本当に測定できているか、そのデータが真にどれだけ近いかは妥当性といいます。この妥当性に関しては5章で詳しく説明します。
主にペーパーテストでの注意
学習者に産出させるテストは、コストや時間の制約上、実施が困難となる場合もあります。その場合に用いられるのがペーパーテストでの、「多肢選択式問題」「正誤問題」、そして「短い設問」(short answer question)です。
各問題の注意事項を紹介します。
「多肢選択式問題」
多肢選択式問題は通常、語彙テスト等で使用されます。学習者の中にある語彙の定義を確認するためのテストで、文章の流れを捉えた上で、そのコンテクストに合う定義を持った語彙を選択させる問題です。
この多肢選択式問題では、1つの語彙リストを複数の問題で共有する場合もあります。その場合に、問題数より選択肢の数を多く設定する必要があります。これは、消去法により、学習者が定義を知らなくても正解となる場合を予防することが目的です。
「正誤問題」
リーディングやリスニングの後に、文章を提示し、その文章が見聞きした情報と一致しているかどうかを問う問題を正誤問題と言います。
この正誤問題を作成する際には、本文に含まれる情報をもとに問題文を作成しないといけません。しかし、この問題は単に語の入れ替えでは、きちんとした本文の理解を確認できたとは言えないため、テストとしては不十分でしょう。本文の単語のパラフレーズや、本文では明示的に言われていない内容を問題とする必要がありそうです。
「短い設問」
短い設問を設けて、学習者の理解や産出を確認することは、テストでは一般的です。
このような問題では、長所として、推測に依る部分を減らし、同時に自然さを尊重した解答を期待することができます。一方で、短所としては、採点を複雑にし、労力や予算がかかってしまうことが欠点として挙げられます。
採点の複雑さは、単に機械での採点が困難であるだけに因らず、解答の正解の種類や定義を事前にきちんと決めなければいけないことにも因ります。
テストを実施する上での制約や、測定しようとする対象にあった、テストの方法を選択しなければ、妥当な評価は困難となります。それだけに、テストの方法の選択にも細心の注意が必要となります。
テスト方法が決定したら、最後のステップとなる「試行」です。
4. 試行し、改善点を探す
ここまで、作業が進めば、テスト完成まで後一息です。
作成したテストが、どれほど学習者の能力を測定できているかを確認しましょう。できるかぎり、この試行を行う条件は、実際に合わせた方が妥当性が増す、と考えられます。(discrete point test上の試行の結果として得られた、統計的なデータからの修正に関しては6章で詳しく説明します。)
この試行を行う際、出来れば、テスト製作者に対するフィードバックを集めるべきでしょう。テストの解答の意図がわからなかったり、注釈が読みづらかったりと、能力の測定以外で解答ができなくなることを、最大限排除しなければなりません。
以上が、テストを作成する際の過程を紹介しました。
テスト作成の過程で問題が発生した場合は、それに関連した範囲を修正するため、何度も何度もやり直しをしなくてはなりません。
学習者の能力を測定することは、容易なことではありません。試行錯誤する中で、よりよい言語テストを作成するように、心がけましょう。
次では 4章 The rating processを紹介します。