このブログを検索

2013年4月23日火曜日

スピーキングを伸ばすには定型表現が効く Conversation: From Description to Pedagogy

スピーキングを伸ばすには定型表現が効く?!


 英会話を行う際に、パッと言葉が出なくなってしまうことは多々あります。「あれっ、こんなときにネイティブは何というのだっけ?何かよく聞くフレーズがあったんだけど...」 このような経験は、皆さんもあるのではないでしょうか。


 英語での会話の何割が定型表現なのでしょうか。少し古いデータなのですが、Sorhus(1976)によると、口語で用いられる語は 5単語に1つの割合で 定型表現が用いられているそうです。
 とても軽視できない割合だと思います。


 そもそも、会話を構成する上でも、内容を伝えるための枠組みは重要です。例え、話す内容があっても、話しかけるきっかけの一言が無ければ、会話は始まりません。
 野球部で、走塁の練習を何度積み重ねた所で、出塁するためのバッティングのスキルがなければ「使えない選手」とみなされるのと同じように、どんなに文法の勉強を行なっても、会話を初められないのでは、結局「英語を喋られない」とみなされてしまう恐れがありますよね。


 定型表現と一言に言いましたが、定型表現の英語の呼び名は多数あります。
(i.e. multi-word phrases, lexical chunks, lexicalized sentence stems, prefabricated utterances...)

 この記事では、特定の使用場面で頻繁に用いられるセットフレーズ(conversational routines)に絞ります。(慣用句的に特殊な意味を持つような熟語等を指しているわけではありません。)
このconversational routinesというフレーズは、会話上での、社会的な役割・機能で分類し、覚えると用いやすそうですね。

 どのような分類ができるか、その定型表現を挙げながら紹介します。

thanking (感謝)

 thank you very much
 many thanks
 thank you ever so much
 thanks a million


apologizing(謝罪)

 I'm sorry
 I'm awfully sorry
 beg your pardon
 excuse me


requests(要求)

 would you mind ...?
 how about ...?
 do you think you could ...?
 I wonder if you could ...?


offers(提案)

 I'll ...
 shall I ...?
 would you like to ...?


 スピーキングに苦手意識がある、効果的な学習方法で手軽なのがないかな、と考えた方は、まずは定型表現から入ってみてはいかがでしょうか。Scott Thornbury & Diana Slade ;Conversation: From Description to Pedagogyのpp.62-66を中心にまとめました。

2013年4月10日水曜日

テストのいろは -採点の手順- Tim McNamara "Language Testing" 4章まとめ



4. The rating process


採点の手順


 採点は日常にあふれています。身近な所で言うと、就職活動や、スポーツ、もしくは友人の良し悪しを決めるのも含まれるかもしれません。
 しかし、完全にフェアな判断は大変難しいです。審判には、どうしても判断ミスはつきものです。そして、採点の判断のミスは大問題に発展するおそれがあります。
 身近な事例では、オリンピックの審判の判断のミスが国際問題に発展したり、就職の面接でも心象で結果が大きく変化してしまうことが挙げられます。

 この4章では、言語テストにおいて、採点の手順に関して説明していきます。
 特に、採点の手順上の妥当性を語る上で求められる3つの側面、採点のルールの設定・採点者間での差の協議・その緩和策を中心に話は展開していきます。


採点のルール設定


 コミュニカティブな言語運用能力を育成する英語教育の流れにより、コミュニカティブテストが行われることが多くなってきました。特にコミュニカティブテストでは、採点者による、妥当な採点の判断が求められます。しかし、このことはどのテストでも同じでしょう。

 能力の証明となるテストでは、採点の判断のルール設定に、3つの段階を踏みます。

1. (特にパフォーマンステストで) 条件の設定 
  (時間や説明中の態度を採点の基準に含めるか etc.)

2. 採点の要素の協議 
  (流暢さ、適当さ、構成、社会的な役割 etc.)

3. 採点の基準の設定
  (秀・優・良・可・不可 etc.)

 公平な採点を行うためには、採点者間で、事前にこれらの内容を協議しなければいけないでしょう。
 ちなみに、2. 採点の要素の協議に関して、先にここで説明を行なっておきます。


Holistic and analytic rating

コミュニカティブテストを始めとするパフォーマンステストは非常に複雑です。学習者のパフォーマンスは様々な特徴を持っています。そのため、採点する際には、そのパフォーマンスのどの特徴に焦点を置けばいいか、という問題が常につきまといます。
 例えば、スピーキングテストにおいて、受験者のスピーキングは流暢であるが、その内容が伝わりにくい場合の評価はどのようにすればいいでしょうか。

 このような場合、パフォーマンステストでの判断は、大きく分けて2つの方法があります。それはholistic ratinganalytic ratingです。
前者のholistic ratingとは、各項目は度外視して、採点者の印象で、受験者のパフォーマンスを判断する採点方式です。
後者のanalytic racingとは、能力を複数の側面から観察し、それぞれのスコアを出すものです。後者の採点方式に関して言えば、受験者の得点は合計された形で伝えられることが多いのですが、同じ総計得点をとった学習者同士でも、そのパフォーマンスは異質であることが想定されるでしょう。

採点者間での差の協議



 採点の手順では、どうしても採点者による主観を含んでしまうという落とし穴が存在します。

 仮に、採点基準を明確にし、なるべく主観的な要素を排除し、ほぼ自動的に採点できるような体系を整えたとします。しかしながら、排除しきれない様々な要素で、完全には主観性は取り除くことが出来ないでしょう。
 例えば、コミュニカティブテストを受験した生徒が、ある技能に関して評価基準を超えるか超えないか、ギリギリの場合です。この場合は、採点者間で判断が異なってしまう可能性の他に、その前後の受験者との比較が潜在的に働いてしまい、判断が変化してしまうことが考えられます。

 1950年代から1960年代頃の言語テストでは、上記のように採点に主観が含まれてしまうことを理由に、ライティングのテストにおいても、なるべく制約を設け、文法や語彙の知識に関してのみ評価を行うテストが採用されることが多くなっていました。受験者のパフォーマンスを直接評価するテストは避けられてしまったのです。
 しかしながら、コミュニカティブな言語学習が盛んとなり、この制約だらけの試験は、自然さの観点から、逆に問題視され、テストでのコミュニカティブな言語運用能力の測定の必要性が高まりました。これを契機に、テストに関する手順が固まっていきます。


評価の枠組みの制定

 評価の手順を決める時には、テスト内で観察された英語の運用能力に対し、どれくらいのレベルで目標を達成したとみなすかを事前に決めておかなければいけません。そして同時に、その目標に対し、パフォーマンスをいくつのレベルに分けて評価するかを決める必要があります。

 テストの評価に、1点の判断点を設け、学習者のパフォーマンスの評価をもとに2分するようなテスト(言い換えれば、学習者が目標に対し、出来るか出来ないかという判断基準を持ったテスト)をhurdle/cut-pointといいます。
 一方で、テストの評価に、複数の段階を設け、その到達度を評価するテストをladderといいます。

 これらの2種類のテストは、そのテストの目的によって用いられ方が大きく異なります。
 前者の学習者を2分するhurdle/cut-pointというテスト形式では、主に合否を設定し、能力を持つ受験者に、その能力を保証するために用いられることが多いです。その際、どれだけ運用能力が基準を超えるほど卓越していても、評価は変わりません。
 例えば、運転免許証は、安全に運転をする能力を所有する受験者全員に配布されます。その際、運転の技術がどれだけ優れたF1レーサーだろうが、同じ免許を有することになります。

 後者の学習者を細分化するladderというテスト形式では、主に上位に少数人を選抜する際に用いられます。
 例えば、ピアノのコンテストや奨学金獲得のためのテストは、細分化されたレベルの中でも、上位数%しか到達できないような段階の受験者を選抜するために用いられます。もしくは、大学の単位も「秀・優・良・可・不可」という段階が用意されており、これに当たります。


 上で述べたように、テストではパフォーマンスの評価に関して判断基準点を設け、レベル・段階分けを行います。そして、評価の枠組みの制定では、段階分けするだけに留まらず、通常では、設置された各段階に対し、そのレベルの名前や説明を行います。
 例えば、運転免許のパフォーマンスに関して、判断(合格)基準点を超えた段階に対しては、「通常の交通状況において、20分間、順当に運転可能である」という名称・説明がつけられます。


 このような評価のレベル分けの一覧をrating scaleといいます。TOEICのスコアが保証している運用能力の表が例にあたります。
 このレベル分けがどの程度の技能を保証しているかを明言しておくことで、採点者間で評価基準をある程度まとめることができます。言い換えると、採点者間でのズレを予防することができます。また同時に、この結果を外部機関や受験者に伝えるときにも便利となります。


 通常、このレベル分けは3~9の段階で構成されます。しかしながら、レベル分けの数の設定は、非常に難しい問題を持っています。というのも、このレベル分けは理論的な根拠より、実践的な感覚によって判断されています。故に、このレベル分けは我々の実践での感覚に頼らなければなりません。レベル分けする際に、闇雲に学習者の言語運用の段階を細分化することは無意味ですが、レベル分けが少なすぎると受験者の要望に応えることが出来ない場合があります。細分化されていないレベル分けは、限られた要素に従って受験者(学習者)の運用を評価することもあり、学習者の成長を捉え損ねることがあります。つまり、受験者の運用能力が伸びていても、ある程度のレベルまで成長しなければ、その評価は変わることはなく、学習者の伸びは確認されません。
 一方で、機械的な事務や仕分けでは、そのレベル分けは少ないほうが効率が良いという面を持っています。

 また、この段階分けにおいて、把握しておかなければならないのは、最も高いレベルに関して、大抵のテストでは「ネイティブ同等の運用能力を持つ」とされますが、実際のネイティブの運用能力にもかなりの差があり、一概には言えないということです。想定される「ネイティブ」の運用能力は、実際のところ、実施されたテストの難易度に左右され、理想化されてしまっていることが多いことがわかっています。



採点者間での差の緩和策

採点者のトレーニング

上記では、様々な側面から、採点者間での採点のズレが起きてしまう要因を紹介してきました。そのようなズレを緩和する策を1つ紹介します。
 その手順としては、複数の採点者が互いに様々な熟達度のパフォーマンスを演じ、採点し合います。パフォーマンスを演じた方と、評価した方の感覚が違った場合は協議します。そして、互いの基準の感覚を確かめ合う、という方法です。

 このような方法で、完全ではありませんが、採点者間でのズレを緩和することができます。


 採点をより公平に行うために、正しい手順に従って採点を行いたいところです。



 また、誤字に関して訂正を教えてくださった方に、心より御礼を申し上げます。

2013年4月8日月曜日

テストのいろは -テスト作成の手順- Tim McNamara "Language Testing" 3章まとめ


3章 the testing cycle


 言語テストの作成は、同じ行程をくるくるくるくる巡って作成されます。 "Language Testing"の本の中では、自動車の設計に例えられていました。日常生活で目にする自動車。一発であの形になるわけではありません。コンセプトの企画、機能の選別、デザインの作成、試行、設計の見直し...世の中に出回るまでには、幾多もの修正を重ねているはずです。
 車に限らず、何をするにしても、構成の見直しや、細部の修正は行われます。


この章では、

「どういう行程でテストはデザインされ、改善されていくのか」
「より良いテストを作成するには、どのような段階を踏まなければならないのか」

という問いに対する答えをまとめています。
今回は、そんな一発ですんなりといかない、テスト作成の行程を紹介します。


3. the testing cycle


 言語テスト作成の手順を先に紹介しておきます。様々な手順が考えられますが、この順序が無難だと考えられます。

1. 試験を行う上での制約を考慮する


2. テストで評価する内容(能力や分野)を選択する

3. テストで評価する方法を選択する(評価される解答を考案する)

4. 試行し、改善点を探す


これらの手順の意義、注意点を、以下で紹介していきます。





1. 試験を行う上での制約を考慮する



 言語テスト作成のきっかけは様々です。それは、生徒が授業で英語を身につけられたかを確認するためだったり、国からの学力テストの実施の要請だったり、留学する学生の選抜を目的としたり、実に多種多様です。
 米ソ間での冷戦中には、情報収集を出来る人材を集めることをきっかけに、有名なインタビュー形式の試験 OPI (Oral Proficieny Interview)が発達しました。また、世界のグローバル化に伴って、欧米への留学生が増えたことにより、その選抜目的に迫られ、主に米用の TOEFL (Test of English as a Foreifn Language)と、英・豪用の IELTS (International English Language Testing System)が開発されました。
 様々な言語テストが開発されましたが、どの言語テストを作る上でも、一番初めに考えなければいけないことが「試験を行う上での制約を考慮する」ことです。


 どんな試験を行うにしても、試験を行う上での制約は考慮しなければなりません。何の制約も無しに、学習者の言語運用を測定することは、実際に有りえないと思います。試験を考案した後に実現不可能とわかっては手遅れですので、まずは言語テストを行う上での制約を書きだしてみるといいかもしれません。

 使用可能な資源を考えてみましょう。
 まず、物質的な資源として、教室・机は足りているか。リスニングテストを行うための聴覚機材は設置されているか。インタビューテストの確認を行うためのレコーダーはあるか。
 そして、経済的な資源の制約も存在します。パフォーマンステストの場合は、採点者は熟達した言語運用が出来なければなりません。その人材を雇える資金は調達できるのでしょうか。
 忘れてはならない制約として、テストのセキュリティーも挙げられます。受験者に対し、試験実施まで試験問題を漏洩せず、保管しなくてはならないという制約も存在します。スピーキングテストにおいて、採点者の数は限られいるため、一斉実施は困難でしょう。スピーキングのトピックが事前に他の受験者に漏洩してしまえば、その場での産出は確認できなくなってしまう恐れがあります。

 制約が確認できたら、次の段階へ進みましょう。


2. テストの内容(能力や分野)を選択する


 制約を把握したら、次はその言語テストで何を測定したいかを考えましょう。
 そのテストの目的に関しては、1章(Testing, testing... What is a language test?)でまとめています。例えば、その言語テストが「教育の成果を確認する目的」であれば、盛り込むべき内容は教えた内容が中心になると考えられますし、その一方で、「学習者が現在、どれくらい言語運用が熟達しているか」を確認するのであれば、テスト作成者が言語運用能力をどのように捉えているか、という観点が重要となってきます。テストで測定しようとする能力の捉え方に関しては、前回(2章 Communication and the desgn of language tests)でのtest constructで詳しく説明しています。簡単にまとめて紹介しますと、テスト作成者が言語運用能力をどのように捉えているかで、測定すべき対象が異なってきます。そして、これから作成する言語テストでは、その運用能力を測定するために、具体的にどのような観点から、何を測定するかを決定しなければなりません。
 例えば、もし言語運用能力を「文法」と「語彙」と「発音」の知識の総和でであると考える場合は、その3つに関する知識をテストで問えば学習者の言語運用能力を評価出来ます。
 

 また、この段階で選択する「内容」は、テストで測定する対象だけではありません。そのテストでどの領域まで測定し、合格目標基準を特徴づける項目を設定しなければいけません。

 この領域・合格目標基準の決め方には2つのベクトルが存在します。
 1つ目は、実用的な観点で、パフォーマンスや出題に関して、重要度の高い領域を選択するものです。これにより、マニアックな項目に関してはテストから除外し、実際の使用でよく見られる反応を合格の基準に設定することができます。第2章で紹介したjob analysisが特に顕著な例となります。
 2つ目はより抽象的な観点で、理論上存在する能力に焦点を置き、評価すべきパフォーマンス(産出)を構成する能力・要素を選択するものです。例えば、スピーキングに関する能力を測定する際に、「明瞭さ」と「態度」と「流暢さ」を測定対象とすることが、この観点にあたります。


 テストで測定する「対象」と「領域(分野)」が設定出来れば、次のステップです。



3. テストで評価する方法を選択する(評価される解答を考案する)


 テストで何を対象に測定するかが決定すれば、その能力を測定する方法を考案すれば、ひと通りテストは完成です。テストで測定する内容の選択次第で、適切なテストの手法は大きく異なるでしょう。
 パフォーマンステストの場合は、基本的に「どのような側面(能力・要素)で」そのパフォーマンスを観察するかを考案します。
 また、独立した「文法」「語彙」といった知識を問うようなdiscrete point testの場合は、ペーパーテストのフォーマットを考案することになります。


主にパフォーマンステストでの注意


 どのような方法で評価するにせよ、「受験者の反応の自然さ(Authenticity of response)」という観点は考慮しなければなりません。どんな言語テストでも、受験者に自然な解答を行わせ、なるべく純粋な産出を評価することは大切です。
 使わせたい構文を産出させるために、現実では起こり得ないような文脈を与えても、自然な言語使用の中で「本当にに使える」ことを保証出来ません。また、多肢選択式問題のように、選択肢の中から使うことばを選ぶような状況は、生活する上ではありえませんから、受験者がその問題を正解し「知っている」ことは確認できても、その知識が自然な産出の中で使用出来るとは限りません。

 受験者の解答には、最大限、自然な環境で測定する配慮が必要です。


 しかし、あまりに自然さを求めすぎてしまうとどうなるでしょうか。
 学習者による純粋な産出は、個人個人により多種多様であり、評価しづらいという特徴をもちます。各受験者の産出を評価する上で、採点基準が異なってはいけません。学習者に対し、完全に自由な産出を許可してしまえば、採点する際の基準を統一できず、採点者内で不平等が起きてしまいます。また、採点する際の労力も大きくなってしまい、実施が困難となってしまいます。

 常に「自然な環境での測定」とは妥協を含むものです。




 他にも、テストの環境の設定では、複雑な問題があります。
 例えば、学習者が留学しても、きちんと授業を受けられる程の英語運用能力があることを保証するテストを作るとします。留学先で授業を受ける際には、「ノート・メモをとる」というスキルが重要であると考え、そのスキルを測定しようとします。実際の環境に出来るだけ近づけるため、短い講義を受けさせ、ノートをとらせ、ノート上にメモされた内容と実際に行われた授業の内容が一致しているかで評価するとします。
 さて、このテストにはどのような問題が含まれているでしょうか。


 テストで受験者が受ける講義の内容という点ではどうでしょうか。
 授業内でメモ・ノートを取るためには、少なくともその講義の内容を理解できなければなりません。もし、その講義の内容が難しすぎた場合は、受験者はその能力とは関係なしに、メモを取ることができません。そのため、この技能の評価は精確に行われていないことになります。

 また、講義が簡単すぎた場合のメモはどうなるでしょうか。
 特に内容のない話に関して、我々はメモをとらないように、その講義の内容が受験者にとって簡単過ぎる場合は、受験者はメモを取る必要性を感じないかもしれません。すると、実際にはメモ・ノートをとる技能は備わっているのに、学習者はメモを取ることなく講義を受けてしまうため、能力がないとされてしまいます。この技能の評価を行うことができていないことになります。

 また、学習者のノートの取り方は様々なはずです。解答の種類が様々になると、採点者はそれに臨機応変に合わせて対応しなければなりません。すると、採点者の負担が多くなり、短時間での試験の実施は困難になりますし、採点者を確保するための費用も余分にかかってしまいます。

 それだけにとどまらず、学習者のノートの取り方が「大きな流れをメモする」場合と「細かな細部の情報をメモする」場合では、どちらのノートが優れているか、その採点は非常に困難となります。


 以下の問題は、テストの方法以前の話なので、この段落は適当ではありません。よって、括弧をつけて紹介します。
(また、test constructでの問題です。果たして、留学に行く学習者にとってノート・メモを取る能力は、本当に必要なのでしょうか。
 実際の留学中の授業では、録音や録画が可能かもしれません。しかしながら、テストではきっとレコーダーやビデオカメラの持ち込みは許されないでしょう。また、実際の授業では、わからない内容について、周囲や教師に対して質問できる環境が用意されているかもしれません。となると、「メモやノートをとる」という能力は、留学する上ではあまり求められない能力なのかもしれません。
 つまり、「留学に必要な能力」を保証するための能力の捉え方そのものに、問題があると考えられます。)



 まとめると、テストでの評価の方法を設定する際には、実現可能な範囲での「最大限、自然な環境」を設定する必要がありそうです。測定する能力が本当に測定できているか、そのデータが真にどれだけ近いかは妥当性といいます。この妥当性に関しては5章で詳しく説明します。


主にペーパーテストでの注意

 学習者に産出させるテストは、コストや時間の制約上、実施が困難となる場合もあります。その場合に用いられるのがペーパーテストでの、「多肢選択式問題」「正誤問題」、そして「短い設問」(short answer question)です。
 各問題の注意事項を紹介します。

「多肢選択式問題」
 多肢選択式問題は通常、語彙テスト等で使用されます。学習者の中にある語彙の定義を確認するためのテストで、文章の流れを捉えた上で、そのコンテクストに合う定義を持った語彙を選択させる問題です。
 この多肢選択式問題では、1つの語彙リストを複数の問題で共有する場合もあります。その場合に、問題数より選択肢の数を多く設定する必要があります。これは、消去法により、学習者が定義を知らなくても正解となる場合を予防することが目的です。

「正誤問題」
 リーディングやリスニングの後に、文章を提示し、その文章が見聞きした情報と一致しているかどうかを問う問題を正誤問題と言います。
 この正誤問題を作成する際には、本文に含まれる情報をもとに問題文を作成しないといけません。しかし、この問題は単に語の入れ替えでは、きちんとした本文の理解を確認できたとは言えないため、テストとしては不十分でしょう。本文の単語のパラフレーズや、本文では明示的に言われていない内容を問題とする必要がありそうです。

「短い設問」
 短い設問を設けて、学習者の理解や産出を確認することは、テストでは一般的です。
 このような問題では、長所として、推測に依る部分を減らし、同時に自然さを尊重した解答を期待することができます。一方で、短所としては、採点を複雑にし、労力や予算がかかってしまうことが欠点として挙げられます。
 採点の複雑さは、単に機械での採点が困難であるだけに因らず、解答の正解の種類や定義を事前にきちんと決めなければいけないことにも因ります。



 テストを実施する上での制約や、測定しようとする対象にあった、テストの方法を選択しなければ、妥当な評価は困難となります。それだけに、テストの方法の選択にも細心の注意が必要となります。
 テスト方法が決定したら、最後のステップとなる「試行」です。


4. 試行し、改善点を探す


 ここまで、作業が進めば、テスト完成まで後一息です。
 作成したテストが、どれほど学習者の能力を測定できているかを確認しましょう。できるかぎり、この試行を行う条件は、実際に合わせた方が妥当性が増す、と考えられます。(discrete point test上の試行の結果として得られた、統計的なデータからの修正に関しては6章で詳しく説明します。)

 この試行を行う際、出来れば、テスト製作者に対するフィードバックを集めるべきでしょう。テストの解答の意図がわからなかったり、注釈が読みづらかったりと、能力の測定以外で解答ができなくなることを、最大限排除しなければなりません。




 以上が、テストを作成する際の過程を紹介しました。
 テスト作成の過程で問題が発生した場合は、それに関連した範囲を修正するため、何度も何度もやり直しをしなくてはなりません。
 学習者の能力を測定することは、容易なことではありません。試行錯誤する中で、よりよい言語テストを作成するように、心がけましょう。


次では 4章 The rating processを紹介します。

2013年4月3日水曜日

テストのいろは -能力の捉え方で様変わりするテストの形式- Tim McNamara "Language Testing" 2章まとめ



前回に引き続き、Tim McNamara Language Testing』をまとめていきます。今回は2章です。


 「テストで何を図ればいいのだろう?」と、改めて考えなおすと、難しかったりします。もし、自分が言語テストを作成する機会があれば、何を測定して、その子の言語運用能力を保証してあげるでしょうか。

 テストを作成する上で、「測定する能力をどう捉えているか」は非常に重要です。今回は、言語運用能力の捉え方とともに変化してきた、テスト形式の変遷を紹介します。


2. Communication and the design of language tests


 テストを作成する上で、「測定される能力がどのように構成されているか」は重要です。このような、テストを構成する概念をtest constructといいます。元々、この用語は、心理学で使われていましたが、今ではテスティングを考える上で、欠かせない考えとなっています。

 測定する対象の捉え方が変われば、その測定方法も伴って変化するように、英語の能力の捉え方が変われば、テストの形式も伴って変化します。
 この章では、過去の言語運用能力の捉え方とともに変化した、テストの形式の変遷を具体的に紹介する中で、テストを作成する上で、このtest constructの重要性を確認していきます。

discrete point test

1960年代のテストの形式は、構造主義言語学に強く影響されていたようです。1961年にRobert Ladoによって出版されたLanguage Testingによると、当時の言語テストでは、学習者の能力を「文法に関する知識」、「語彙に関する知識」、「発音」の3つの要素とし、それらを個別に評価していたことがわかります。
 言い換えれば、『言語運用は、「文法」を知ってて、「語彙」も知ってて、「発音」が上手ければ、OK。この3つを測定すると、どれだけ上手に言語を使えるかわかる!』という発想がありました。そのため、基本的にテストでは、独立した短文の中で、それぞれの知識が問われたため、多肢選択式問題が多用されていました。つまり、文法問題と語彙問題を絡めて出題する、ということは考えられず、短文の中で、各要素を別々に測定していました。この場合、多肢選択式問題が非常に都合がいいので、多用されていました。
 このような「能力の要素を分けて、それぞれを測定すれば、きちんとした運用能力が測定される」という発想のもとにテストを行うことを discrete point testing と呼びます。


 その後、上記のような能力を完全に分離して考えるのではなく、より統合された能力を測定しなければいけないと気づいたテスト製作者が現れ、新しいテストを考案します。彼らの新しいテストでは、「文法」と「語彙」と「発音」等ではなく、より統合された能力としてspeaking、listening、writing、readingという四技能という観点で評価すべきだと考えました。そして、彼らによって考案された四技能を測定し、言語運用と評価するテストを行うことを skills testing と呼びます。
 統合した能力とはいえ、リスニング、スピーキング、レーディング、ライティングの四技能は、個別の能力として評価されていました。

 現在でも、これらのdiscrete point testやskills testの考え方が、テスト形式に強く影響しています。



integrative and pragmatic test


 従来のdiscrete point testが栄えていた一方で、アメリカ・イギリスに留学希望者が増えるようになると、より実際に運用・生成できる言語能力を評価する必要性が生まれました。そのため、能力の測定を別々に分けて測定するdiscrete point testとは異なり、より統合された能力を測定する必要が生まれました。以前では個別に測定されていた能力を、より統合した形で測定するテストである integrative test が盛んになります。
 従来の discrete point test では能力を個別に評価するため、できるだけ短文で、文法・語彙の問いが混在しないような多肢選択式のテストが多用されていました。それに対し、このintegrative testでは、これらの知識が統合された形で産出されたものを評価するべく、オーラルインタビューやライティングテストが中心に用いられました。
 しかしながら、言語運用がかなり熟達したものでないと採点できず、実施が困難であるという大きな問題を抱えていました。


 そんな1970年代、John Ollerはテストにおいて新しい観点を提言しました。
 彼は、まず、言語使用の2つの特徴を述べています。

(1) the on-line processing of language in real time 
  (瞬時にやりとりを行うこと)

(2) a 'pragmatic mapping' component
  (言語に関する体系的な知識を、文脈にあった理解や表現に引き出す能力)

 この特徴を述べた上で、言語運用を測定するテストには、従来のdiscrete point testには含まれない、この2つの特徴を加えないといけない、と主張しました。

 この主張を行った上で、(彼はpragmatic testと呼んでいたが、)パフォーマンステストで測定される言語運用は、学習者の中にある様々な知識(文法・語彙・文脈・プラグマにおける知識)の統合であるという仮説( Unitary Competence Hypothesis )を主張した。つまり、パフォーマンステストで見られる言語運用は、学習者内の個別の能力による言語運用ではなく、学習者内の様々な知識が引き出され、その場の文脈や状況を読み取る力があってこその、統合された能力による産出である、という仮説である。


 また、彼はクローズテスト(cloze test)に代表されるような、有用性が高い上で、簡単に実行出来るテストを開発した。

 cloze testとは、400字くらいで構成される長文を用いるテストである。
 はじめの2文を導入文とし、それ以降の文に関して、6-8単語ごとに空白を作り、受験者にその穴埋めをさせるテストである。
 文を正しく構成するための穴埋めには、文法や語彙などの様々な知識だけでなく、その場の文脈や場面を読み取る能力が求められるため、統合された言語運用が測定できるというテストである。このテストは、簡単に実行できる上に、「コストの高いパフォーマンステスト」に似た結果が出せることがわかっている。
 (しかしながら、ほとんどの問題が文法・語彙に関する問題となってしまい、discrete testと似ている面を持つ。)

Communicative language test


 また、1970年代から、Hymesのコミュニケーション能力の研究が、言語の指導やテストにも影響を与えました。
 Hymesは社会的な側面から言語使用を捉え、文法を知るだけでは言語そのものを知ったことにならないとみなし、文化的な側面にまで、コミュニケーション能力の定義を広げました。

 このHymesの研究が指導やテストにまで応用されるのには時間がかかりましたが、この研究をきっかけにCommunicative language testが生まれます。
 このCommunicative language testには2つの特徴があります。

1. 受験者は、パフォーマンステストの中で、コミュニケーションを行い、産出と受容の両面において評価される

2. 受験者は、実際のコミュニケーションで想定される社会的役割まで評価される

 特に2つ目の特徴が、これまでの心理学での言語運用の観点から、社会学での観点のテストとして、大きく異なります。
 従来の心理学を基盤とした言語運用能力テストでは、常に学習者の内部に焦点を置き、評価されてきました。それに対して、Hymesの研究をきっかけに、社会学の観点が盛り込まれた結果、このCommunicative language testでは、学習者の言語運用の評価は、外部との繋がりにまで焦点が及ぶようになりました。


 この流れで、新たなjob analysisというテストが広く用いられるようになりました。このテストでは、ある特定の業界での使用環境において、実際に起こりそうな場面を想定し、その際の言語運用を評価する、というものです。
 例えば、オーストラリアの医療用の(第二言語としての)英語試験では、実際に病院内で想定される場面を想定した場面が組まれ、患者や同僚とのコミュニケーションが評価対象とされます。
 このjob analysisというテストでは、各業界において、頻繁・重要な場面を事前に調べ、その場面での言語運用を特定しておかなくてはなりません。



 このHymesのコミュニケーション能力の定義の後、この定義は様々な形で広がっていきます。そして、そのコミュニケーション能力の変化で、テストが測定しようとする能力も変化していきます。




 つまり、テストを作成する上で、言語運用がどのような能力によって行われているか、という考えは極めて重要であることがわかります。
 このようなtest constructは、テスト作成の根幹を築いていることには、テストをデザインする上で、最新の注意を払わなければなりません。


 次回は 3章 The Testing cycle をまとめます。


2013年4月2日火曜日

テストのいろは -言語テストとは- Tim McNamara "Language Testing" 1章まとめ


 テスティングに関しての入門書、OXFORDから出ているTim McNamara Language Testingを、今後数回に分けてまとめていきます。



テスティングに関する研究が広まる理由


冒頭に、このテスティングが求められる理由がまとめられていたので、まずはそれを抜粋して紹介します。

1. 一般の人々は、日常生活の中で強い影響を持っている言語テストに関して、個人での理解が必要である(TOEFLや昇級試験)

2. 教育者は、仕事の中で、学習者の成績を判断するための言語テストを作成する必要がある

3. 言語学の研究者は、研究の上で、被験者の言語の熟達度を測定することが必要である
要するに、テスト作成者も研究者も、テスティングに関して、その理解が求められている。


 出来る限りわかりやすいようにまとめられたら光栄です。

 今回は 1章 言語テストとは何か というテーマのまとめです。




1.Testing, testing... What is a language testing?



 現代社会の中で、テストは至る所、様々な分野で行われています。そして、テストは入学の選抜や資格の認定等において、重要な機能を果たしています。
しかしながら、一般の人々がそのテストについて、深く理解しているかといえば、そうではありません。我々、受ける側は、その「よくわからないテスト」を受けさせられ、一喜一憂しているのかもしれません。受験者側からすれば、テスティングという学問は極めて専門家の領域であり、彼らに依存しっぱなしで、不透明でかけ離れたもののように思われているでしょう。
 これは、どのテストにも言えることであり、言語テストも例外ではありません。

 元来、テストというのはなかなか変わらない側面を持つ一方で、言語テストは、元来の孤独で窮屈なものから、大きく変化してきました。そして、まだまだ変化していくと想定されます。
 少し前までは、教室に詰め込まれ、鉛筆を持ちテストと向き合う試験が一般でしたが、時代が進むに連れて、インタビュー形式が取られたり、ポートフォーリオが用いられたり、コミュニケーションのなかで評価される側面を持つテストが現れました。
 この点では、受験者はより純粋な能力を測定されるようになったのかもしれません。


 現在用いられている様々な言語テストの手法は、どのように発展してきたのか、また、デザインされる上での原理とは。この本には、これらの問いに対する答えが書かれています。



テストを理解するには、テストがどのようにデザインされるかという方法(method)何のためにデザインされるのかというテストの目的(purpose)の2点を押さえる必要があります。


テストの方法(method)

テストの方法は大きく2つに区別できます。それが paper-and-pencil language test とperformance test である。


paper-and-pencil language test

 紙と鉛筆によって施されるテストが大体、このテストに当たります。通常、このpaper-and-pencil language testでは、知識や能力はある程度独立したものとし、それらを個別に測定するために用いられる。
 言い換えれば、紙面の上で、語彙や文法、リスニング能力とリーディング能力など、何かしらの知識・技能に焦点を置き、個別に測定しようとする。

 このpaper-and-pencil language testに使われる形式(Test items)は、しばしば、文脈に適切な語句を考える形式(fixed response format)が用いられます。
 その代表が、多肢選択形式(multiple choice format)です。センター試験大問2のA問題や、TOEICのReadingの初めの問題がこれにあたります。選択肢の中から、文脈に適切な選択肢を選び、空欄を補完し、文を完成させることで、知識・技能を評価する評価方法です。

例.(語彙に関する多肢選択形式)
I wonder what the newspaper says about the new play. I must read the
(a) critism
(b) opinion
(c) review
(d) critic

この場合、正解の選択肢である(c)のことを正答(key)といい、他の誤りの選択肢を錯乱肢(distractor)という。

performance tests

パフォーマンステストは、スピーキングかライティングを対象に行われることが多いです。
 このパフォーマンステストは、学習者が最大限自然な産出ができるように、現実的なコンテクストの中で行われる配慮が必要です。
 また、評価方法としては、採点者間での採点基準が異なることを防止するため、個人または複数名の採点者(rater)が、同意し合った採点の手順(rating procedure)にもとづき、受験者の産出された言語の中から採点項目を見つけ出し、評価を行います。例えば、英検の2次試験でのパフォーマンステストでも、採点基準は事前に、採点者内で細かく決められています。


テストの目的(purpose)

テストの目的は様々ですが、達成度テスト(achivement tests)と熟達度テスト(proficiency test)で分けることが多いようです。

達成度テスト
 到達度テストとは、学習者がカリキュラムの中の目標に対し、どれだけ達成できたかどうかを評価するテストです。このテストでは、学習者の言語運用が、実際の運用以上に、カリキュラムの目標に到達したかに焦点が置かれ評価されます。つまり、カリキュラムの目標が低ければ、あまり言語運用が高くなくても評価されますし、逆にカリキュラムの目標が非常に高ければ、多少英語が読み書きできても評価されない、ということが有りえます。
 この達成度テストは、生徒がカリキュラムに関して、目標を達成できているかどうかの確認を行うことを目的としていますので、主に教育現場等で用いられることが多いです。この結果を元に、教師が自らのカリキュラムにフィードバックし、授業内容を修正できるという点で、指導と学習に深い関係性を持っています。
 そのため、この達成度テストは、カリキュラムの中間、終わりに行われたり、ポートフォーリオ、観察等の形式がとられることが多いようです。

熟達度テスト
 一方で熟達度テストは、学習者が実際の言語運用の中でどれだけ使用できるかどうかを測定する目的で行われます。達成度テストが、授業内での学習を対象とした「過去」を評価するものに対し、熟達度テストは「未来」において、その知識が使えることを確認するためのテストです。例えばTOEICでは、受験者がビジネス英語をどの程度運用出来るのかを測定するためのものであり、本来は「今までの学習を評価する」という目的では、使用されるのは適当ではありません。(もちろん、その英語学習のカリキュラムが「ビジネス英語を使えるようになる」ことを目標としているなら適当となるのかもしれませんが。)

 また、学習者の運用を保証する基準を、目標基準(criterion)といいます。TOEICでのスコアを例に出しますと、TOEICの公式ホームページを確認しますと、

スコア 220 通常会話で最低限のコミュニケーションができる
スコア 730 どんな状況でも適切なコミュニケーションができる素地を備えている

とあります。その熟達度テストの中では、目標基準まで言語運用が熟達しているかどうかを確認できます。言語運用の熟達度が、テスト内で目標基準を超えたことが確認された場合は、「将来も運用できる」とし、保障されます。



テストと目標基準の関係

しかしながら、テスト内の運用は制限された中での産出であり、このテスト内の運用を習得されたものと評価してしまうことに関して反論もあります。そのため、より現実的な形でテストを行い、その能力に関して評価しようとするdirect testも存在します。例えば、受験者に書かせたエッセーをライティングの評価としたり、口頭のインタビューでの運用をスピーキング能力の評価することがそれに当たります。

とはいえ、学習者の運用を確認するテストは、制約とは切っても切り離せません。つまり、どれだけ実際の運用を想定したところで、本物らしさ(authenticity)にも限界が存在します。

 テスト作成者は、限られた環境の中で、測定しようとしている対象とテストでの結果がどれだけ目標基準と一致しているか、という妥当性(validity)を最大限保証することを考えなくてはいけません。一言に言っても、この妥当性を保証するのは非常に困難です。例えば、観察によって受験者の行動が変わってしまい、本来のデータは回収できない、といったパラドックスも存在します。
 このような、テストの結果と保証している能力の間の妥当性を調査・研究することをtest validationといいテスティングの研究の中心となっているようです。



次回の2章では、『コミュニケーションとテストのデザイン』についてです。