批判性思维测试研究

时间:2025-01-13 06:53:03 来源:作文网 作者:管理员

不断提倡批判性思维应该是20世纪教育的首要目标1910年的著作《我们如何思考》、1961年教育政策委员会的《美国教育的核心目标》)，但人们所做的实际工作并不多。好在自20世纪80年代初开始，批判性思维教学受到了广泛重视相应地，曾经一度被忽视的批判性思维测试也得到些许关注。笔者认为，目前关于批判性思维测试的研究虽有亮点，但由于之前对这方面的忽视，其整体上仍不完善。更明确地说，从目前我们具备的知识来看，批判性思维测试尽管不易，但✘是可行。以下为笔者的两个分论点：①测试的难度和可行性因测试的目的和形式而异;②我们稍有不慎便会陷入误区。

为论证这些观点，笔者将从分析测试目的入手，指明误区，列举并评价现有的测试，最后就如何设计测试提出建议，并针对几个主要测试形式展开讨论。首先，我们必须对批判性思维的定义加以重视，因为我们要测试批判性思维，就必须清楚了解它到底是什么。

1 批判性思维的定义

本杰明布鲁姆所提出的教育目标的3个层次通常被视为批判性思维的一种定义，有时也会补充另外两个层次。这一定义不错，但仍存在问题。

正如布鲁姆的理论所言，这些层次之间并非呈阶梯性，而是相互依赖的。比如，概括和评价需要分析能力，分析也需要概括和评价能力。

更为重要的一点是这3个层次在概念上均过于模糊，因此无法为批判性思维测试的设计和评判提供指导作用。以分析能力为例，到底怎样才能测试一个人的分析能力呢?如果我们考虑下列这些被分析的事物，困难就显而易见了：分析中东的政治局势，分析一种化学物质，分析一个字，分析一个论断，分析篮球比赛中对手的弱点。这些事物从测试角度来看有何共同之处呢?恐怕唯一的共同之处就是模糊的分析原则。

笔者曾将批判性思维定义为对某一观点的正确评价。如果不对这一定义加以阐述，那么它则与布鲁姆的分类体系一样含糊不清。然而，即便加以阐述，仍难免会漏掉批判性思维的创造性方面，如设想多种替代可能性，构建假说和定义，设计实验方案。笔者现在认为，当代的批判性思维概念包含这些方面。所以说，正确评价这一定义较之标准用法更为狭窄，妨碍了批判性思维倡导者之间的顺畅交流。

以下定义在目前看来似乎更为适用，也能最大限度地减少交流中的困扰：批判性思维是理性的、反思性的思考，旨在帮助我们决定自己相信什么或者做什么。尽管如此，这一定义仍与布鲁姆的分类体系一样模糊，也需要进一步阐述。下文是对笔者之前提议并论证过的观点的概述。

在对自己应该信什么和做什么进行理性、反思性的思考时，我们大致需要实施以下行为：

① 评判信息来源的可靠性;

② 识别结论、理由和假设;

③ 评判论证的质量，包括推理、假设和证据的合理性;

④ 形成并捍卫对于某个议题的立场;

⑤ 提出合理的、明确的问题;

⑥ 制定实验大纲，并对实验细则进行评判;

⑦ 根据语境，用恰当的方法定义术语;

⑧ 思想开放;

⑨ 见多识广;

⑩ 果断而审慎地提出结论。

以上所列的相互关联的能力与习性为批判性思维测试提供了明确导向。与全面阐述相比，该列表只是一个缩略框架，简洁实用。它既可作为批判性思维整体教程的一组目标，也可作为某一专业课程或其他教学项目的目标之一，并为批判性思维测试提供了参数表。

对批判性思维概念的具体阐述有助于人们评判现有测试的全面性，甚至判断该测试能否考量一个人的批判性思维。笔者认为当前绝大多数批判性思维测试的主要问题在于缺乏全面性。例如，这些测试几乎无法测量包括思想开放在内的批判性思维要素，有些试题甚至无法测试对信息来源可靠性的判断能力。如果没有合理的批判性思维的定义，就很难甚至无法对测试的质量做出准确评价。

另外两个人们熟知的批判性思维定义分别是约翰麦克匹克的反思性怀疑和理查德保罗的强意义上的批判性思维者的定义。保罗的定义与我们这里所提出的定义相似，只是更加强调对个人所持的假设的意识和换位思考的重要性。这两种定义都无法为批判性思维测试的设计提供充分的理论支撑，而且，麦克匹克的定义是否定性的，但批判性思维必须超越怀疑论。

2 批判性思维测试的目的和误区

2.1 目的

选择、批评或设计批判性思维测试时，不仅需要一个准确合理的定义，还需要明确的测试目的。测试的目的可能有多种，而没有一种测试可以同时满足所有目的。以下对测试的7个主要目的进行阐述和评论。

诊断学生的批判性思维水平。若要探寻批判性思维教育的重点，就必须从了解学生当前的批判性思维水平开始。从这一角度来看，批判性思维测试的意义在于其有助于发现学生的批判性思维能力具体强在哪里，弱在何处。

给予学生批判性思维能力方面的反馈。如果清楚自己的强项和弱项，学生就有更明确的努力方向。

激励学生更好地进行批判性思考。考试经常被用作激励手段，也的确能够激励学生学习测试所涉及的内容。如果不将批判性思维纳入考试或评估范围，就很可能被学生所忽视。

为教师提供关于批判性思维教学效果的参考。教师可通过测试来获取学生对批判性思维教学方面的反馈信息。

针对批判性思维教育中出现的问题展开研究。如果不将各种方法进行仔细对比，则无法解决批判性思维教学及课程组织方面的难题。要加以对比，就需要进行测试。

为决定学生是否可以进入某一教学项目提供参考。批判性思维能力测试已经广泛用于医学、护理、法学等专业，以及研究生院的入学考试。这个办法看似不错，但是目前已有的测试能否有效选拔优秀的批判性思考者尚无定论，在这方面的研究工作也有待进行。

提供信息，使学校担负起培养学生批判性思维能力的责任。与其他考试一样，批判性思维测试的目的在于给学校和教师施压，使他们重视批判性思维的培养并对学生的考试结果负责。第6个和第7个目的通常被认定为关系重大考试，意思是测试的结果会决定资格的获得。美国大学入学考试中的科学推理部分，医学院校新版入学考试的大部分试题，大学理事会高级分班考试，爱荷华教育发展考试，美国研究生入学考试的分析和逻辑推理试题，以及法学院水平考试，这些都是关系重大的批判性思维考试。

2.2 误区

在追求上述目的时，教师需要警惕以下8个误区。

将考试分数作为衡量标准，并将其视为课堂教学的结果。其实，影响批判性思维能力的因素有很多，包括周围环境的影响。当下普遍存在的追责意识往往使我们陷入这一误区。

在没有对照组的情况下进行前测和后测。缺乏对照组会使得前测和后测的结果缺乏可靠性，这是因为除了学习，学生还会参与许多活动，而这些活动可能对测试结果产生影响。

在前测和后测中使用同一试题会将学生的注意力引向测试的题项。由于测试的是批判性思维，如果使用同一套试题，而仅对形式进行修改，在此前提下对前测、后测结果进行比较会更加糟糕。因为形式的更改就意味着试题的更改，如此一来，前测、后测之间不一定具备可比性。鉴于具体细节在很大程度上会影响测试结果，其可比性本身就值得怀疑。

大多数批判性思维测试并不全面，尤其是那些易于使用的测试和多项选择试题。这些测试通常遗漏了批判性思维中的许多重要因素。

使用多项选择试题的另一个问题在于，出题者与应试者之间存在背景、信仰和理念上的差异。因为批判性思考者往往会结合情境进行考虑，而对于情境的不同理解有时会导致对试题的不同但合理的解答。

期望在短期内产生显著效果。学会批判性的思考需要花费很长一段时间，并且需要许多不同情况下的反思性实践及案例。

关系重大的测试目的往往会干扰测试的有效性。部分原因是这些目的会鼓励速成班，这些速成班只教会学生如何在考试中表现出色，而并非帮助他们具备所测试的批判性思维能力。这样一来，学生学到的只是应试技巧。

由于关系重大，试题的设计者也会避开有风险的题项，这些题项很可能因答案的不确定性而被质疑，这在某种程度上也影响了试题的有效性。面对这种压力，出题者便将试题设计为多项选择的演绎逻辑问题。也就是说，所有题项都是由前提推导出结论，因为演绎逻辑题的标准答案是最保险的。

资源短缺往往导致各种妥协，从而影响了测试的有效性。由于测试所需的费用和/或教师所需的改卷时间，以及为测试批判性思维而举行的考试，使许多批判性思维测试依赖于多项选择试题，这种测试的有效性低于简答题、小论文和效能测试。

3 已公开发表的批判性思维试题

虽然许多考试都包含了批判性思维，但是真正将批判性思维作为首要内容的测试却少之又少，更没有适用于4年级以下学生的测试。题量的缺乏令人沮丧不已，我们需要更多适用于不同场合和目的的批判性思维试题。在表1和表2中，笔者试着列出所有公开发表的侧重批判性思维的测试，并根据所测的是批判性思维的一个还是多个维度将它们分组。总体来说，论文式测试比其他测试更为全面。

还可以根据测试内容是否涉及专业学科知识来进行分组。专业性批判性思维测试考量在学科领域内的批判性思维能力，而一般性的批判性思维测试通常采用应试者所熟悉的各种不同领域的内容。美国国家教育研究院的一个委员会建议设计专业性的高阶思维测试。一个人若要对某一学科领域有充分的理解，必须有能力就该学科内容进行全面深入的思考。

遗憾的是，笔者并未发现专业的批判性思维测试，尽管有些测试的某些题项符合这一标准。因此，在测试列表中没有根据专业领域进行分组。表中所列全部属于一般性测试。

美国国家学术委员会也主张忽略一般性的高阶思维测试。这是个错误决定。我们需要包括一般性测试来检验批判性思维教育能否应用到日常生活中，无论这种教育是融入专业教学，还是作为一门独立课程或单元，或是以二者相结合的方式进行的。

笔者也参与了列表中一些测试的设计，因此在介绍及讨论这一列表时存在明显的利益冲突。笔者尽量不让这种冲突影响评价的客观性，但仍然要推荐Arter和Salmon设计的《高阶思维技能测试：使用说明》，该书覆盖面很广;另外《批判性思维评估》一书对批判性思维测试的问题、前景及方法进⌚行了广泛探讨。

由于有关测试的统计信息可能有误导性，人们一定要对试题内容的有效性做出自己的判断。任何人如果要使用任何一种测试，都必须先亲自做一下试题并评分。这是了解试题内容有效性的最佳方式。不应只关注设计者和出版社对测试的命名，也应考虑以下问题：

① 该测试是否基于一个合理的批判性思维概念?

② 基于这一概念，其测试范围是否全面?

③ 该试题对学生是否适用?

这些问题看似理所当然，却常常被忽略。上述表1和表2两表中所列测试均可在各种程度上满足之前所详述的前5个目的。把它们用在关系重大的测试中会有两大问题：第一，试题不保密，应试者可以提前复制;第二，大多数关系重大的测试都无法保证试题的全面性，因而无法保证测试结果的有效性。关于第二个问题，笔者将详尽阐述。

如前所述，现有的多项选择试题无法直接有效地测试批判性思维的许多重要方面，如思想开放、重视理据、审慎决断等。关于这一问题，许多人认为批判性思维各种元素之间是相互关联的，即便某些元素无法直接进行测试也不要紧。例如，思想开放与判断消息来源的可靠性以及识别假设的能力高度相关，而这些都能很好地反映出其他几方面的能力。

然而，当参加关系重大的考试时，应试者往往会根据可能涉及的内容进行提前准备。即使这些内容可能在关系不大的考试中与批判性思维的其他方面高度相关，但是刻意备考会降低这种相关性，从而导致考试结果的有效性大打折扣。其弊端在于，人们将在关系不大的测试中获取的相关性数据视为在关系重大的测试中相关性的代表。

批判性思维论文的测试范围相对较广，因此有可能弥补关系重大的测试的种种弊端，但它并非万全之策。此外，这种测试在管理和评分上投入的时间和/或金钱高于多项选择测试。这一问题在关系重大的测试中尤为突出。我们目前尚未开发出适用于低成本的关系重大测试，这方面有待于进一步研究和发展。

列表中的多项选择测试在不同程度上可满足前5个关系不大的测试目标：诊断、反馈、激励、影响教学及研究。不过，仍有必要区别对待。例如，出于诊断目的所进行的测试只能展现被试者在试题涉及的批判性思维方面的优缺点。测试内容越不全面，诊断结果也会越片面。

为保证测试的全面性，除非多项选择试题设计得非常合理，否则我们有必要采用开放式的评估技术。在开放式测试大量增加以前，如果不使用已公开发表的论文测试或使用部分开放式试题，如大学预修考试，则需要我们自行设计试题。

4 自行设计测试

自行设计测试时，最好能保持一定程度的开放性，这是因为设计一个合理的多项选择测试费时费力，而且需要进行一系列的修订、试用和再修订。Norris和Ennis就如何设计多项选择的批判性思维题项提出了一系列建议，笔者在此暂不做介绍，原因是开放式测试最好由使用者自己设计，使其更加全面。Norris和Ennis也曾提出有关开放式测试的建议，它们也是本文中的讨论基础。

多项选择测试在设计及修订过程中需要做大量的工作。而对开放式测试来说，问题设计完毕，随即又面临评分阅卷带来的巨大工作量。比较有效的解决办法是针对批判性思维的某一方面给出一个多选题项，并要求应试者对所选答案予以简短的书面论证。

如前例所示，开放式试题的结构性可强可弱，既可以设计成结构式的问题，也可以采取自然观察的方式进行。试题的结构性越强，前期的准备工作量越大，就越能更好地保证试题的信效度。试题的结构性越弱，观察期间以及观察之后所需的投入越大。考题和方式虽然更为贴近现实生活，但不能确保测试的全面性。以下部分将介绍教师可以自行设计的几种开放性批判性思维测试。

4.1 带有书面论证的多项选择测试

目前，我们正通过伊利诺伊批判性思维项目与伊利诺伊重点学校联盟合作探索带有书面论证的多选式测试的使用情况。我们从《康奈尔批判性思维测试》中筛选出20道题，要求学生在每道题的答案后都简要写出理由。以下例题考查学生判断消息来源可靠性的能力，场景是探索一个新发现的星球：哪一个更可信?圈出一个。

A.医务人员在进一步调查后说：这个水可以安全饮用。

B.其他几人是军人，其中一人说：这个水不安全。

C.A和☁B同样可信。

你的理由：

这种考试方式的优点之一是，它能够测试批判性思维的各个具体方面。另一个优点是，如果学生的答案不同于标准答案，但论证充分合理，则可得满分。如笔者在前面提到过的，有时候有些答案与标准答案不同，但也是有理有据的，毕竟应试者和出题者所持的世界观不尽相同。我们发现，如果评分标准设计严密，并且评卷人对批判性思维的概念一致认可，则交叉改卷的结果会保持高度一致。笔者建议用这种方式来自行设计试题。它既快捷又全面，不仅包容设计欠严密的多选题项，而且允许学生在对背景及问题的理解上存在差异。

4.2 批判性思维论文测试

在自行设计批判性思维论文测试时，不同的方法适用于不同的目的。

结构性强。用于测试批判性思维的✯议论文可能在结构性程度上存在显著差异。恩尼斯威尔批判性思维作文测试是结构性很高的论文测试。它提供了一篇议论性文章，并将文中段落编号，几乎每段都有错误。要求学生对每个段落及整篇文章进行评价，并陈述理由。

评分标准会给出考生对段落和文章所做的每项评价的分值。评卷人必须擅长批判性思维，这样才能准确处理那些与标准答案不同的答案。学生的答案若与标准答案截然不同，但是论证合理充分，亦可得满分。熟练的评卷人评阅一篇文章大约需要6分钟。

中等结构。给出一篇议论文，并要求针对文章的论点及论据展开论辩而不特别限定论文的组织框架。美国大学预修考试使用的就是这种方法。

既可以整体打分，也可以分项打分。整体打分速度快♂，成本低。一篇两页的文章，熟练的评卷人大概需要1～2分钟。分项打分提供的信息更多，也更能满足多个目的。一篇两页的文章，熟练的评卷人大概需要3～6分钟，这取决于评分标准的详略程度。

最简结构。就一个问题进行回答或就一个议题进行陈述。伊利诺伊批判性思维作文竞赛所使用的就是这种方法。在某一年的考试中，学生必须就音乐电视的规范化管理表明自己的立场并陈述理由，学生对这一话题非常感兴趣。最简结构使学生有更多的自由，但无法为教师提供准确的诊断信息，但这对于作文比赛并不成问题。同样，整体打分或分项打分都可以。

在伊利诺伊州我们也使用同样的模式设计出伊利诺伊批判性思维论文试题，对伊利诺伊州教育委员会的评分标准进行改进，制定了6个维度的分析性评分体系，以确保交叉阅卷的高度一致性。这种方法也有很大优势。评阅一篇40分钟内当堂完成的论文一般需要5分钟。

4.3 效能测试

效能测试在所有测试中成本最高，因为每位考生都会占用相当长的时间。由于此类考试通常涉及真实场景甚至生活实景，因此无论结果如何，表面上都具有很高的效度。然而，真实度越高，就越难保证测试的全面性。在现实生活场景中，人们通常只展示出该场景中所需要的能力，而在最易观察的场景中并不需要使用批判性思维的各方面能力。因此，与多项选择测试一样，基于现实生活的效能测试也缺乏全面性。其另一缺点则是过于主观。

自然观察是最简结构的效能测试。比如，在案例研究中，训练有素的观察者会详细记录和描述一系列事件，并关注个人或群体行为。其间难免会对事件和行为进行解读，但最终目的是详尽描述。

一个结构性稍强的效能测试是通过作业档案来决定一个高中生能否毕业中曾推荐)。这一测试的有效性尚待论证。这个理念很有吸引力，但仍存在许多问题，缺乏全面性便是其一。

一个结构性更强的效能测试是由美国国家教育发展评估委员会设计的探索能力测试。在考试时，学生收到各种资料，探究放糖溶解速度的影响因素。观察人员则在一旁提问，并观察学生能否用科学方法完成任务。在这种效能测试中，所设试题取决于任务性质，而任务的设计则取决于要测试的特定能力。效能测试表面看起来效度很高，但它也存在成本高、不全面、过于主观以及报告冗长等诸多弊端。

5 结语

批判性思维测试可用于多种目的。关系越重大，预算限制越多，其适用范围就越小。关系重大的测试尤其缺乏全面性。

许多公开发表的测试以批判性思维为核心目标，且大多数是多项选择测试。优点是效率高，成本低。缺点是缺乏全面性，仍有待于进一步研究和完善。

其他测试包括带有论证要求的多选题、不同结构程度的作文题及效能测试。与多项选择测试相比，大规模使用这些测试的成本很高，若小规模使用，则效度高成本低，但阅卷时间很长。

上一篇：探讨没有批判，何来对话?
下一篇：简谈对铁路企业人力资源优化配置的几点思考

TAG标签：批判性思维测试研究

原文链接：https://www.zuowen.red/meiwen/1768530.html