自20世纪初以来,美国一直是世界上测试技术的最重要的开发者和消费者。考试已被美国军方、政府和民间雇主以及教育机构广泛用于改善选拔、安置和晋升决定。然而,早在六岁时,考试就已经在美国人的生活中无处不在,这让人们对考试的好处产生了质疑,导致了对组织决策的严格审查,并引起了人们对考试对社会的普遍影响的担忧。虽然其中一些批评肯定是有道理的,但标准化考试作为公众最常指责的对象,是现有的最佳评估手段之一,我们认为,它们不应受到大众媒体的坏评价。
术语标准化测试最初是使用统一管理程序的测试。随着时间的推移,该术语已经发展来描述衡量与学术成就和能力有关的构建的测试,该测试是定期(通常以群体格式)的大量考生,并且具有各种规范信息可用于解释分数。如今,所有现代标准化测试都是(a)使用大型和不同的样品(b)常规更新,以反映课程和社会背景的变化,以消除外来变异来源的课程和社会背景的变化,以反映课程和社会背景的变化scores, and (d) examined using advanced psychometric methods (e.g., item response theory) to detect and eliminate measurement and predictive bias. All of these features help make standardized tests reliable and valid assessments of the constructs they are intended to measure. The tests are continuously being improved and revised to incorporate advances in psychometric theory, substantive research, and testing technology.
标准化测试可以大致分为三种一般类型:(a)教育成就和能力测试,(b)军事和公务员分类试验,以及(c)执照和认证考试。每种类型的测试都有不同的目的,但主要的心理模切特征是相似的。在遵循的部分中,提供了每个测试类型的简要概述,然后讨论了关于标准化测试使用和未来发展的重要问题。
教育成就和能力倾向测试
到目前为止,大型教育评估构成了标准化考试的最大部分。这些工具包括设计用来衡量小学生和中学生成绩的工具,以及那些用来评估学生在大学(本科和研究生水平)成功表现的学术能力的工具。最著名的中小学测试是爱荷华州基础技能测试、城市成就测试和基础技能综合测试。每一项测试都旨在全面全面地涵盖主要的学术技能和课程领域,并包含涵盖不同主题(即阅读、科学)和年级范围的子测试。与早期的客观成绩测试相比,这些测试的优势在于,它们的子测试都是在同一组学生样本上进行标准化的,这允许在个人和群体之间进行相对直接的比较。这些测试统称为成就测试,强调评估的回顾性目的。他们的主要目标是获取有关学生学习成就的信息,并尽早发现不足之处。
另一方面,大学入学考试通常被称为能力测试,因为它们的主要目的是预测未来的学术表现。两个最广泛考试的考试是
学术能力测试(SAT)和ACT评估(美国大学检测计划),主要用于本科大学录取。毕业生和专业计划的入学测试包括研究生记录检查(GRE),研究生管理能力测试(GMAT),法学院入学考试(LSAT)和医学院招生测试(MCAT)。
GRE、SAT、GMAT和LSAT都测试的是学生在很长一段时间内获得的基本的语言、数学和分析能力;然而,这些测试的良好性能并不严重依赖于最近获得的内容知识。另一方面,ACT、MCAT、GRE科目考试和SAT II考试确实需要特定内容领域的知识,因此它们与教育课程的联系更加紧密。因此,有人认为,尽管诸如ACT之类的考试可能会用到,但将其称为成绩考试更恰当。然而,正如许多研究人员所指出的,天赋和成就之间的区别是微妙的,而且可能是不必要的。所谓的能力倾向和成绩测试分数之间的关联约为。9,因为一般能力高的人也倾向于快速获得知识内容。总的来说,可以肯定地说,所有这些测试衡量的是一个考生目前的知识和技能的学术表现。
军事和公民服务分类测试
军事分类测试是美国在美国开发的标准测试的最早示例。作为第一次世界大战的一部分,一群心理学家开发并实施了军队alpha和陆军测试师考试,该考试旨在有效地筛选并放置大量的掀动者。在第二次世界大战期间出现的高质量多能级测试电池,如陆军一般分类试验(AGCT),并在航空选择领域有用。
AGCT最杰出的继承者,武装部队职业能力倾向组(ASVAB),现在被广泛用于挑选新兵,并将其划分为数百个军事职业。这部分是通过10个子测试完成的,包括一般科学、算术推理、词汇知识、段落理解、数字运算、编码速度、汽车和商店信息、数学知识、机械理解、电子信息——衡量一系列特定技能,而不是几个宽泛的维度。这些一般能力倾向测试之间的主要区别是ASVAB有更强的机械空间强调和一个独特的速度组件,提高其在预测技术和文书工作表现方面的有效性。
在民用部门,通过美国劳动部于1947年开发了一般的才能测试电池(GATB),用于通过美国就业服务筛选和转介求职者。GATB使用12个子测试来测量三种普遍能力(口头,数值,空间)和五种专业因素,包括文书感知,电机协调和手指灵活性。与ASVAB一样,除了数学,口头和一般心理能力的措施之外,包括这些子测试,使GATB在各种职业中预测性能,从高级,认知的复杂作业到低级,非技术职位。
许可证和认证考试
执照和认证考试是第三种标准化考试。这些测试类似于成绩测试,它们评估考生的知识和技能,但它们的主要目的是确定考生是否达到了最低水平的专业能力。而成就测验分数通常解释关于规范标准(比如,一个大代表性的1995年参加考试的考生),许可和认证考试成绩有意义只有在减少分数之间的关系,通过一个标准制定过程直接挂钩。
最流行的标准制定程序是Angoff方法(以William H. Angoff命名),通过该方法,主题专家被要求指出一个最低水平的专业人员正确回答每个问题的概率。这些信息将跨项目和专家组合起来,以确定用于许可和认证决策的分值。关键在于,分数是根据一组必须掌握的明确技能来解释的。因此,在任何一年中,都有可能所有或没有应试者通过考试。然而在实践中,通过利率通常从每年类似,因为考生的平均技术水平和教育课程改变得很慢,因为测试开发人员可能会做一些小的调整,通过分数来正确评定等级的影响,确保一个稳定的专业人才流入。
尽管许多执照和认证考试仍然包含许多选择题,形式与传统教育考试类似,但一些最近修订的考试,如建筑师注册考试(ARE)和美国注册会计师协会考试(CPA考试),还包括一些创新的模拟类型的项目,旨在模拟专业人员在该领域执行的实际任务。例如,项目可能要求考生在互联网数据库中查找信息,输入值并使用电子表格进行计算,设计结构或机械系统,或写一份叙述报告传达一个问题和建议的解决方案给客户。这些类型的项目不仅增加了测试的真实性和有效性,而且增强了对整合性、批判性思维能力的测量,这是很难用传统项目评估的。
标准测试中的当前和未来问题
为了便于讨论,标准化测试被分为三组,但是有一些重要的问题是跨领域的。在标准化考试中最受关注的是公平性。不同人口统计群体的测试分数差异加剧了对标准化测试的批评。人们普遍认为,这些差异是由测量偏差(即工具的心理测量问题)造成的。然而,大多数研究表明,这些差异并非源于偏见,而是源于影响,一种“真正的”人口统计学群体熟练程度的差异。例如,最近的一项研究,研究的相对贡献偏差和观察到的分数差异影响英语分测验发现测试偏差行为(例如,微分测试功能)有关,只有.10观察总12.6原始得分差异的跨组的黑色和白色的考生。因此,影响,而不是偏见,是大学录取决定的最大问题。在某种程度上,这些发现是一般化的,似乎通过更多地关注影响考试成绩的动机和教育因素,而不是寻找评估工具的根本缺陷,公平问题是最好的解决办法。
与偏见和公平密切相关的问题是测试有效性。许多批评者认为,标准化的测试没有预测学术或就业绩效,因此应使用其他类型的评估。然而,通过测量伪像(例如,范围限制和不可靠性),预测效果变得复杂,其限制了标准化测试评分与性能标准之间的相关性的大小。尝试纠正这些工件的Meta-Analytic研究表明,标准化测试是各种结果的有效预测因子。四年级点平均值和工作样本确实提供了可比的有效性,但它们涉及在更长的时间内观察,更重要的是,当考生来自非常不同的背景时,使规范性比较变得困难。另一方面,诸如GRE和SAT之类的测试可以在单一测试会议中评估数千名考试,并为城市学校和社区学院与最负盛名和选择性的机构的考生进行比较,以便提供常见的衡量标准。
标准化测试中的另一个问题在研究人员和测试开发人员之间获得了相当大的关注,这是考试的愿望,以便在保持合理的测试安全水平的同时进行考试。从历史上看,大多数标准化的测试只能在目标群体会话格式中每年仅提供几次。安全是通过协调测试会议,每次管理至少一种新形式协调测试会议,并限制公开披露物品和答案。如果出于某种原因,如果某个测试者出于出发或提前知道他或她将无法参加测试会议,他或她通常不得不等待几个月的下一个机会。毋庸置疑,考生不利地观察了这种时序约束。
幸运的是,计算机技术和心理学理论的进步现在为此问题提供了许多解决方案。也许最有前途的发展是计算机化自适应测试(CAT)的广泛可用性,这允许每个考试人员接收从大型物品池中选择的独特物品序列;物品是单独选择的,或实时选择,以提供有关考生估计熟练程度的近最大信息。由于测试池中的项目数量通常非常大(有时在数千个)和项目选择算法中,因此包含提供曝光控制的随机特征,因此检验者在重新测试时会遇到重叠的物品。因此,除非在测试领导者之间进行大量协调努力来揭露池,否则可以合理地维持测试安全性,同时提供比以纸张和铅笔格式更频繁,灵活的基础提供考试。相关的益处是在测试完成后可以立即进行评分。现在使用CAT技术的某些变化的标准化测试的例子是GRE,ASVAB和CPA考试。
标准化测试的最后一个问题是,新兴的愿望扩大通过标准化测试测量的特征和技能的范围。这项努力在很大程度上被使用测试分数信息来制定重要人员或招生决策。使用创新的仿真类型项目,例如和CPA考试,似乎允许评估困难,如果不是不可能的话,可以使用传统的多项选择项目来衡量。
此外,一些测试项目(例如,军事)正在寻求通过测量非认知变量(如性格和职业兴趣)的子测试来增加认知测试,以不仅提高绩效预测,而且提高结果,如保留率、组织忠诚度和群体凝聚力。当然,让这些变量成为决策过程的基本部分并不容易,因为非认知评估很容易受到多种形式的反应失真(例如,作假)的影响。然而,考虑到目前为解决这一问题而进行的研究的数量和质量,非认知子测试成为标准化测试的关键组成部分的日子可能不远了。
结论
标准化测试在美国社会中发挥着重要作用。这些测试提供的信息促进了来自不同背景的大量考试的诊断,筛选和分类。在考虑到测试精度,效率和预测效果的目的,创建了标准化测试,许多研究人员和从业者认为这些理想被体现并代表得很好,特别是与其他类型的心理评估相比。虽然此条目已侧重于美国的标准化测试,但其他国家肯定会遇到与全球竞争要求更有效的筛选和放置在新兴经济体中的类似问题。
引用:
- Drasgow, f(2002)。未来的工作:计算机化适应性测试的心理测量基础设施。C. N. Mills, M. T. Potenza, J. J. Fremer, & W. C. Ward (Eds.),《基于计算机的测试:为未来的评估建立基础》(第1-35页)。希尔斯代尔,新泽西州:劳伦斯·埃尔鲍姆。
- Kuncel, N. R., Hezlett, S. A., & Ones, D. S.(2001)。研究生入学考试预测效度的综合元分析:对研究生选择和表现的影响。心理学报,127,162-181。
- Murphy,K. R.,&Davidshofer,C. O.(2005)。心理测试:原则和申请(第6届)。上部马鞍河,NJ:Prentice Hall。
- 施密特,F. L.,和亨特,J. E.(1998)。人事心理学中选择方法的有效性和效用:85年研究成果的实践和理论意义。心理学报,124,262-274。
- Stark,S.,Chernyshenko,O. S.,&Drasgow,F.(2004)。检查差分项目/测试功能(DIF / DTF)对选择决策的影响:何时存在统计学上有重大影响实际上是重要的?应用心理学杂志,89,497-508。
- Thorndike,R. M.(2005)。心理学与教育中的测量和评估(第7 ED。)。上部马鞍河,NJ:Prentice Hall。