古典测试理论 - IresearchNet

测量是量化人或物体特征的过程。测量理论有助于解释测量结果（即，得分），从而提供了如何在数学和统计上解释和治疗的理由。古典测试理论（CTT）是一种主要用于心理学，教育和相关领域的测量理论。它是在20世纪初介绍的，从那时起已经进化了。基于CTT开发了心理学和教育的大部分测试。该理论也被称为真正的得分理论，经典可靠性理论或经典测量理论。

古典测试理论基于关于测试分数的属性的一组假设。虽然不同型号的CTT基于略微不同的假设，但所有型号都在假设一个基本的前提下，这是一个人在测试中观察到的人的得分是两个不可观察的组件的总和，真正的分数和测量误差。如果该人在无限数量的等效试验中测试无限次数，则真实分数通常被定义为人所观察到的分数的预期值。因此，真正的分数反映了测量对象的稳定特征（即，人）。测量误差被定义为随机“噪声”，导致观察到的分数偏离真实分数。

经典检验理论的假设

古典测试理论假设线性 - 也就是说，观察到的评分对真实分数的回归是线性的。这种线性度假设基本下行从项目或子测试的线性组合创建测试的做法。此外，以下假设通常是通过经典测试理论进行的：

人内的测量误差的预期值为零。
人口中人数跨越的测量误差的预期价值为零。
真正的分数与人口人口中的测量误差不相关。
观察到的分数的方差等于真正得分和测量误差的差异的总和。
不同测试的测量误差不相关。

前四种假设很容易从真实得分和测量误差的定义中得到。因此，它们是CTT所有模型所共有的。由于需要估计可靠性，大多数模型也提出了第五个假设。所有这些假设通常被认为是“弱假设”，也就是说，这些假设可能在大多数数据中都是正确的。CTT的一些模型做出了更强的假设，尽管它们不需要推导出该理论的大多数核心公式，但提供了估算的便利性:

测量误差通常在人口中分布在人口中。
测量误差的分布在所有级别的真实分数方面具有相同的方差。

古典测试理论的重要概念

可靠性和并行测试

定义，根据定义，真正的分数和测量错误是不可观察的。然而，研究人员经常需要知道观察到的考试成绩如何反映了兴趣的真正评分。在CTT中，通过估计测试的可靠性来实现这一点，定义为观察到得分方差的真正得分方差的比率。或者，有时被定义为真实分数与观察到的分数之间的相关性的平方。虽然它们被不同地表达，但是这两个定义是等同的，并且可以从CTT的基础上的假设导出。

为了估计信度，CTT依赖于平行测试形式的概念。如果两个测试在人群中有相同的观察方差，并且任何一个人在两个测试中有相同的真实得分，则被认为是平行的。如果这些条件保持不变，可以表明两个平行试验之间的相关性提供了试验可靠性的估计。

有效性与可靠性

真实分数的定义意味着CTT中的重要概念：一个人对措施的真正得分不一定与该人对兴趣构建的价值相同。有效性涉及考试中观察到的分数如何反映了一个人的真实站在测试意味着衡量的结构上。因此，有效性是完全不同于可靠性的概念。可靠性反映了观察到的分数与真实得分之间的联系的强度，而有效性指数观察到的分数与兴趣构建之间的联系。测试的可靠性为其有效性设置了上限;因此，测试不能具有低可靠性的高效性。

超越经典检验理论

尽管CTT很有用，但它也有一定的局限性。它因其测量误差的非特异性概念而受到批评。其关于真实分数与观测分数回归线线性关系的假设也受到了理论和实证的质疑。因此，人们提出了更复杂的理论来解决这些局限性。特别是，概率论明确考虑了测量误差的多个来源对观察得分的贡献，并提供了估计这些影响的方法。项目反应理论假设一个人对一个测试项目的反应与他或她的潜在能力(一个类似于CTT真实分数的概念)的非线性回归。与CTT相比，这些测量理论具有一定的优势，但它们更为复杂，并依赖于更强的假设。因此，CTT仍然很受欢迎，因为它简单，更重要的是，它对违反基本假设的健壮性。

参考：

Feldt, L. S. & Brennan, R. L.(1989)。可靠性。R. L. Linn(编)，《教育测量》(第三版，105-146页)。纽约:美国教育委员会。
罗德，F. M.， &诺维克，M. R.(1968)。心理测验分数的统计理论。阅读,MA: addison - wesley。
Nunnally，J. C.，＆Bernstein，I. H.（1994）。心理学理论（第3 ED。）。纽约：麦格劳山。
Traub，R. E.（1994）。社会科学的可靠性：理论与应用。千橡木，加利福尼亚州：贤者。