信度可以定义为一个测量的分数不受测量误差影响的程度。测量误差反映在测量中观察到的分数与被调查者真实分数的随机偏差上,真实分数是被调查者在完成测量无数次后的期望分数。在数学上,信度被量化为真实分数方差与观察分数方差的比率,或者,等价地,真实分数和观察分数之间相关性的平方。基于这些指标,信度可以从零(没有真正的得分方差)到一(没有测量误差)。
可靠性对于实际和理论目的都很重要。实际上,它使估计测量的标准误差,一个人的测试分数的准确性指数。从理论上讲,信度有助于理论的发展,它允许研究人员纠正测量误差对观察到的心理结构测量之间的相关性的偏差效应,并为研究人员提供一个评估,是否他们的测量过程需要改进(例如,如果信度低)。
测量误差来源
测量误差的多种来源会影响一个人的观察得分。以下来源在心理测量中是常见的。
随机响应错误
随机反应错误是由一时的注意力变化,精神效率,或分心在一个特定的场合。这是一个特定的时刻,当一个人回应一个项目的测量。例如,一个人可能对同一项在测量中的不同位置提供不同的答案。
瞬态误差
随机响应错误发生在某一场合,而瞬态错误发生在不同场合。短暂性错误是由应答者在不同场合的情绪和感受的时间变化造成的。例如,任何给定的应答者可能在两次执行的测量中得到不同的分数。从理论上讲,这种时间差异是随机的,因此不是一个人真实得分的一部分,因为它们与在其他场合完成的测试得分不相关(也就是说,它们是特定场合的)。
特定要素误差
特定因素误差反映了对测量情况的某些因素的特殊反应。例如,当回应测试项目时,应答者可能对项目的措辞有不同的理解。从理论上讲,特定因素不是一个人的真实分数的一部分,因为它们与测量的其他元素(如项目)的分数不相关。
评定等级的错误
只有当一个人的观察分数(评分)从另一个人或一组人(评分)获得时,评分错误才会出现。评级错误源自于评级者对利率结构的独特看法。从理论上讲,特殊评价者因素并不是一个人的真实分数的一部分,因为它们与其他评价者提供的评分并不相关(也就是说,它们是特定于评价者的)。
可靠性系数的类型
可靠性用可靠性系数来表示。有几种类型的信度系数,他们不同的来源的观察得分方差,他们视为真实得分和错误方差。在某一类系数中被视为误差方差的方差源,在其他类型的系数中可以被视为真实得分方差源。
内部一致性
这种类型的可靠性系数在心理学研究中最常见(例如,Cronbach 's alpha, split-half)。内部一致性信度系数,也称为等价系数,只需要对特定因素误差和随机反应误差对观察分数的影响进行一次测量和指标管理。它们反映了测试中项目水平分数之间的一致性程度。因为所有项目在一个给定的测量管理在同一场合,他们分享的方差(即瞬态错误)可能与感兴趣的目标构造无关但对真正的得分方差这些系数(因为它是一个共享的方差来源跨项目)。
两次试验法的
重测信度系数,也称为稳定性系数,反映了随机响应误差和瞬态误差对观察得分的影响。复试系数反映了不同场合测试分数的稳定性,可以认为是不同场合进行的同一测试之间的相关性。因为相同的测试管理的每一次,每一次的分数比例的方差(即特定要素错误)可能与感兴趣的目标构造无关但对真正的得分方差这些系数(因为它是一个共享源之间的方差场合)。
等效系数和稳定性系数
等效系数和稳定性指标的特定因素误差、瞬态误差和随机响应误差对观察得分的影响。这些系数反映了测试中各个项目得分的一致性和测试分数在不同场合的稳定性;它们可以被认为是在不同场合执行的两种平行形式的度量之间的关联。使用不同的形式可以估计特定的因素误差和随机响应误差,不同场合的管理可以估计暂态误差和随机响应误差。因此,这个系数可以看作是等价系数和稳定系数的组合。因此,等价性和稳定性系数是大多数自我报告测量的推荐信度估计,因为它适当地解释了所有三种测量误差的来源,使这些方差来源都不会对真实分数方差的估计作出贡献。
Intrarater可靠性
内部信度系数——一种内部一致性系数,特定于基于评分的测量——反映了特定因素误差和随机反应误差对观察得分方差的影响。这些系数反映了由一个给定的评分者在同一场合评分的项目之间的一致性程度。因为项目是被同样的评定等级(intrarater)在同一场合,他们有两个来源的方差(即评定等级的误差和瞬态误差),可能与感兴趣的构造无关但有助于真正的得分方差这些系数方差(因为它们是共享资源在项目)。
评分者间信度
与内部信度系数一样,内部信度系数也特定于基于评级的措施。然而,评分者的信度系数反映了评分者误差和随机反应误差对观察评分方差的影响。它们反映了由不同评级者提供的评级的一致性程度,可以认为是不同评级者在同一场合使用单一度量的评级之间的相关性。由于在同一场合对不同的评级者(内部评级者)执行相同的评级度量,评级共享两个差异来源(即,特定因素错误和短暂错误)可能与感兴趣的目标结构无关,但却会导致这些系数的真实分数差异(因为它们是评分者之间的共同方差来源)。
估计可靠性系数
估计上述系数的方法由两种心理测量理论提供:经典测试理论和概化(G)理论。采用经典测试理论方法来估计系数的研究人员经常计算测量元素之间的皮尔森相关性(例如,项目,评分者,和场合),然后使用斯皮尔曼-布朗预言公式来调整项目数量,评分者,或者是收集测量结果的场合。相反,采用g理论方法的研究人员关注于可靠性系数的第一个估计部分(即,真实得分方差,或g理论术语中的宇宙得分方差,和误差方差),然后与这些估计形成一个比率,以得到一个估计的可靠性系数(广义系数在g理论术语)。
影响可靠性评估的因素
几个因素可以影响研究人员报告的可靠性系数的大小。必须考虑它们对任何给定估计数的潜在影响,以便对将要作出的估计数作出适当的解释。
测量设计的局限性
可靠性系数的大小部分取决于方差的来源,这些方差被视为误差。不幸的是,并不是所有的测量设计都允许估计所有类型的可靠性系数。因此,即使研究人员可能希望将他或她的测量中的一个方差源视为误差,它可能不总是可能在测量设计中解释它。例如,如果测量(或至少部分测量)没有在多个场合进行,研究人员就不能在观察到的分数中索引瞬时误差方差的数量。在这种情况下,研究人员可能不得不报告一个信度系数,高估了测量的真实可靠性。
被测结构
测量不同结构的项目可能不同地容易受到测量误差来源的影响。例如,与狭义构念(如有序性)相比,广义构念(如尽责性)的项目更容易受到特定因素错误的影响。类似地,测量稳定人格构念的项目(如大五人格)可能比测量情感相关构念的项目更不容易出现短暂错误。
样本的异质性
众所周知,范围限制减弱了变量之间的相关性。因为信度系数可以解释为观察得分和真实得分之间相关性的平方,它们也受到范围的限制。当从一个在被测量的结构上变化很大的人的样本中获得信度估计值时,信度估计值往往会更高,如果样本中的人在被测量的结构上变化不大,信度估计值就会更低。
测试长度
测试的分数通常是通过对不同项目的回答进行求和或平均而得到的。由于与项目相关的特定因素误差是不相关的,它们对观察到的得分方差的贡献之和或平均值与测量中包含的项目数量成比例地减少。因此,在其他条件相同的情况下,测试中的项目越多,它的可靠性就越高。
引用:
- Feldt, L. S. & Brennan, R. L.(1989)。可靠性。《教育测量》(第三版,第105 - 146页)。纽约:美国教育委员会。
- Nunnally, j.c., & Bernstein, i.h.(1994)。心理测量理论(第三版)。纽约:麦格劳-希尔。
- 施密特,F. L.,亨特,J. E.(1996)。心理学研究中的测量误差:来自26个研究场景的教训。心理学方法,1,199-223。
- 施密特,F. L., Le, H., & Ilies, R.(2003)。超越alpha:测量误差的不同来源对个体差异的测量的信度估计的影响的实证检验。心理学方法,8,206-224。
- Traub, R. E.(1994)。社会科学的可靠性:理论和应用。千橡市,加州:鼠尾草。