项目反应理论(IRT),也被称为潜在特质理论,是一种心理测量学理论,它是为了更好地理解个体在心理和教育测试中对单个项目的反应而创立的。基本的理论是建立在一系列数学公式之上的,这些公式的参数需要使用复杂的统计算法来估计。这些参数涉及到个别项目的属性和个别受访者的特征。潜在特征是指个体的特征无法直接观察到;它们必须通过使用响应过程的某些假设来推断,这些假设有助于估计这些参数。
项目反应理论是对经典测试理论(CTT)的补充和对比,经典测试理论是本科生和研究生课程中主要的心理测量理论。经典测试理论与IRT在几个方面不同,这将在本条目中讨论。总的来说,尽管IRT可以被认为类似于用于项目分析的电子显微镜,而CTT则更像传统的光学显微镜。这两种技术都有各自的用途。就像电子显微镜,IRT提供强大的测量分析;如果您需要特定的、精确的分析,IRT是有用的。另一方面,当研究问题比较模糊和笼统时,CTT可以和IRT一样有用。在医学研究中,有时光学显微镜比电子显微镜更受青睐。同样,在某些情况下,CTT可能是首选。
项目响应函数
项目反应理论将项目特征和个人特征与肯定、赞同或正确回答个人项目的可能性联系起来。IRT的基础是项目反应函数(IRF),它是一个数学公式的图形表示,该公式将确定项目i的概率与潜在特征的值联系起来,6。图1给出了一个假想的IRF的图形表示。
在图1中,x轴与测试所测量的特性水平有关。这种6分的特质,通常被视为z分,0分为平均水平,0分以上为平均水平;分数低于0就是低于平均水平。典型的6种分布范围从-3到+3。/-轴与确认某个项目的可能性有关。对于能力项目,/-轴衡量正确回答一个项目的概率。对于没有正确答案的项目(例如,态度或个性项目),/-轴是指选择键选项的概率(即选择高责任心的选项)。IRF将6的水平与确认项目的概率联系起来。从图1可以看出,随着6的增加,确认项目的概率也会增加。这种单调性在IRT模型中很常见。 As can be seen in Figure 1, an individual with a 6 = 0 would have an expected probability of affirming the item of roughly 50%. The corresponding probabilities for a person of 6 = -3 and 6 = +3 are roughly 0% and 100%, respectively.
IRF有许多不同的形式。对于二分得分项目(例如,对与错或真与假),通常使用双参数逻辑模型(2PL)和三参数逻辑模型(3PL)。3PL模型的公式为
在具有潜在特征的人6的概率确定I(即,UI = 1)是三个参数的函数:a,辨别参数;b,一个位置参数;和C,一个伪猜测参数。用大参数肯定项目的概率随着6的函数而变化急剧变化,而使用低参数的项目的概率随着6的函数而弱变化。在数学上,A参数在最辨别的最差异中确定IRF的斜率观点。具有低参数的物品通常被认为是差的,未分隔的物品。具有大,阳性B参数的物品将仅被具有大,阳性6S的受访者认可,而具有大的项目,除了具有最极端的负6s的人以外的所有人都将通过所有人认可。具有能力测试,判断具有大的B参数的项目是困难的,而判断具有大的负面B参数的这些项目以容易。对于没有正确答案的项目,B参数通常称为位置或阈值参数。C参数向IRF引入非零渐近渐近渐近渐近的渐近渐近,使得具有大负6s的受访者将有非零概率肯定该项目; this nonzero asymptote may result from guessing or other processes.
2PL公式是3PL的子模型,可以通过将C参数设置为零来获得。该模型具有隐式假设,即6个值最低的人的人将具有零肯定项目的零概率。2PL模型在研究环境中的个性测量之类的情况下是有用的,其中应该有很少或没有猜测。通过将参数设置为跨所有项目的参数来获得甚至更简单的RASCH模型。这些模型中的每一个都假定每个项目只测量一个6个维度。通常,考虑到工业组织心理学家面临的典型样本大小,最好选择最简单的模型(即,最少参数的一个)。更简单的模型可以最有效地使用数据。通过绘制IRFS,研究人员可以比较项目的功能,确定猜测的程度,并确定项目最辨别的6的范围。
其他,存在更复杂的模型来测量更复杂的数据类型。多体体IRT模型可用于建模具有超过两个得分选项的数据。这些模型将使用选项响应功能(ORF)替换IRFS。而不是用只有一个函数的项目表征一个项目,该项目是用多元素IRT模型建模的项目,具有每个选项的ORF。因此,五个期权项目将有五个不同的ORF。使用ORFS,X轴仍然测量6,而Y轴变为选择每个特定选项的概率。有不同的多元素IRT模型具有不同的假设。有些模型与序数数据一起使用,并且假设选项1具有比Option 2更负的阈值,而选项2又具有比Option 3更负的阈值。此假设适用于李克特级类型数据。其他,更灵活的模型不会对选项的排序做出假设。在诸如多项选择考试的情况下,这些模型可能更适合,其中难以确定先验的选项排序。 Besides polytomous IRT models, other models exist that allow for nonmonotonic functions, as well as for multiple dimensions of 6 to affect responses. New IRT models are introduced on a frequent basis. Often, however, newer complex models are difficult to estimate without prohibitively large data sets.
项目反应理论的应用
与经典的测试理论相比,项目反应理论允许更精确的评估测试属性的方法,从而对心理学产生了重大影响。此外,IRT对心理学产生了巨大的影响,因为它使一些没有IRT就很难创造的工具成为可能。随着红外热成像技术的发展,计算机化自适应测验、项目偏差检测、等值测验、异常个体识别等心理测量学应用得到了长足的发展。特别是,计算机自适应测试值得进一步讨论。
计算机自适应测试的工作方式是选择最适合的项目,识别6的精确水平为个人受访者。特别地,有一个IRT概念叫做信息,它对适应性测试很重要。项目级信息与6估计的不确定性有关,通过管理该项目可以减少不确定性。信息的差别为6级。有些物品在低等级6时具有高信息,而其他物品在高等级6时可能具有高信息。想象一下数学考试。一个基本的代数项目可以为能力极低的人提供大量的信息。然而,同样的项目对区分数学能力中等和高的人几乎没有作用。为了区分这些人,需要给出一个更复杂的项目。可以为单个项目(或测试)绘制信息函数,以确定该项目最适合6级的哪个级别。
计算机化的适应性测试通过选择有大量信息的项目来满足被调查者的估计。每个项目回应后都会修正θ估计,然后计算机算法根据修正θ估计处项目的信息水平选择下一个项目来呈现。通过只选择具有大量信息的项目,适应性测试可以保持测量精度在常规测试的水平,即使较少的项目管理。
项目反应理论通过对计算机化自适应测验(CAT)的影响,已经对教育考试产生了重要影响。在20世纪90年代,教育考试服务中心实施了研究生入学考试(GRE)的CAT版本。适应性测试的成功离不开IRT的发展。使用CTT不可能进行大规模的自适应测试。
在未来,项目响应理论可能会产生进度,不仅可以在改进测量技术方面,还可以在实质性领域做出贡献,例如决策理论。研究生,研究人员和对心理测量感兴趣的从业者应该投资一些时间来了解有关IRT技术的更多信息。计算机程序,如雪差,多户和Parscale,可用于进行IRT分析。
参考:
- Gercetson,S. E.,&Reise,S. P.(2000)。心理学家项目响应理论。马瓦,新泽:劳伦斯·埃尔巴姆。
- M. J.齐卡(1998)。用项目反应理论建模项目级数据。目前心理学方向7,104 -109。