差异项目功能(DIF)是原本称为项目偏差的首选心理测量术语。当具有相同数量的能力或性状的测试者,但属于不同子组的测试者时,项目显示DIF,请勿共享正确回答该项目的相同可能性。因此,差异功能的项目引起了相同能力水平的测试者的不同响应。由于接受测试者的亚组通常是根据人口成员身份(例如性别,种族,社会经济地位)来定义的,因此显示DIF的项目有时被视为针对特定的亚组“有偏见”。例如,考虑标准化口头能力测试中的项目。如果一个项目的内容与运动有关,那么特定能力水平的男孩可能比同一一般语言能力水平的女孩具有不公平的优势。因此,该项目有利于男孩,因为它测量了(或除了)口头能力(在这种情况下是体育知识)之外的其他特征。
然而,重要的是要注意,亚组之间仅存在项目得分差异并不一定表明dif的存在。为了返回标准化测试的示例,我们希望12年级的考生在言语能力测试上的表现要比接受相同测试的9年级考生更好。这些组之间的得分差异不会导致,因为该测试与九年级学生有偏差,而是由于言语能力的真正整体差异。真正的小组间差异称为影响,在概念上与DIF截然不同。存在复杂的统计程序,以区分何时何时源于固有的群体差异或项目偏差。
分析水平
差异项目功能是在任何测试中可能发生的统计现象。随着在几个项目中的扩散,它可以在称为捆绑的项目中产生差异功能。构成捆绑包的项目可能是指通用阅读段落,评估通用技能,共享相同的语法结构或具有相同项目类型。DIF的这种汇总效应称为DIF扩增,它允许项目级的效应在多个分析级别上影响考生得分。例如,先前对DIF扩增的研究表明,在历史测试中,有利于女性的单个项目在作为捆绑包一起检查时产生了更大的优势。此类束的亚组差异表示存在差异束功能(DBF)。
此外,可以同时在所有测试项目中检查项目级效应的效果。当相同能力的测试者无法获得相同的总体测试分数时,会发生差异测试功能(DTF)。因为应用心理学的现代研究人员和实践者对底线判决最感兴趣(例如,比较男性和女性工人的这项员工意见调查的结果是有意义的吗?)分析允许一个偏爱一组的项目取消有利于另一组的项目。
检测差分项目功能
DIF检测的早期方法取决于方差分析(ANOVA)模型,该模型将DIF视为逐组相互作用,并着重于正确响应每个项目的考生百分比(P值)。这种方法被批评为对p值差异的综合测试,这与影响相混淆。目前,存在许多更有效地操作DIF的DIF检测技术。这些技术可以分组到直接在测试者的原始项目响应(非参数方法)上运行的技术,以及评估项目 - 响应理论模型(参数方法)的估计参数的技术。在更流行的非参数技术中,包括Mantel-Haenszel方法,逻辑回归程序和同时项目偏置测试(SIBTEST)。流行的参数技术包括Lord的卡方统计数据,似然比技术以及项目和测试(DFIT)框架的差异功能。
参考:
- Camilli,G。和Shepard,L。A.(1994)。识别有偏见项目的方法。加利福尼亚州千橡市:圣人。
- Raju,N。S.和Ellis,B。B.(2002)。差分项目和测试功能。在F. Drasgow&N。Schmitt(编辑)中,组织中的行为:测量和数据分析的进展(第156188页)。旧金山:乔西 - 巴斯。