1959年,唐纳德·t·坎贝尔(Donald T. Campbell)和唐纳德·w·菲斯克(Donald W. Fiske)在《心理公报》(Psychological Bulletin)上发表了一篇文章,大约30年后,这篇文章成为社会科学史上被引用最多的文章。到1992年,它被其他作者引用了2000多次,2005年对社会科学引文索引(Social Sciences Citation Index)的搜索显示,引用次数超过4000次。本文的主题是一个被称为多特征-多方法(MTMM)矩阵的统计工具。MTMM矩阵是一组度量的每对之间计算的相关系数的矩阵(相关系数表明每对度量的相关程度)。
相关矩阵是用来评估心理测量的,它被用来帮助确定这些测量的分数实际反映了预期的特征。例如,性格特征如外向性和责任心通常是通过自我报告来衡量的,但它们也可以通过其他人(如朋友或同事)的报告来衡量。如果所有的心理测量都是完全准确的,我们就不需要考虑不同的方法,因为所有的方法都是相同的。但测量从来都不是完美的;除了预期的特征之外,它们还可能受到多种因素的影响(例如,一个人对个性的自我评估可能部分地反映了这个人对他或她自己的理想化看法,而不是他或她的实际个性)。MTMM矩阵的设计是为了评估预期性状对其他系统因素的影响程度,通常称为方法效应。
工业和组织心理学家已经广泛使用MTMM矩阵。他们进行了大规模的评论MTMM工作影响的研究和看法(使用不同的标准调查方法),工作表现评级(使用性能维度特征和评级来源上司和同事等方法),和评估中心(一组练习用来评估潜在或当前工人;评价维度为特征,练习为方法)。个人研究则集中在其他问题上,比如人格测量。在许多情况下,研究表明方法差异很大——例如,工作业绩评级在很大程度上受到提供评级的特定个人的观点的影响。
计算MTMM矩阵首先要研究用多种方法测量多个性状。这可能意味着,一组人被要求完成一份评定他们个性特征的调查,他们的个性也会在同一份调查中被亲密的朋友评分,然后又被同事评分。例如,如果用这三种方法测量了五种人格特质,那么总共会有15种测量(五种特质x三种方法)。然后可以计算出MTMM矩阵。
在他们的原始论文中,Campbell和Fiske描述了效度的两个主要组成部分,当把它们放在一起时,它们提供了关于测量的总体效度的信息。一个组成部分是收敛有效性。这意味着,用不同方法提供的两种测量相同特征的方法,应该收敛到相同的结论。如果对性格的评分是有效的,那么朋友和同事对性格外向程度的报告应该倾向于对这个人的外向程度达成一致。第二个标准是判别效度。
这意味着对不同特征的测量应该是截然不同的。在评价一个人的性格时,朋友或同事应该区分这个人的外向性和他或她的责任心。
对MTMM矩阵的统计评估是相当复杂的,并且没有达成一致意见,认为有任何一种最好的方法来做它。表1显示了来自Campbell和Fiske 1959年的一篇文章的样本矩阵,其中对临床心理学专业的学生在团队中一起生活并参与评估练习的五种性格特征进行了评分。性格评分由工作人员、队友和学生自己提供。
Campbell和Fiske说,收敛和鉴别效度可以用四个标准来评估。第一个标准,旨在评估收敛效度,是衡量同一特征的不同方法应该有相当高的相关性。这些相关性在表1中用粗体显示(在“有效性对角线”中)。员工与队友的相同特质、不同方法的相关系数平均为0.47,这似乎是合理的。自评与其他两种方法的收敛性较低;员工自我和队友自我的平均相关系数分别为0.32和0.30。因此,收敛效度相当好,至少对于工作人员和队友的评分来说是这样。
其他三个标准旨在评价鉴别效度。第二个标准是,相同特征、不同方法的相关性应该高于围绕它们的不同特征、不同方法的相关性(如表1所示)。表1中一般满足该标准;在相同的列和行中,相同特征、不同方法的相关性几乎总是高于不同特征的相关性(即使是自我评价)。第三,效度对角线上的同性状、不同方法的相关性要高于用同一方法测量的不同性状的相关性。斜体显示了不同特征、相同方法的相关性。同样,表1中的MTMM矩阵通常满足这个标准。
第四,各种不同的特质相关性应该都表现出相同的相关性模式。例如,这些集合包括工作人员的不同特征相关性(接近MTMM矩阵的顶部)、工作人员和队友之间的相关性(低于工作人员相关性)以及工作人员和自我评等之间的相关性(低于工作人员和队友的评等)。例如,在表1中,果断的人和开朗的人之间的所有相关性都是正的,说明果断的人倾向于开朗,而开朗的人和严肃的人之间的所有相关性都是负的,说明严肃的人有轻微的不那么开朗的倾向。这一标准的评价比较主观,涉及到许多相关性的比较。最后,Campbell和Fiske选择了表1中的矩阵,因为它具有良好的收敛性和判别效度。工业和组织心理学家(以及其他领域的研究人员)研究的许多矩阵显示出较差的结果。
最近,坎贝尔和菲斯克的分析程序中的缺陷已经被发现。例如,研究人员必须主观地评估满足标准的程度,因为没有量化标准的程序;矩阵中的相关性受变量测量的可靠程度的影响;而且也没有将方法效应与测量的随机误差分开的程序。自1959年原创文章发表以来,人们提出了各种各样的统计方法来克服这些问题。目前,对于分析MTMM矩阵的最佳方法还没有达成共识,但一种流行的方法是验证性因子分析。
验证性因素分析提供了Campbell和Fiske标准的定量评价方法,考虑了测量的信度,并将方法效应从随机误差中分离出来。它处理的是每一项测量中的变化(例如,外向性评分),这只是意味着一些人被评为更外向,其他人被评为不那么外向。这种变异被认为是三个因素的组合:(a)由性状引起的变异(即,外向性的真实差异);(b)由方法效应(即与实际差异无关的系统因素,例如,自评者想要成为外向者而不是他或她实际的外向者)造成的变异;(c)由随机因素引起的变化(如评分者在评分时的情绪)。
该分析估计了三个因素中每个因素造成的总变异的比例。这是通过计算每个测量对(a)其特质因子的负荷(例如,外倾性自评对外倾性因子的负荷)分别进行的;来自其他来源的外向性评级也会对这一因素产生影响);(b)其方法因素(所有的自我评等,包括外向性的自我评等,都会对自我方法因素产生负荷);(c)一个随机因子(每个度量都有自己的随机因子)。
验证性因素分析结果提供的信息与Campbell和Fiske的标准相似——例如,同特征、不同方法的相关性越高,特征因素负荷越高,表明收敛效度。验证性方法通过统计显著性检验来确定是否存在显著的收敛效度(特质方差)和显著的方法方差,从而消除了主观性。它还量化了特质对方法的影响有多大。这些信息对于确定一个测量有多“好”以及哪些测量需要改进是很有用的(一般来说,希望具有高特性效应和小方法和随机误差效应)。
验证性因素分析方法也有其不足之处。参考文献:部分中列出的资源可以参考这个主题的更多信息,以及其他分析方法。
引用:
- 坎贝尔(1992)。引用不能解决问题。心理公报,112,393-395。
- Campbell, D. T., & Fiske, D. W.(1959)。多特征多方法矩阵的收敛和判别验证。心理学报,56,81-105。
- 肯尼,D. A.(1995)。多特征-多方法矩阵:设计、分析和概念问题。在P. E. Shrout和S. T. Fiske (Eds.)的《人格、研究、方法和理论:一个纪念Donald W. Fiske的节日schrift》(111-124页)。希尔斯代尔,新泽西州:劳伦斯·埃尔鲍姆。
- Lance, c.e., Noble, c.l., & Scullen, s.e.(2002)。多特征-多方法数据的相关特征-相关方法和相关唯一性模型的批判。心理学方法,7,228-244。
- 马什,H. W.(1989)。多特征多方法数据的验证性因子分析:问题多,解决方法少。应用心理测量,13,335-361。
- Schmitt, N., & Stults, D. M.(1986)。方法学综述:多特征多方法矩阵分析。应用心理测量,10,1-22。