第二节 效 度
在物理测量中,使用某种合适的测量工具测量物体所获得的数量资料(即数值与单位)可以对所要测量物体的属性给出明确的意义。但在教学测量中,用分数描述行为反应的心理属性,它的意义就不那么明确了。例如,学生的某次数学测验成绩是依赖他们掌握语文或物理的知识和能力所得到的,那么这次数学成绩在很大程度上并不能反映所要测量的逻辑思维、运算和空间想象等方面的心理属性。因此,需要考察测验到底测量了哪些心理属性,对这些心理属性能够测量到什么程度,这就是测验的有效性。为了估计测验的有效性,需要建立参照标准。我们常常把反映某种属性的有效客观标准称作效标。它可用一份测验卷来体现,用这份测验卷去测试学生称作效标测量,由此得到的分数称作效标分数。
一个测验的有效性,必须着眼于该测验本身所具有的独特的目的、功能和适用范围。对于某种独特的目的、功能和适用范围是正确、有效的测验,对另一种目的,功能和适用范围可能就是不正确、无效的。不存在对于任何目的、功能和适用范围都有效的测验。此外,由于测验是通过行为样本,对特定的某种属性作间接测量,它只能达到某种程度的正确性,一般用两个测验分数之间的相关系数表示,这种相关程度越高,可称该测验的效度越好。因此,只有程度上的不同而不存在全有或全无的差别,而且测验的有效性是相对的。
一、效度的概念
1.效度的定义
我们知道,个体的测验分数可以表示成真分数与误差分数之和。根据真分数理论,可以进一步将真分数表示成与测验目的有关的有效分数V和与测验目的无关的系统误差分数SE之和:
T=V+SE。
这样,个体的测验分数可表示成
X=V+SE+E。
对于团体的测验分数方差,相应地有以下关系:
效度是测验有效性或准确性的指标,在理论上被定义为:有效分数方差与测验所得分数方差之比,即
这里,Val表示效度系数。
由效度的理论定义可以知道,效度系数Val的范围是[0,1]。
由于效度分析可以针对各种要求和运用各种程序,而在特定的条件下,使用不同的分析方法可以得到不同的效度。因此,一个测验可以具有不同的效度指标。当我们讨论一个测验的效度时,只有界定了它的条件,效度才有确切的意义。
2.效度与信度的关系
由测验分数方差的关系式可以知道,效度的提高受到信度的制约。
效度高的必要条件,但不是充分条件。
另一方面,降低信度,也会使效度降低。例如,测验信度和它的效标测量信度降低时,会使测验和效标之间的相关程度减弱(即效度降低)。为了估计测验与效标真分数之间的相关系数,可以用如下公式
校正。式中,rc是测验与效标真分数的相关系数,rxy是实得的测验分数与效标分数之间的相关系数,rxx、ryy分别是测验和效标测量的信度。由于相关系数|rc|≤1,所以由上式可知
当效标测量信度未知时,用其最大值代入,则有
由此可知,效度系数的最大值为信度系数的算术平方根。
3.影响效度的因素
影响测验的效度除了有测验本身、测验实施过程、被试主观状态等因素外,还有以下主要因素。
(1) 受测样本
测验的效度系数是依据样本中的受测者在测验和效标上的得分,求其相关系数而得到的。一个测验施测于不同的样本,由于受测者在年龄、文化程度以及经验背景上的差别,效度就会随之不同,因此,受测样本的选取是用来考察效度所依据的重要因素。例如,初中学业成就测验,用初三毕业生的成绩作受测样本确定效度才是合理的。
样本容量的大小与效度系数的高低有一定关系。样本容量越大,测量误差就会有相互抵消的趋势,由此会有助于提高测验和效标测量的信度,同时有助于提高效度系数。
此外,样本的同质性也会影响效度系数。当测验的其他条件均相同时,样本的测验分数和效标分数分布范围越小,则效度系数就越小。因此,随机抽样可以保证样本中受测者的异质性,有利于提高效度系数。在估计预测效度时,如果测验分数的样本范围缩小,则会因测验分数分布范围的缩小而低估了测验的效度。例如,以高一数学期末考试的成绩为效标,估计初中升学考试的预测效度时,以进入高中的学生作为样本来计算二者的相关系数,却没有包括参加升学考试但在中专、技校、职校中学习和未进入各类学校的学生,这样就缩小了效标成绩的分布范围,因而会低估它的预测效度。为此可用公式
?
予以校正。式中,r是校正后的效度系数,r′是样本范围受到条件限制时的效度系数,Sx、S′x分别是两个样本范围内测验分数的标准差。
(2)效标
选择适当的效标是统计效度的先决条件。一个测验由于采用的效标不同,其效度可能会大相径庭。甚至,由于效标选择不当,可能导致无法衡量测验的效度。
二、常模参照测验的效度
对常模参照测验来说,主要有效标关联效度、内容效度和结构效度。
1.效标关联效度
测验的效标又可称为准则,它是衡量测验效度的参照标准。既然是参照标准,就必须充分反映所要测量的属性,并且是独立于该测验的“标准尺子”,而不是根据被检验的测验制定的尺子,否则就会误入“循环”的圈子。我们可以用一类标准化测验作为某次测验的效标。由于标准化测验是一种取样范围大,覆盖面宽,并经过专家鉴定和权威性机构认定的测验(如国家级高考、省级各类会考等),所以它具有有效的客观标准效应。选择适当的效标是件既重要又困难的工作,需要根据不同的测验类别有区分地加以选择。例如教学测验可以采用相应的学科成绩或教师评定的等级作为效标,但不能用某种特殊能力或特殊训练的成绩作效标。效标还可能随着时间和个别差异的变化而改变。因此,效标需要有一定的可靠性(即信度)。
测验对效标行为具有代表性的程度或进行预测的有效程度称作效标关联效度(又可称准则关联效度)。这里以测验分数与其效标分数之间的相关系数来表示效度系数。根据效标资料收集的时间,又可分为共时效度和预测效度。共时效度的效标资料可以与测验同时收集,它是以测验分数与现有效标分数之间的相关系数表示效度,所关心的是测验是否取代了效标的有效性。预测效度的效标资料需要经过一定时间以后才能收集,它是以测验分数与其未来效标分数之间的相关系数表示效度,所关心的是受测者的测验分数对于其未来成就预测的有效程度。
由于测验分数和效标分数这两个变量的类型不同,两者的相关系数计算方法也不同。以下介绍几种常用的方法。
① 积差相关法
当测验分数和效标分数是连续变量时,可以用这两组分数的积差相关系数表示效度系数。
例如,在高考前几天,用一套数学测试卷对某校高三15名学
生施测,并以这些学生的数学高考成绩为效标(见表2-4),试估计高三数学测试卷的效标关联效度。
将有关的数据代入积差相关公式,得r=0.72。因此,该校高三数学测试题的效标关联效度为0.72。
然后必须对r的值进行显著性检验。假设这样的两个变量不相关,则统计量
服从自由度f=n-2的t分布。给定显著性水平α,比较用上式计算得
关,否则不显著相关。对这两次测验来说,r=0.72,n=15,通过计算,得t=3.7408。给定显著性水平α,查表得
t0.025(13)=2.1604。
可见|t|>t0.025(13)。因此,这两次测验的成绩显著相关。
(2)二列相关法
若测验分数和效标分数是两个正态的连续变量,并且由于某种原因被分为两个类别(如学校被分为重点和非重点,学生被分为及格和不及格等),测验的效标关联效度系数可用二列相关系数公式
求得。其中,rb是二列相关系数,p是两个类别中某一类别的频率,q
变量的平均数,St是连续变量的总体标准差,y为正态曲线下p值纵线的高度。
二列相关系数公式还有另一种形式
当测验分数和效标分数中有一个是连续变量,另一个为两个类别变量或该变量的分布是双峰分布时,可用点二列相关系数公式
(3)等级相关法
当测验分数和效标分数(或其中一个)以等级次序表示时,效标关联效度系数可以用等级相关系数公式
求得。其中,r是等级相关系数,di是第i个测验分数和效标分数的等级差,n是受测人数。
2.内容效度
测验的题目对所要测量的内容具有代表性的程度称作内容效度。它反映测验题目在所要测量的内容范围和教学目标内取样是否充分和确切的问题,主要用于学科成绩测验。内容效度一般不用数量化指标来表示,主要依靠在某种依据的基础上作出逻辑分析。为了提高测验的内容效度,首先要注意界定测验的内容范围,其次要注意基于经验判断基础上的系统取样。目前,大多数学科成绩测验的编制者根据教学目标的分类,先拟就测验的蓝图,将各部分内容和教学目标各层次按确定的比重表达出来,然后编制测题,以满足提高内容效度的要求。
评价内容效度,一般由学科专家根据所要测量的心理属性和内容范围的界定,以及各部分内容、认知层次的比重,用分析的方法对测验作出判断。如果专家认为,不仅每个测题,而且整个测验与预期的测量属性之间吻合程度较高,那么测验具有较高的内容效度,否则就认为内容效度较低。这种评价方法缺乏数量化指标,可能带有一定的主观性。由于不同的专家对同一门学科的内容范围和教学目标可能有不同的理解,不同的专家对同一个测题的性能也可能有不同的理解,因此,对整个测验的内容效度所作的判断就有可能不一致,但在现阶段,它还是一种简单而又容易操作的方法。
在有些情况下,可以借助比较平均数差异的显著性来评价内容效度。
对同一组受测者用一个测验的两个复本在教学或训练前后施测,该测验内容的有效性可以由两次测验成绩差异的显著性加以判断。若两次测验分数的平均数之差在统计上有显著性差异,则表明测验所测量的内容正是教学或训练的内容,可以认为测验内容具有有效性。反之,可以认为内容效度较低或缺乏有效性。
如果用效标关联效度表示测验的有效性,虽然不需要考察测验的内容效度,但是对于效标的测量仍然要考察它的内容效度。
3.结构效度
测验对假设的理论概念或心理属性测量的有效程度称作结构效度。对于这些理论概念或心理属性所决定的行为反应的潜在特性,无法给予操作性的定义。实际上没有效标能够测量这些假设的心理属性,只能寻求其他方法估计效标分数。评价结构效度的目的在于从心理特性的理论观点上对测验的结果加以解释和探讨。
确定结构效度的方法,一般是根据某种结构理论提出各项心理属性或行为的假设结构,编制测验,然后以测验结果为依据,运用相关、因素分析或实验等方法,验证测验结果是否符合上述假设结构。
推算结构效度,常用下面的方法。
(1)测验内容法
用测验的内容和考查要求规定所要测量的结构性质,它的内容效度就为结构效度提供了依据。例如,在编制考查空间想象能力的测验时,将内容和要求描述成:
画水平放置的平面多边形直观图;
叙述两条异面直线公垂线及距离的定义;
判断异面直线所成角的大小;
证明直线和平面平行的判定定理,并能将线面平行与线线平行互相转化;
用线面垂直的定义和判定定理进行证明和计算;
用三垂线定理及其逆定理进行证明和计算;
判断两个平面的位置;
根据二面角及其平面角的定义进行计算和证明。
上述内容和考查要求可提供该测验的结构效度。它由画空间直观图的技能、逻辑推理能力和空间想象能力所组成,同时给出了该测验由教学目标的各水平层次所组成的认知结构效度。这种方法是通过研究测验的内容结构来界定所测量的结构框架。
(2)相关系数法
对同一组受测者施测新编制的、需要确定其结构的测验与已知其结构效度的测验,求它们所得分数的相关系数。如果相关程度高,则表明新编制测验与已知结构的测验具有相同的结构效度。反之,两个测验测量的结构效度不同。
(3)因素分析法
评价结构效度最主要、最精确的方法是因素分析(有关因素分析的原理和方法,可见参考书[12])。应用因素分析可确定一个测验测量了哪几个主要的心理因素,这些因素在总方差中所占的比率。
因素分析是一种多元统计分析方法。它可以将观察得到的一组随机变量xi用另一组随机变量fj来表示:
当m<n时,变量fj就是变量xi的因素,一般称为公共因素,aij是xi在fj上的负荷,Ei是误差。这些公共因素不可能直接观察到,它们包含在可观察的变量之中,并且决定着可观察变量,是测验中最基本的变量。因素分析的功能在于使人们可以在众多的变量中确定少量且又十分重要的几个互相正交的因素向量,同时最大限度地解释这组变量的总方差。因素分析的“因素抽取”步骤就是确定因素向量的过程;“向量旋转”步骤是为了使得到的因素有比较明确的涵义,以便对公共因素作出合理的解释。
例如,全国初中数学教学抽样调查(测试题见附件一)通过对测验分数进行因素分析,得因素矩阵如表2-5所示。
由上表可知,因素I反映了数学基本能力,它对单位方差的贡献率达68.7%;因素II反映了灵活与综合运用知识探究问题的能力,它对单位方差的贡献率为29%。这两个因素的累积贡献率达97.7%,可以认为这次测试所测量的数学能力基本由上述两个因素构成,其结构效度既明确又完善。
三、标准参照测验的效度
标准参照测验主要是检查学生的学习效果,考察学生对规定的内容掌握得如何,或是否达到某种标准。如果全体学生都已经掌握,他们所得分数的方差是零。根据影响效度的因素——受测团体同质性可知,即使这类测验再有效,效标关联效度系数也不会高。所以,标准参照测验的主要评价方法是内容效度。
此外,还可以考察测验的分数,是否能区分以效标行为水平所界定的不同的团体来确定效度。例如,中学数学某一内容的测验是以“及格“和“不及格”评定学生成绩的,那么效标行为水平将学生分成及格与不及格两组。如果两组受测者在测验分数上有显著性差异,则可认为测验是有效的,即测验可对效标水平进行“质”的区分。
例如,以60分为及格线,根据效标成绩将学生分为及格和不及格两组,其成绩统计数据如表2-6。
利用独立小样本统计量求得t=3.964,查t分布表,t0.05=2.048,df=28,因为t=3.964>t0.05=2.048,于是表明,根据效标成绩划分的两组学生在测验成绩上有显著性差异,因此,该测验具有有效性。