第一节 信度
信度是衡量测验分数一致性或可靠性的一个指标,即用一个或一组测验对同一被试群体施测多次,所得结果的一致性程度,以及测验分数所反映被试真实水平(即真分数)的可靠性程度。如果对一组学生用同一个测验实施两次,测试的结果完全一样,可以认为该测验完全可靠,这时它的信度系数为1。但在现实中这种测验是很难找到的。在测量心理属性的教学测量中,与测量目标无关的变量(或因素)对测量的不准确和不一致的效应,使这类测量产生各种误差。误差越大,信度越低;而误差越小,信度越高。因此,确定测验的客观性和可靠性程度的关键在于控制各种误差,使测验能测出心理属性的客观量数,并使其具有良好的稳定性。怎样提高测验的信度,是值得进一步研究的问题。
一、信度的概念
我们知道,影响信度的主要因素是测量中的误差。那么误差又是如何产生的呢?一般情况下,测量资料存在三种误差。一是抽样误差。它是由机遇或抽样变动而造成的误差。它的估计值Sx是样本标准差S与样本容量n的算术平方根之比。由于测验取样容量n总是相当大,因此Sx很小,可以忽略不计。二是随机误差。它是由偶然因素引起的无规律的误差,是由心理属性的行为反应所造成的。三是系统误差。它是由与测验目标无关的某种常定因素所引起的恒定的、有规律性变化的误差。由于这种误差的影响,可使每个学生的得分普遍偏高或普遍偏低,但是,它在测验成绩中不会引起不一致性。因此,测验的可靠性主要是研究如何控制随机误差问题。为此,我们将通过真分数、随机误差与所得分数的关系来揭示随机误差对信度的影响程度。
1.真分数
在无数次测验中所得分数的期望值称作真分数。由于测量误差在测验中不可避免地存在,因此,真分数只是理论上的概念。根据真分数理论,我们可以将学生个体的测验实际得分X表示成真分数T与随机误差分数E的和,即
X=T+E。
真分数理论存在着两个假设:一是真分数与误差分数相互独立,即真分数与误差分数的相关系数rte为零;二是由于随机误差是无规律的,不会倾向于任何一个方面,所以当测量次数n足够大时,随机误差的总和为零。
随机误差反映了在一定条件下,测验的某一种特性。像X=T+E
2.信度的定义
信度是反映测验成绩在不同条件下一致性程度的指标。信度在理论上被定义为:在一组测验中真分数方差与所得分数方差之比,即
这里的rxx也称为信度系数。
由上述两式,可得
信度反映了在所得分数的方差中,测验受随机误差影响的程度,也就是测验的可靠程度。由信度的理论定义可知,信度系数rxx的范围是[0,1]。当rxx=0.90时,可以认为测验所得分数中有90%的方差来自真分数的方差,仅有10%来自测量的随机误差。同时,所得分数的方差强调团体测验的一致性,这就说明信度不仅与测量工具有关,而且还与受测团体有关。因此讨论信度时,必须明确标明在某种条件下,用于某一团体的测验所具有的可靠性程度。
信度的另一个涵义是:测验所得分数与真分数的相关系数rxt之平方,就是
rxx=r2XT。
信度和真分数—样是一个无法确切知道的理论概念,只能通过一些估计的方法来推断。一般情况下,在规模较大的测验中,信度系数应不低于0.90,以达到0.95为好;学校平时测验的信度系数也应不低于0.60。
3.影响信度的因素
由误差来源可知,随机误差是影响信度的因素。它的主要表现,一是测验内容的自身方面,如测验内容取样的多少,作答时猜测的机率,指导语的清晰程度;二是施测过程方面,如测验环境,测验时间,主试因素,意外干扰,阅卷评分;三是受测者自身方面,如应试动机,焦虑心理,生理因素,测验的经验与技巧等。除了随机误差以外,影响测验信度的还有如下因素。
(1)受测团体的范围
信度系数与相关系数一样,受到分数分布范围的影响,受测团体的水平越接近,测验分数的分布范围越小,随机误差的影响就越大,信度就越低。反之,分数分布范围越大,信度就越高。从信度的理论定义可
rxx就随之增大。例如,在数学学科高考和会考中市重点中学、区(县)重点中学、普通完全中学分类所得分数方差均小于全市所得分数方差,这三类学校分别的统计信度低于全市学校总体的信度。它反映了不同受测团体对信度的影响。
(2)测验的长度
测验所含题目的数量称作测验的长度。测验的题目越多,测量学生水平的可靠性越高,即信度越高。
在一般情况下,测验长度增加时信度也随之提高。如果在某个测验中增加与该测验同质的试题,并且它们具有相同的难度,就可以改进信度。由斯皮尔曼-布朗(Spearman-Brown)公式
可导出计算测验长度的公式
其中,n是增加试题后的测验长度与原测验长度的比率,rtt是原测验信度系数,rnn是增加测验长度为原测验的n倍时的信度系数。
由计算测验长度公式可以确定一个信度较低的测验,需要增加多少题目才能使它的信度达到预期的目标。例如,某测验的信度系数是0.75,要增加多少长度才能使信度达到0.90?由于
所以当原测验信度为0.75时,测验题量需增加至原来的3倍,才可使信度达到0.90。另一方面,当测验长度过长,需要删减适当题量,而删减多少才不致对信度造成较大的影响,这也可利用计算公式作出断定。
(3)测验的难度
测验的难易将会影响分数的分布范围。测验太易或太难都会使分数的分布范围缩小,随之使信度降低。这就需要研究,测验应该具有怎样的难度才能提高信度。本章第三节将继续讨论这个问题。
我们知道,根据解释测验成绩的参照标准,可以把测验划分为常模参照测验和标准参照测验。在常模参照测验中,测验的成绩以常模作为参照标准进行解释。所谓常模,是指参加测验的全体学生或者一个标准化样本(经过选择,能代表全体学生的一个学生群体)在测验中实际达到的平均水平。而标准参照测验是以事先制定的标准或表示完成这一标准程度的等级分数作为参照标准解释成绩的一种测验。以下分别讨论常模参照测验和标准参照测验的信度。
二、常模参照测验的信度
由于真分数无法直接测量,前面所述的信度定义是一种理论概念,所以只能根据测验所得分数来推算信度。对常模参照测验来说,主要有稳定性信度,等值性信度和内在一致性信度。
1.稳定性信度
对一组受测者先后两次施测同一测验所得分数的一致性称作稳定性信度,它通常被表示为两次测验所得分数的相关系数(以下称稳定系数)。由于两次测验先后进行,所以又称为再测信度。
计算稳定系数的方法是求两次测验分数的积差相关系数。如果收集到的是原始数据,可用下列公式计算:
其中,rtt是信度系数,x1i、x2i是第i个受测者先后两次测验所得分数,n是受测人数。
如果收集到的数据还有两次测验分数的平均数和标准差,则上式为
次测验分数的标准差。
在计算稳定系数时,首测与再测时间间隔的长短应该依据测验的性质、题型、题量和受测者的特点来决定。
稳定性信度适用于包含几个相关程度很低的不同性质内容的测验。稳定性信度适用于速度测验而不适用于难度测验。速度测验的测题数量较多,且有一定的时间限制,受测者很难记住前一次测验的内容,受记忆影响较小。难度测验则相反。
2.等值性信度
两个复份测验之间分数的一致性称作等值性信度,通常被表示为两个复份测验分数的相关系数(以下称等值系数)。所谓复份测验是指在测验性质、内容、题型、题量、难度等方面均为一致的A、B两个测验,这两个测验中的一个几乎是另一个的复本,所以等值性信度又称为复本信度。
计算等值系数的方法是,先用A卷施测,然后在较短的时间间隔内施测B卷,再求它们得分的积差相关系数。
例如,以摸底测试和高中会考两份试卷对高三部分学生施测,摸底测试成绩如表2-1中x1所示,高中会考成绩如表2-1中x2所示。
测验的等值性信度可以用这两类成绩的积差相关系数表示:
为了排除施测的顺序效应,可以让二分之一受测者先答A卷,再答B卷,另外二分之一受测者则相反。求得相关系数后,需要进行显著性检验。相关系数较高的两份测验不一定具有“等值”的意义。由于难度不同、变异幅度不同的两份试卷之间也可能具有较高的相关,因此,在对测验内容定性评价的基础上,应该考察测验的正确反应比率和完成测验的时间,观察它们之间是否存在显著性差异。
等值性信度是考察测验可靠性的较好方法。它不仅适用于难度测验,也适用于速度测验。常用等值性信度作追踪研究或探讨某些影响测验成绩的因素。
3.内在一致性信度
在一个测验中,各个测题上所得成绩的一致性称作内在一致性信度。测验内部的一致性是确定测验中的所有题目是否测量了同一个心理属性。一般情况下,可以用分半相关、库特-理查逊(Kuder-Richardson)公式或α系数来计算内在一致性系数。
(1)分半相关
当一种测验既无复份,又不可能重复进行时,通常用分半相关来估计测验的信度。一个测验施测后,将题目分成两个假设相等但又独立的部分,求这两部分测验得分的积差相关系数。它是一个测验的分半相关量,即分半测验信度系数rhh的估计量。整份测验的信度系数可用斯皮尔曼-布朗公式的特殊形式来测量,即
应当注意,在应用上式时,分半的两部分测验须满足在平均数、标准差、分布形态、测题间相关、内容、形式和题数都相似的假设条件。否则,测验的信度估计将会产生误差。如果用下列两个公式,则不需要满足上述假设。
弗拉南根(Flanagan)公式:
方差。
卢龙(Rulon)公式
方差。
例如,对初中二年级学生进行“相似形”测验,用0、1评分法,其测验结果如表2-2。试估计该测验的信度。
将测验题奇偶分半后,求出每个学生奇偶题的分数之差,再计算其差数和测验分数的方差。由卢龙公式,得
所以,该年级学生“相似形”测验的信度为0.65。
(2)库德-理查逊公式
由于一个测验的两分方法很多,因此求得的信度系数也不相同。用库德-理查逊公式计算内在一致性信度,可以避免由于任意分半而造成的偏差,当题目以0、1评分时尤为合适。
应用库德-理查逊公式须满足的假设与斯皮尔曼-布朗公式的相同。
库德-理查逊(K-R20)公式:
人数的比率;qi=1—pi,是第i题答错人数的比率;n是题目数。
仍以表2-2的测验成绩为例,可得到以下统计结果:
用K-R20公式计算,可得到:
如果题目难度接近,可以应用K-R21公式:
由于分半信度是根据被分成相等的两部分测验计算的,它们之间的同质性较强;K-R 公式是根据对测验试题的答对与答错两部分计算的,它们之间异质性较强。因此,所求信度系数后者较低,尤其是用K-R21 公式,所得信度系数更低些。
(3)α系数
当测验题目是多值评分时,克伦巴赫(Cronbach)提供了更通用的公式:
,
在通常情况下,当测验是同质性时,其内在一致性信度较高;当测验是异质性时,其稳定性信度较高。
上述三种估计信度的方法主要用于衡量学生的相对水平,区分他们之间差异的常模参照测验。它们都是研究教育测验的一致性程度,不同的是研究的侧面各不相同。稳定性信度是估计不同时间测验的一致性;等值性信度是估计不同形式测验的一致性;内在一致性信度是估计一个测验中,在不同测题上所得分数的一致性。
三、标准参照测验的信度
标准参照测验强调注重于考查学生对教学内容熟练掌握的程度,在教与学各个环节处理得较好或较差的情况下,受测团体的水平将比较一致,测验分数的分布范围比较小。这样,既使测验具有一定的稳定性或可靠性,它的信度系数仍然较低。根据标准参照测验的特点,可用下面较为简便的方法估计信度。
1.阶段比较法
对数学学科内部某一分支的标准参照测验,可用阶段比较法来判断测验的信度。例如,施测“不等式”的内容。先对学生进行“不等式的性质”的标准参照测验,鉴别出学生通过和未通过的类别。学生经过下一阶段的学习,再进行“不等式证明”的标准参照测验。如果前阶段通过的学生中后阶段未通过的比率较高,经过考察,发现这些学生不会证明的原因,是由于没有真正熟练掌握不等式的性质,那么说明前阶段的测验可靠性较低。
阶段比较法还适用于同一知识内容在不同时期(或不同水平上)的标准参照测验。例如,先对学生施测较低水平的标准参照测验,找出通过的学生,经过一段时间学习,再用较高水平的标准参照测验施测。如果第一次测验通过的学生已具备学习下阶段内容的条件,他们在下阶段学习中又确实取得成功,也就是说,在第一次测验通过的学生中第二次测验达到熟练掌握的学生人数比率较高,那么说明该测验信度较高。
2.比率系数估计法
以甲、乙两个复份的标准参照测验对同一组学生施测,用两个测验都通过和都未通过的人数之和与该组学生总数之比作为测验的信度系数。
根据表2-3,信度系数为:
如果两次测验都通过与都未通过的人数之和与总人数之比的比值较高,可以认为测验具有稳定性。