第二节 教学评估的方法   依据测验目的和测量结果,科学地对教学进行评估,还必须掌握教学评估的方法。   一、绝对评估   绝对评估是以特别设定的目标为标准,只以评估对象达到设定目标的程度为依据,比较评估对象与设定目标相符程度的评估方法。绝对评估也称标准参照评估。   1.绝对评估的标准体系   绝对评估的标准体系包括合格标准和等级标准,这些标准由绝对评估目标所包含内容的多少而确定。以教学绝对评估为例,由单元测验目标、期中测验目标、期末测验目标和毕业会考目标等不同层次的目标确定的标准体系就不同。   (1)等级不连续标准体系   绝对评估一般采用二级(通过与不通过)标准体系。但这种标准体系太笼统,因而通常也采用三级标准体系或五级标准体系。   以被试在测验中的答对率为依据,可以建立三级标准体系:   答对率在85%以上——掌握得好与较好(第一级);   答对率在70%~84%——掌握得一般(第二级);   答对率在69%以下——掌握得较差(第三级)。   三级标准体系中,可任选一级作为合格标准。如果选第二级为合格标准,则第一级也合格,而第三级不合格。   以答对率为依据,还可以建立五级标准体系:   答对率在95%~100%——掌握得很好(第一级);   答对率在85%~94%——掌握得好(第二级);   答对率在75%~84%——掌握得较好(第三级);   答对率在65%~74%——掌握得一般(第四级);   答对率低于65%——掌握得较差(第五级)。   五级标准体系较三级标准体系细一点,能对评估对象进行细致的区分。和三级标准体系一样,我们也可根据测量目标来选定合格标准级。如果选定第三级为合格标准级,则第一级、第二级也合格,而第四级、第五级不合格。   制定等级指标体系的好处在于,把“好”、“很好”、“较好”、“一般”、“差”等数量化,易于分类和统计操作。它的不足之处是等级化后,不易发现各级内的学生差异。   (2)等级连续标准体系   为了避免等级不连续标准体系的不足,可以用学生的答对率构成绝对评估指标体系。显然,闭区间[0,1]中的每一点都是一个评估等级,因而这个标准体系被称为等级连续标准体系。这个标准体系也可以直接采用实得分构造,这只要把闭区间[0,1]换成闭区间[0,满分数]就可以了。在等级连续标准体系中,任选一个值都可固定为合格标准级。例如,选0.6为合格标准级,则不小于0.6的级构成的区间[0.6,1]均为合格级,而小于0.6的级构成的区间[0,0.6)均为不合格级,这与二级标准体系类似。等级连续标准体系虽然避免了等级不连续标准体系的缺点,但也失去了易于分类和统计操作等优点。   在实际操作过程中,可以结合绝对评估的具体目标选择标准体系和确定合格标准。   2.绝对评估的数量方法   绝对评估可以划分为群体绝对评估和个体绝对评估两种实施形式。个体绝对评估只要将学生的答对率或被评对象在各项指标上的实现程度求和,然后与绝对评估指标体系所规定的合格指标相比较即可得出结论。随着考试理论研究的深入,对考题已提出了最低要求度的概念。从绝对评估的角度来看,最低要求度就是合格指标。计算并确定最低要求度是绝对评估数量化的第一步,也是关键的一步。对于群体进行绝对评估,可以根据群体的特征和目标,增添新的评估指标和等级目标,如群体的方差、平均数、中位数等。对被评群体,只要将其实际值与目标值相比较,就可判明该群体是否合格。   二、相对评估   相对评估是以个体的水平与同一群体的平均水平或常模相互比较,从而确定其水平等级的评估方法。在教学评估中,比较某学生与班级内其他学生成绩(水平)的高低,这实际上是以整体的水平作为“尺子”来衡量学生的学习情况,因而相对评估也常被称为常模参照评估。   1.相对评估的排序方法   将被评个体按其达到目标的程度及在群体中的高低顺序依次排列,同时注明群体数的排列方式(可用二维数组(x,y)来表示,其中x表示其在群体中的序,y表示群体中个体的总数)的评估方法叫相对评估排序法。相对评估排序法直观易操作,因而是最基本的相对评估方法。例如(3,y)表示某学生在测试群体中处于第三的位置,而相对其他学生情况,则由y确定。若取y=10,则可表明其成绩是上等;若y=4,则其成绩是下等。由于排序法只注重排序而略去了具体差异的多少,故在相对评估中较少采用。   2.相对评估的标准分法   为了克服上述相对评估排序方法的不足,使相对评估更趋完善,可采用相对评估的标准分法。标准分的计算由公式  分,S表示群体成绩的标准差。   标准分Z的取值直接反映了学生相对水平。若Z=0,则该生成绩一般;若Z>0,则成绩高于平均分,此时Z的值越大,成绩相对于群体而言就越好;若Z<0,则与Z>0的情形相反。   由于标准分Z可能出现负值,这给应用带来许多不便,而且与人们通常对分数的看法不太相符,为此把标准分Z转化成T分数,其转化公式为 T=50+10Z。   于是T分数与人们的习惯相一致。应该指出,这种转化方法并非唯一,有时还可以采用其他的转化公式。   利用标准分还可以对学生群体进行分类。   (1)用等距分法分类   如果测试群体中学生成绩的最高分为3,最低分为-3,并设想将学生分成五类,则只需把闭区间[-3,3]五等分,得五个区间[-3,-1.8)、[-1.8,-0.6)、[-0.6,0.6)、[0.6,1.8)、[1.8,3],若依次记为E、D、C,B、A,则只要根据某学生的标准分所在的区间,就可判定这个学生属于哪一类。   (2)按权率分类   给出各类人数的权率,不妨设A、B、C、D、E各类人数的权率分别为q1、q2、q3、q4、q5,可以查标准正态分布表,确定临界点a1、a2、a3、a4,使其满足   P(x>a1)=q1,   P(x>a2)=q2+q1,   P(x>a3)=q3+q2+q1,   P(x>a4)=q4+q3+q2+q1,   其中x表示标准分。   设学生的成绩(标准分)为x,当x≥a1时,则评为A类;当a2≤x<a1时,则评为B类;当a3≤x<a2时,则评为C类;当a4≤x<a3时,则评为D类;当x<a4时,则评为E类。   (3)按系统聚类分类   上述两种对学生标准Z分数的分类过程中,由于各类间临界点的确定似乎有点“武断”,就有可能导致标准Z分数非常接近的学生被划分为两个不同的类,扩大这些学生间的差异。用系统聚类方法可以克服这一不足。其步骤是:先把n个个体各自看成一类,规定个体之间或类之间的距离(一般采用欧氏距离),然后把距离最短的两类合并为一个新类,得n-1类,再把其中最接近的两类合并,得n-2类,如此下去,最后所有的个体全在一类。根据实际情况,给定一个阈值T,将类与类之间的距离小于T的聚为一类,就可把n个个体分成若干类。   设A、B、C、D、E五名学生的数学测试成绩(可用标准Z分数,也可用原始分数,二者分类结果一致,此处为了计算简便,采用原始分)分别为45分、35分、76分、60分、93分,按系统聚类法分类的步骤如下。   第一,将五名学生成绩由低到高排序,学生的排列为B、A、D、C、E。   第二,规定取个体间的距离为一维欧氏距离dij,即学生i与学生j的成绩差的绝对值。此处有:db.A=10,dA.D=15,dD.C=16,dC.E=17。   第三,合并距离最短的个体为一个新类。此处A与B的距离最短,将A、B合并为一个新类{A,B}, 并把其平均成绩作为类{A,B}   第四,比较新类{A,B}与邻近学生D之间的成绩之差为20不是最小,而邻近类dD,C=16为最小。   第五,把C、D按第三步处理,得新类{C,D}及其成绩68。   第六,类似第四步可求得{A,B}与{C,D}的成绩之差为68-40=28,{C,D}与E的成绩之差为25。此时,后者较小。   第七,合并类{C,D}与E为一个新类{C,D,E},并把 的成绩。   第八,求得{C,D,E}与{A,B}的成绩之差为76.3-40=36.3。   第九,合并{A,B}与{C,D,E}为一新类{A,B,C,D,E}。   第十,将以上合并过程作成图4-1。    第十一,规定一个适当的阈值T,确定类数并判定各学生所属的类,例如取T=20,作为分类标准,则五名学生被分为三类:第一类含A、B,第二类含C、D,第三类含E;如果取T=30作为分类标准,那么五名学生被分为两类,B与A为一类,剩下的为另一类。   3.相对评估的差异显著性检验   用系统聚类方法对学生进行成绩分类,符合人们最朴素的分类观念,能够较充分地显示学生之间的差异。但由于教育测量自身的误差,是否能把所有表现在成绩上的差异都视为其真实水平的差异?差异显著性检验,在一定程度上可以解决上述问题。这个方法的基本思想是,如果两个对象的真实水平是一样的,那么在同一次测验中,其测验成绩间差异很大的概率是很小的。如果在一次测验中发生了很大的差异,则可认为两个对象的真实水平是有显著差异的。下面以两个群体的成绩为例,说明检验的方法。      群体中的人数(m,n≥50)。   如果两        体有无差异的临界值。 有时事先给定Δx,要求这种判断的置信水平。这时首先求出    然后查标准正态分布表求出α,即可求出1-α。   例如,已知一次考试中男、女学生的数学成绩的标准差分别为21.50分和20.24分,现抽取92名男生、64名女生的数学成绩求得其平均分分别为76.90,72.31。试在95%的置信度下,判断男、女生成绩有否显著差异。   由α=0.05,查标准正态分布表,得Z0.025=1.96,从而临界值       故有95%的把握断言,在本次考试中,男、女学生的成绩无显著差异。      置信水平为82.3%,由此可见,尽管在95%的置信水平下可认为男、女生本次考试中的平均分之差4.59分,是二者水平相同的正常差异,但随着临界值Δx的减小,其置信水平也随之下降。   4.相对评估的百分等级法   百分等级是一种适用于次序变量的相对位置的数量,常记为PR。其构造方法是,对一次考试的所有得分从最低分到最高分,分成一百个等级,得分的数值在这一百个等级中所处的位置,叫做这个分数值的百分等级。实际操作中只要求出低于某分数的人数与总人数之比,即可求出该分数的百分等级。   例如,某学生在一次数学考试中得70分,全班45人有9人比其分数低,则该生的百分等级为:    一般地,与百分等级相对应的原始分数称为该百分等级的百分位数,常用PPR表示。根据求中位数的原理,用线性插入法可导出百分位数的公式    其中,Lb是该百分位数所在组的下根,PR是百分等级,N是总频数,Fb是对应Lb的以下累积频数,f是该百分位数所在组的频数,i是组距。由此公式可求出百分位数PPR的百分等级为    例如,根据157个学生数学测验成绩(见表4-1),求PR=10所对应的原始分和PPR=47.5所对应的百分等级。   由PR=10知,所求原始分在第2组,此处N=157,组距为5,f=9,Lb=14.5代入公式可求得PPR=19.33,即所求的原始分为19.33。   由PPR=47.5知,该生在第8组,将Lb=44.5,f=16,Fb=     122,i=5代入公式可求得PR=83.82,即47.5分对应的百分等级为84。     将分数组作为横轴,百分等级为纵轴,计算各分数组的以下累积频率,将分数组与对应的以下累积频率在坐标系内描点、连线,就可作出百分等级和百分位数的分布图(图4-2)。   应该注意的是,百分等级虽然直观且易于操作,它能为同一个受测者在不同测验上,或者不同受测者在同一个测验上的百分位数提供相互比较。但是,百分等级不具有等距性和可加性,因而不能进行分数的组合。   三、个体内差异评估   个体内差异评估是以评估对象在自身基础上的变化程度为依据所进行的评估,也是把评估对象的某些侧面特征和本身的另一些侧面特征相比较的评估方法。评估个体的学习进(退)步情况,或评估学生自己的智能和学力的差异都属于个体内差异评估的范畴。个体内差异评估与相对评估、绝对评估不同,它的标准只针对个体而言,并不要求群体中所有个体都遵循相同的标准,因而适合于对学习效果的评估。   1.利用成就值作个体内差异评估   设某学生考试实得分的标准T分数为Y,智力T分数为X(智力原 C·A表示实足年龄水平),规定成就值(AS)=Y-X。   在Y与X高度相关时,统计经验表明:AS>10者学力向上,AS<-10者学力不振,其他情形的学力倾向不能判定。例如对某学生而言,Y=70,X=55,则AS=70-55=15,这个学生的学力向上。   2.利用标准分作个体内差异纵向评估   (1)直接利用标准分进行个体内差异评估   对个体的某一特性的不同标准Z分数值,按测试收集的时间先后,构成该生的标准Z分数序列{Zi},设状态转移量    ΔZi=Zi+1-Zi(i=1,2,…,n),   则ΔZi>0表示该状态向良性发展,有进步;ΔZi<0表示该状态向恶性发展,在退步;ΔZi=0表示该状态维持现有水平。比较ΔZi与ΔZi(j>i,j≤n),可判明各步转移的优劣。例如,某学生连续五次测验的标准分为   -0.44,-0.51,1.00,0.09,0.20,   计算,得 ΔZ1=-0.07,ΔZ2=1.51, ΔZ3=-0.91,ΔZ4=0.11,   这表明,该生的学习呈波浪式的提高趋势。   (2)利用N-评价法进行个体内差异评估   N-评价法是按学生进步因素评定学生成绩的方法。其操作方法是:   第一,求出一门学科k次测验中每个学生的标准Z分数,并按时间进行的先后组成标准Z分数序列{Zi}。   第二,利用数理统计知识,可以建立测验序数的数与相应的标准Z分数的关系式   Zj=αk+βkj+e,   其中,αk,βk为未知参数,e为误差。          若k>1,根据数理统计知识可以求出    化简,可得    第四,规定学生进步分数为    第五,规定全部k次考试后的这门学科成绩为          而xj为第j次考试实得分。   对于上面的例题,设五次考试中该生考试的实得分为x1=66,x2=60,x3=82,x4=71,x5=80,可以求出    由已知Zi(i=1,…,5)值,利用第三步可以求出    相应的成绩进步分为    这样可求得全部k(k=2,3,4,5)次考试后这门学科的成绩分别为 N2=62.58,N3=82.26,N4=77.19,N5=77.5,   而N1=x1=66。   从N分数的构造可以看出,它既反映了绝对评估的要求,又体现了相对评估的要求,因而N分数列较好地刻划了个体内差异的变化。N分数增大,说明学习呈进步趋势;N分数减少,说明学习呈退步状态;N分数不变,说明学习状态的水平不变。为了更精确地利用N分数,还可以根据每个学生的N分数,求出他们在各次考试中所得N分数的标准Z分数,再进行评估。