第三节 模糊综合模型
模糊数学是研究模糊现象的有力工具。在教学评估中,模糊综合评判和模糊综合评审这两个模型已得到越来越广泛的应用。
一、模糊综合评判模型及其应用
在教学评估中,为了充分体现目标制定者的意图,全面综合地考虑各相关因素对评估目标的影响,增强所得数量指标的客观可比性,有时需要应用模糊综合评判模型。
1.模糊综合评判模型的数学表述
表示抽象的加法,且
得到几个常用的具体形式的模型。
(1)突出最优因素的模型
(a,b),则
bj=max[min(a1,r1j),min(a2,r2j)…,min(am,rmj)],
向量使主要因素起单因素控制而使评判失去综合意义的不良后果。用突出最优因素的模型进行教学评估时,由于已作了同一化处理,尽管不同学生的优因素不同,但仍然可比,同时还可以发现对同一成绩起主要作用的优因素。
(2)突出最劣因素的模型
从计算bj的方法可以看到,rij与bj已不再是具体意义下的隶属度,而成为新的评估指标,所求出的是突出最劣因素。将此模型用于教学评估,有利于发现学生当前学习中存在的主要问题,以及主要问题中最突出的劣因素.
(3)综合评判模型
可以给定,从而求出的bj值反映了指标bj的整体综合水平。
据评估目的予以选用。为了提高评估的准确性,往往多次使用模型M(·,+)构成所谓多级综合评判。有时为了充分考虑突出最优、最劣因素对整个评估的影响,还要对用模型M(·,+)评估的结果进行适当修正,这就需要进行所谓二级指标评判。
下面以某地九所中学联合举行的高中数学测试(试题见附件三)的成绩为例,分别阐述多级综合评判和二级指标评判在教学评估中的应用。
2.多级综合评判应用举例
=(d31,d32,…,d39)分别表示第一、第二、第三级考试目标构造向量,其中dik表示第i级的第k个以其前一级为总体的权,背景知识为所测目标的知识载体,规定f1,f2,…,f9为试题的背景与能力要素。在测验之前只要将d11,d12,…,d38,d39按权要求确定,就可利用
客观意义的A类分(A类分将在后文中定义),A类分能在目标确立下为分数的比较提供客观的依据。
根据高中数学测试所企求评估的内容和目的,并对构成试题及其评分标准的分析,可以认为本次测试是以考察T1目标为主的测试,而且T1目标下的D1、D2目标要求相当,但D1目标侧重f2,D2目标明显侧重于f4;考察T2目标时,主要是考察T2下的D3目标(D4只占整卷的6分),D3目标又以考察f7为核心,f6和f5均服从于f7,对于T2下的D4目标,结合中学数学教学大纲和整套试题分析,其侧重点在f8。由此分析取定高中数学测试的目标等级为:d11=0.6,d12=0.4,d21=d22=0.5,d23=0.65,d24=0.35,d31=0.2,d32=0.8,d33=0.4,d34=0.6,d35=0.2。d36=0.3,d37=0.5,d38=0.6,d39=0.4。
其次,在分级权重表确定后,可按以下步骤进行多级评判。
(1)确定试题的背景与能力要素
将试题的各题按照解答所涉及到的背景与能力要素中足码最大的所在类来确定背景知识所在的类。对于客观试题由于不能细分各要素所占的分数,此时对正确解答该题所必须的背景与能力要素均赋给满分值;在陈述性试题中,由于各要素之间的衔接作用,有的知识或技能具有双重身份,对于具有双重乃至多重身份的知识或技能,按同一分值分别记入不同的要素中。例如在统计各题的f7时,把从该题第一个技能后的有关技能、知识所占的分数全部归入f7中。最后将各题的f7的分数合在一起,即可得到试题背景与能力要素f7的满分数。按此统计高中数学测试背景与能力要素值得fi,这里,f1包括第1~3、11、12、14题,计18分;f2包括第2、3、14~17题,计18分;f3与f4的题相同,均包括第4~9、13、18、19、21、22题,根据选定的评分标准可统计出f3=33分,f4=32分;f5、f6、f7的题相同,均包括第23~26题,类似统计f3与f4可得f5=12分,f3=28分,f7=17分;f8与f9包括的题也相同,均为第10、20题,统计得f8=6分,f9=6分。应该指出的是,统计fi与所选定的评分标准有关,此处统计的fi都应以给定的评分标准为依据。
(2)统计被试按背景与能力要素的得分率
统计时对客观试题答对者,则对所涉及的要素均赋满分;相反,则全赋零分。取考分C1为52,C2为82,C3为83的三名被试分别作为被试1、被试2、被试3,其背景与能力要素得分率如表5-8。
(3)求综合指标数
利用模糊综合多级评判求综合指标数的过程可用矩阵运算表述:
D1x=(d31 d32)(f1x f2x)T,
D2x=(d33 d34)(f3x f4x)T,
D3x=(d35 d36 d37)(f5x f6x f7x)T,
D4x=(d38 d39)(f8x f9x)T,
T1x=(d21 d22)(D1x D2x)T,
T2x=(d23 d24)(D3x D4x)T,
rx=(d11 d12)(T1x T2x)T,
其中x为被试编号数,fix表示被试x在第fi要素的得分率,rx为被试x的多级综合评判结果。
通过计算,得r1=0.6094,r2=0.7934,r3=0.8342。
(4)结果分析
对于已经求出的r1、r2、r3,使用A类分数(Ax=100rx称为考生x的A类分数),则A1=60.94,A2=79.34,A3=83.42。A1竟高出C1近9分,A2低于C2不到2分,但A3稍高于C3,按C类分数认为不及格的被试1,但按A类分数可认为及格,被试2的A2不如C2反映的好,被试3的A3比C3反映的好。造成这种现象的原因是对被试求C类分的方法造成的,这个方法对各相关内容的重要程度的区别未能得到充分体现。在本例所给出的目标系统中分析被试1,其d31,d32,d33,d34权所对应的背景与能力要素得分率均超过0.6,而其他权的背景与能力要素得分率均很低,由于强调双基,因而最终评分对被试1有利,同时也说明被试1基本达到本次考试的目标要求;被试3的两类分数非常接近,可以认为A3就是C3所反映的目标水平;对于被试2,由于求C2时,f32,f42,f52,f62,f72等要素得分被过分强调,这与目标要求不一致,故C2不能代替A2水平。由此可见,C类分高的其A类分不一定高。这也正说明A类分一般不能用C类分代替,因而要对被试进行特定目标下的评估,以采用A类分为宜。
3.二级指标评判应用举例
仍以这次数学测试为例,我们将试题大致划分为了解、理解、掌握和灵活运用四个水平,并依次用E、F、G、H表示,E包括第1~3、11、12、14、15、17~19题,计30分;F包括4~10、13、16、20题,计30分;G包括第21~23题,计15分;H包括第24~26题,计25分。
这里选取C类分为74、75、75、75、74的5名被试(分别记为1、2、3、4、5)作为被评学生,则U={1,2,3,4,5},
按E、F、G、H因素统计每个被试的C类分,并求出相应各水平的得分率。对于被试1,经统计E水平实得24分, F水平实得27分,G水平实得11分,H水平实得12分,相应的得分率为0.8,0.9,0.73,和0.48,类似可求出其他四名被试在相应各水平的得分率,列成表5-9。
为了方便,这里就用各水平的得分率表示相应被试属各评估因素的隶属度,从而对五名被试可构造如下评估矩阵:
rij表示第j名被试对第i评估因素的隶属度(在第i项上得分率)。
最劣因素评估,可以发现被选取的被试群体的成绩很不理想,进一步还
选出的被试按从优到劣排序为:被试2,被试4,被试5,被试1,被试3,五名被试被分为五个等级。这正体现了模糊综合评判的优点,对于按C类分评估出现的不能区分或区分不当,运用模糊综合评判可弥补这些不足。
(4)求二级指标进行二级综合评判
为了充分考虑突出最优、劣因素对考试成绩的影响,使评估尽可能反映被试的实际情况,需要按新的评估指标集{最优,最劣,综合评判},再对被试进行一次综合评估,评估的关键是由有经验的教师或专家所组成小组确定三维因素模糊向量D=(d1,d2,d3),这里D为权向量。
构造二级评判矩阵
这里取定D=(0.1,0.05,0.85)。
差变化较小,这是正常的。由D的构造可以发现突出最优因素和突出最劣因素对考试的影响都极小,对被试发挥真实水平影响不大。尽管如此,
非常熟悉,而有的被试恰与前者相反,通过二级评判可以发现这些分数都不能有效地揭示被试的真实学习水平状态。
二、模糊综合评审模型及其应用
模糊综合评审模型的数量指标具有相对意义。它是对同一等级水平进行再评估的有力工具。教学评估中可以利用这个模型,对同一水平的学生作更精确的评定。
1.模糊综合评审模型的数学表述
度,n为项目总数,m为指标总数,gi,bi分别为对于优、劣指标项目i的隶属度,w=(w1,w2,…,wm)为权向量,则称
为模糊综合评审模型,记为模型Uj。
模型Uj揭示了被评估项目j相对于优的隶属度。在以虚拟的优作标准的前提下,可以通过区分数量指标Uj来区分各项目的优劣。如果把评估对象称为项目,测验内容的构成要素作为评估指标,就可运用这个模型。
2.模型Uj在教学评估中的应用举例
在教学评估中应用模型Uj时,通常以被试的评价者作为试题,被试在各题的得分率作为对被试的评估,这样可运用模型Uj对同一水平分的学生进行再评估。
为了计算的方便,将高中数学测试试题划分为六大题:第1大题由原第1~10题组成,第2大题由原第11~20题组成,第3大题由原第21,22两题组成,第4大题由原第23题组成,第5大题由原第24题组成,第6大题由原第25、26题组成。5名被试各大题得分率及C类分数如表5-10。
首先,求出5名被试关于第1大题为优的隶属向量r1。
将第1大题按照得分率由高到低构成向量r10,可得
r10=(0.9 0. 8 0.8 0. 8 0.7)T,
δjk为被试j对于被试k优的程度
其中r1j表示第j名(j=1,2,…,5)和被试在第1大题的得分率。
即可求出5个被试第1题优的隶属向量
在本例中可算得
r10=(1 0.67 0.67 0.67 0.43)T,
按被试编号顺序重排r10各分量的顺序。得
r1=(0.67 0.67 1 0.43 0.67)T。
其次,重复上述步骤可求出关于第k(k=2,3,4,5,6)
在上述计算δjk的式中,依次将r1j-r1k换成r2j-r2k,…,r6j-r6k,可得
r2=(0.67 0.43 0.25 1 0.43)T,
r3=(1 1 1 1 0.67)T,
r4=(0.43 0.11 1 0.43 1)T,
r5=(0 1 1 1 1)T,
r6=(0.64 1 0.64 0.32 0.49)T。
再次,用试题实际分决定权向量D=(d1,d2,…,d6)(di为第i题的权),确定关于优的指标权向量,确立的方法如上所述,但需将各分量权化。
本例中
D=(0.3,0.3, 0.1,0.05,0.07,0.18)。
据此求得关于优的指标权向量
w=(0.27,0.27, 0.11,0.10,0.09, 0.16)。
最后,计算被试的Uj指标。
显然5名被试属真正优的隶属度,以及真正劣(差)的隶属度均为0,从而有
U1=U2=U3=U4=U5=0.5,
无法区分5名被试的优劣。这说明对于真正意义下不优的学生进行优区
回事了,此时尽管被试对于劣的隶属度为零,但对于“优”的隶属度为:
μ1=0.99,μ2=1,μ3=1,μ4=1.0,μ5=0.99。
取μ1,μ2,…,μ5的平均值作gi,则
(i=1,2,…,6)。
代入模型Uj中,求得
U1=0.75,U2=0.70,U3=0.73,U4=0.74,U5=0.66。
由此可见,如果需对5名被试水平由高到低排队,则顺序为:被试1、被试4、被试3、被试2、被试5。应该引起重视的是,被试1与被试2的隶属度差不多,但后者略低,这说明后者C类分数反高2分的原因是考试过程中的因素造成的。被试1和被试5的C类分数一样,但从其综合评审水平来看,被试1明显高于被试5。原因是由于第 3~5题
能代表其真实水平差异。同样可认为被试3优于被试2。这说明采用C类分数计算成绩时,由于不恰当地突出了某些题的重要性,所得的分数并不能代表学生的真实水平。这就从另一角度揭示出要对C类分数接近或相等的被试作评价时,还应从各题的单位分值是否相等去考虑求和,这样求出的和才真正具有可比性。
标Uj的代表性。实际上,构造δij的方法很多,特别地,可采用专家组
δij+δji=1,δij=0.5;若δjk≤δjl,则δkl≥δlk。