第七章 学习结
果的测量与评定
2
第一节 概述
? 一, 什么是学习测量与评定
? (一 )什么是测量和测验
测量是用数学方式对人的行为的描述 。
教学过程中的测量是用数学的方式对学生学习行为的描述, 主
要是借助于测验来进行 。
测验是通过一系列的科学程序 (如编制题目、施测和评分等 )对
学生某一方面的学习行为进行测量。
? (二 )什么是评定
教学过程中的评定是根据一定的标准对学生的学习
行为进行估价的过程 。
3
? 二, 学习测量和评定的主要功能
? (一 )诊断功能
? (二 )反馈与鞭策功能
1,为教师的教学提供反馈信息
2.激发学生的的学习动机
? (三 )管理功能
1,编班分组和升留级的依据
2,职业指导的作用
3,教育科学研究的工具
? (四 )教育心理功能
4
5
? 三, 教育工作者应具备的测量与评定的知识和能力
? ① 理解与清楚地表述教学和管理目标, 懂得怎样通过教学
和管理活动达到目标, 全面了解测量与评定的涵义及评定对教
学及管理的意义 。
? ② 理解有效测量和评定条件, 明确自己在编制, 选择和使
用测量工具时所扮演的角色 。
? ③ 能自行编制日常教学使用的测验, 能适当地主持测验并
有效地使用测验的结果, 以为改进教学和管理之用;能选择适
当的标准化测验 。
? ④ 能编制, 选择与使用非测验式的测验工具 。
? ⑤ 能综合解释测验的分数和非测验式测量的结果, 作出评
定 。 明确各种测验的用途及限制 。
? ⑥ 能根据评定的结果, 改进自己的教学和管理工作 。
? 此外, 对参与评价的人来说, 还应有高尚的人格, 应当使
自己参与的评定工作合乎道德规范, 不应使学生或教师感到高
度焦虑, 损伤他们的自尊心或引起恶性竞争 。
6
? 四, 学习评定的分类
? 布鲁姆 (Bloom,B,S)的分类,
? (一 )配置性评定
一般在各学年, 各学期开始时或开始前施行, 其目的是
要了解学生是否具有达到教学目标所必需的基础知识和技
能 —— 学生的准备状态 。
? (二 )形成性评定
一般是在教和学的过程中进行的, 目的在于了解教学结
果, 探究教学中所存在的问题的缺陷, 以便对教学工作进
行调整 。
? (三 )总结性评定
一般在学期末进行,目的是了解学生通过 — 学期的学
习,是否达到教学目的的要求,以此作出较全面的总结性
评定。
7
? 五, 有效测验的必要条件
? (一 )效度
? 测验效度是指测量的真实性、正确性,即该测验与所
要测量的目标特征相符合的程度。如果一致性高,说明这
个测验的效度高,反之则低。
? 效度通常是利用该测验的结果与一个反映测量目标的
参照标准 (效标 )之间的相关来表示,所求得的相关系数即
为效度系数。相关系数越大,说明效度越高。 — 般要求这
类测验的效度值应当在 0,35至 0.60之间。
8
? (二 )信度
? 信度是反映测验分数的稳定性的可靠性的指标,是指测量的前后一致
性程度,只有信度高的测验才能够作为一个稳定可靠的测量工具加以应用
。国外一般要求学科成绩测验的信度值要在 0,90以上。 信度值是用相关
系数来表示的,又称为信度系数。
? 计算信度系数的方法主要有,
? ①再测法:我们用某一个测验对相同的学生前后施测两次,计算出这
两次测验成绩的相关就可得到再测信度;
? ②复本法:这种方法需要编制出两套以上内容、形式、数量、难度等
方面都等值的测验,然后根据同一组学生接受两次复本测验的得分计算出
相关系数,就可得到复本信度;
? ③分半法:当一种测验没有复本而且只能施测一次的情况下,通常采
用分半法来估计信度。这种方法是将一套测验分成对等的两半,根据每个
人在这两半试题中的得分所求得的相关系数即为半分信度。
? 在学科测验中,较多的是应用分半法和复本法来计算测验题的信度。
9
? (三 )难度
? 难度是指 — 套测验中试题的难易程度, 这是用来
进行题目分析和评价试题的主要指标之一 。 难度的计
算可依据试题形式的不同采用以下两种方法, 其公式
为,
10
? (四 )区分度
? 区分度是测验题目对考生水平鉴别能力的指标,是测
验题目能够鉴别受测者水平的程度。
? 区分度的计算多采用相关法, 即以考生在某个题目上
的得分与总分的相关作为该题的区分度值, 相关越高, 区
分度越好 。 国外应用在教育上的标准化测验要求优秀题目
的区分度在 0,30以上, 否则就需加以改进或淘汰 。
? (五 )可用性
? 即测验在解释学生的能力, 知识等方面有多大用处;
测验的形式与内容是否适合学生的年龄特征;测验所花的
时间和人力是否合适;以及评分是否客观, 主持测验是否
通过过特殊训练等 。 如果在这些方面使人不能接受, 测验
的可用性就低 。
11
第二节 常用的测验方法
? 一, 论文式测验
? (一 )论文式测验的涵义及其试卷的编制和评分
? 所谓论文式测验,是由教师根据教学内容的要点,择
其较重要者出几个试题,让学生用论文的方式,自由地以
书面解答问题。
12
? (二 )论文式测验的利弊
? 1,论文式测验的优点,
? ① 命题省时容易
? ② 有利于测定学生的思维能力和写作能力
? ③ 了解学生的学习程度
? ④ 减少学生情境压力
13
? 2,论文式测验的缺点,
? ① 评分的主观性
? ② 试题缺少代表性
? ③ 问题涵义太广泛
? ④ 易受其他因素干扰
14
? (二 )论文式测验的改进
? ①问题要明确。
? ②采用一些可用较短篇幅回答的问题,以求取样适当。
? ③事先拟好指导评分的规则和标准,其中包括可以接受的
答案,并规定出这些答案的比重。
? ④不要因错别字或语法有错误而扣分,除非考试是为测试
这些方面而特别进行的。
? ⑤先要阅看几份考卷,以便对考查的性质得到一个一般的
观念,并用来检查与修改评分的规则和标准。
? ⑥在评定一份考卷时不要知道答卷者的姓名,同时尽可能
在几乎相等的条件下评卷定分,或采取两三个教师合评的方式
15
? 二、客观测验
? (一)客观测验的涵义及其与论文式测验的区别
? 客观测验是用一些非常简单或机械式反应来回答的测
验。其中最为人们听熟悉的是填充、正误、多重选择和配
对等形式。论文式测验与客观测验在学生学业的评定方面
的比较,
16
17
18
? (二 )客观测验项目的形式及其编制
? 1,编制客观测验的一般原则,
? ①测验要测试学科中的重要内容。
? ②要降低测验项目的阅读难度,除非测验的目的在于
测最阅读能力。
? ③一个项目不要为另一个项目的答案提供线索,回答
某一特定项目的能力也不依靠前一项目的回答的能力。
? ④必须避免引人上当的问题,诡诈性和欺骗性问题既
可能损害测验的真正目的,又可能影响学生的学习风气。
? ⑤测验项目的措词应适当,以便使学生回答问题的内
容而不回答问题的形式。
19
? 2,客观测验项目的形式及其编制
? ①填充
? ②正误
? ③选择
? ④配对
20
? (三 )客观测验的利弊
? 1,客观测验的优点
? ①试题涉及教学内容的全部范围。
? ②试题简明扼要,易于回答。
? ③评分客观迅速。
? 2,客观测验的缺点
? ①命题费时且困难。
? ②偏于零星知识的记忆。
? ③不能确知学生的学习程度。
21
? 三, 标准测验
? 标准测验也称标准化测验或标准化考试,是目前
国际上广为流行的一种测验方法。它是一种大规模的
、具有统一标准的、按照系统的科学程序组织的、并
对误差作了严格控制的测验。
22
四, 心理测验
? (一 )智力测验
? 虽然学业成绩测验也可以测定一些学生的智力,
但对学生智力水平的高低, 通过教学后智力的发展变
化情况的测量, 更主要的还是依靠智力测验 。 目前世
界上最流行的两种智力测验是斯坦福一比奈智力测验
和韦克斯勒智力测验 。
? 1,斯坦福一比奈智力测验
? 斯坦福一比奈智力测验包括下列各种问题:字义
,语言类推问题, 适应问题, 算术问题, 记忆, 一般
常识, 发现错误, 图画, 空间问题, 理解等 。
? 智力商数 (IQ):智商 =智力年龄 /实际年龄 ╳ 100
23
? 2,韦克斯勒智力测验
? 韦克斯勒智力测验是美国心理学家韦克斯勒 (D.
Wechsler)创造的, 它是另一个在世界上被广为使用
的标准智力测验 。 它包括韦氏成人智力量表 (WAIS)、
韦氏儿童智力测验表 (WAIS)和韦氏学前儿童智力量表
(WPPSI)3种 。
? 韦氏量表是运用统计学原理, 根据对人的智力的
统计规律遵循正态分布这一事实, 计算离差智商来表
示智力高低的 。 韦克斯勒假定, 人们的智商是以平均
数为 100和标准差为 15的正态形式分布的 。 因此, 其
计算智商的公式如下,
24
? 用这种离差智商,可以确定一个人的智力在同龄人当中的相对
位置;诊断出他是智力落后或超常。一般认为智商在 70以下属
智力落后; 130以上可谓智力发展优异。
25
? 3,综合学业性向测验 [1]
? 综合学业性向测验的目的在于测量学生学习各门
学科能力的真实程度 。 这种测验不仅可以鉴别学生能
力的高低, 而且也可分析比较学生能力的偏向或在各
方面的能力的高低 。 综合学业性向测验包括分类性向
测验 (DAT),美国大学入学测验 (ACT),学业性向测验
(SAT),米勒类推测验 (MAT)以及研究生性向测验
(GRE)等 。
? [1]李小融, 魏龙渝,〈 教学评价 〉, 217页, 成都, 四川教育
出版社, 1988。
26
? (二 )人格测验
? 1,自陈人格测验
? 自陈人格测验也称自陈问卷,是指被测者对自己
的人格,按自己的意见予以评定的一种方法。最常见
的自陈人格测验有:明尼苏达多相人格测验;加利福
尼亚人格测验;莫尼问题调查表;卡姆溜人格测验;
内外向人格调查表;瑟斯顿性格测验等。
? 2,兴趣测验
? 兴趣是人对事物的特殊认识倾向 。 所谓认识倾向
,即在认识过程中带有相对稳定的指向, 趋向, 能够
维持较长的时间 。 较为著名的兴趣量表有:爱德华个
人兴趣量表;斯特朗职业兴趣量表;库得职业兴趣量
表等 。
27
? 3,态度测验
? 态度是人们对人、事或物的喜好或厌恶的倾向,与其行为
有着密切关系。
? ① 态度的倾向, 如喜欢与否, 肯定与否 。
? ② 态度的深度与强度, 如喜欢, 很喜欢, 不喜欢, 厌恶 。
? ③ 态度的中心, 指人格心理体系中重要的因素, 包括情感
,认知和行为因素 。
? ④ 态度的外显性, 态度不能直接测量, 但可以通过对人们
的言语, 行为以及其他方面的表现的测量去推断其态度 。
? 常见的与教学有关的态度测验有明尼苏达教师态度测验,
各学科态度测验和学习习惯与态度测验等 。
28
? 4,价值测验
? 价值是人们对人、事或物所作的好坏判断。这方面的测验
有价值测验、人际价值测验和工作价值测验。
? 5,行为观察
? 6,投射人格测验
? 投射人格测验是在测验时向被测者提供 — 些模棱两可的刺
激, 让他在不受限制的情况下, 自由地做出自己的反应, 使其
不知不觉地表露出入格特征 。 即在没有控制的情况下, 个人内
在因素通过对某些刺激的反应投射出来 。 作为刺激物的材料有
内容模糊的图片, 未完成的句子, 没有结尾的故事等 。
? 属于投射人格测验的有:罗夏墨迹测验、主题统觉测验、
儿童统觉测验、文字联想测验和名字完成测验等。
29
第三节 常见的几种学习评定量表
? 一, 图示量表
30
? 二, 形容词量表
? 这种量表在提出的问题之后, 用一组序列化的形容词或修饰短语
的方式提供各种不同程度的答案, 回答者在每个形容词及短语上画圈
或做上记号, 以表示自己的评定 。 例如,
? 极好;很好;, 好;尚好;不好 。
? 完全同意;同意 (或赞成 );无所谓;不同意 (或反对 );完全不
同意 (或极反对 );无法回答 。
? 绝对正确;正确;较正确;不正确;极不正确;无法回答 。
? 很好;好;可以;不对;糟糕;无法回答 。
? 经常;偶尔;完全不 。
? 极重要;重要;较重要;不重要;不知道 。
? 非常赞成;相当赞成;稍许赞成;难说;稍许反对;相当反对;
非常反对 。
31
? 三, 数值量表
? 数值量表是为了克服形容词量表不能数量化的缺点而出现的一种
量表形式, 这种量表只是简单地把数字加在形容词量表上, 对每 — 个
等级的答案都标上分数 。 例如,
? 极好 (5);很好 (4);好 (3);尚好 (2);不好 (1)。
? 完全同意 (5);同意或赞成 (4);无所谓 (3);不同意或反对 (2);完全不同意或极反对 (1)。
? 绝对正确 (5);正确 (4);较正确 (3);不正确 (2);极不正确 (1)

? 很好 (5);好 (4);可以 (3);不对 (2);糟糕 (1)。
? 经常 (3);偶尔 (2);完全不 (1)。
? 极重要 (5);重要 (4);较重要 (3);不重要 (2);不知道 (1)。
32
? 四, 行为量表
? 设计行为量表可按下面的程序进行,
? 首先要求评定者熟悉被评定的教学现象, 而且要求他们描
述其中的有效行为或无效行为 。
? 接着, 研究者把这些描述分成相对来说内容较少的种类并
给它们命名 。 作为对分类的检查, 也可组织有丰富教学经验的
教师或教学专家及教学评价专家再次把上述描述分配到已命名
的种类中 。
? 然后, 评定者把可以有效地分类和评定的那些描述归人一
个为各类描述而设置的量表, 使用这些对教学行为的描述作为
量表的标度 。
33
? 例如,
? 通过教师与学生的接触来评定教师对教学的态度,
? —— 在教师家里召开研讨会 。
? 一 — 愿意在正常的上班时间之外和学生一起活动 。
? 一一在办公室和学校的其他地方会见学生 。
? —— 乐意占用办公时间与学生交谈 。
? —— 勉强安排最少可能的办公时间与学生接触 。
? —— 拒绝在课堂之外会见学生 。
? 行为量表通常分为 3— 7个单位或等级,每个等级代表某一教学行
为的一个增量。评定者根据任课教师在教学的某一方面的行为的程度
不同而在量表的相应等级上做上记号。
34
? 课堂教学评定量表 ( 一个例子 )
35
36
? 五, 常见的几种量表形式的变体
? (一 )加涅 1974年设计的, 现实一满意等级量表,
? 加涅等人 1974年设计了一种双重目的的, 现实一满意等
级量表,, 以使评定者回答有关每一教学评定项目的两个问题
。 例如,
? 1,你如何评定任课教师的语言清晰度?
? (1) (2) (3) (4) (5)
? 从不 几乎不 偶尔 时常 经常
? (问题 ) (问题 ) (问题 ) (问题 ) (问题 )
37
? 2,在这个项目中你认为哪个评定是您满意的?
? (1) (2) (3) (4) (5)
? 从不 几乎不 偶尔 时常 经常
? (问题 ) (问题 ) (问题 ) (问题 ) (问题 )
? 第二问旨在使评定达到某个标准或水平, 并对照该标准或
水平解释评定者对第一问的回答 。
38
(二 )多伊尔在 1975年提出了一种双重的, 评价一重要性量表,
? 1,你怎样评定任课教师对别人观点的接受?
(1) (2) (3) (4) (5)
不好 尚好 好 很好 很好
? 2,该教师的品质对你有怎样的重要性?
(1) (2) (3)
不太重要 还算重要 非常重要
? 第二问旨在提供一种方法以区分问卷上各种提问的重要
性 。 这种被项目重要性所强调的具体特征评定比起不被强调的
评定来说, 是全面评价更好的预言者, 而且也可以提供 — 个对
正在进行的教学评定项目的有效性的方便估计 。
39
? (三 )第三种变体与效果评定有关
? 学生可以通过在一门课程开始时完成的一个评定和在该课
程结束时的一个类似评定;也可以通过只是在该课程结束时作
出的一个双重前一后评定;还可以通过一个下列类型的单一评
定, 就能够评定他们的学习收获,
? 与本课程第一天的收获相比, 你现在怎样评定你对该课程
教学内容的掌握了
很多 多 少 少 多 很多
现在更差 现在更差 现在更差 现在更好 现在更好 现
在更好
40
? 六, 强迫选择量表
? 流行的强迫选择评定形式由四个要素构成, 所有要素对评
定者具有同等的吸引力, 但是仅有两个要素实际上与某些测量
标准有关并被评分 。 剩下的两个要素因为在区分有效表现与无
效表现时没有实验依据, 而不被人们重视,
? 一一友好的
? —— 激励人的
? —— 博学的
? —— 善于表达的
? 强迫选择量表的评分是根据评定者的识别要素的总数来决
定的 。 这种量表蕴含着这样一种思想, 即因为所有的选择要素
对评定者来说都是同等地合乎需要的, 都是未知的, 都是有效
的和可评分的, 所以评定者将不能伪造有利的或不利的平定 。
因此, 这种量表比前面所介绍的那些常见的评定量表更能消除
评定者误差;而且强迫选择评定与对学生的学习测量之间有明
显的相关 。
41
? 七, 综合评定量表
? 为了利用论文的传送可靠性和评定的定量特征,
一种常用的综合方式是在同一量表或问卷中把各种评
定式提问和论文式提问结合在一起。这种方法可以由
末尾有 1— 2个论文式提问的许多评定项目构成;也可
以是在开端末尾有 1— 2个概括评定的基本上是论文式
的问卷;还可以是在整个量表或问卷中把论文式提问
和评定式提问混合在一起:以使每个评定项目都有一
个为进行评论、详尽阐述、提出建议而留出的空白。
42
第四节 影响学习测量和评定的心
理因素
? 一, 学生心理因素的影响
? 考生由于心理紧张, 情绪不安, 对那些平时能解答的
考题也会束手无策, 以致影响考试的结果和成绩的评定 。
? 所谓怯场是指上述这种状态。
43
? 如何防止怯场?
? 第 —, 做好学习评定过程中的思想教育工作 。
? 第二, 做好经常性的学习评定工作 。
? 第三, 锻炼学生自我控制的能力,
44
? 二, 教师心理因素的影响
? (一 )宽大误差
? 即由于教师的心理作用, 而导致对学生学习夸大的评定 。
它使测验的辨别力降低, 不利于发挥评定的正常功能 。
? (二 )光环效应
? 即教师对学生学习的评定不适当地受到对这个学生总的印
象的影响 。 如一些教师对一贯表现突出的学生干部给分较高,
就可能是受到光环效应的影响 。
? (三 )集中趋势
? 即教师自觉地避免对学生学习进行极端的评定, 从而使评
分接近中点的倾向 。 这种倾向也降低了评定的分辨作用, 不能
真正反映学生之间存在的差异 。
45
? (四 )逻辑误差
? 即教师对学生学习评定由于受学生某些特征之间的相似而
给予同样评分倾向。
? (五 )对比误差
? 即教师有对自己的倾向相反的学生学习给予较低评价的一
种误差。
? (六 )邻近误差
? 即相对邻近的几张试卷给予较一致评分的倾向。