第一章 课程概述 目录框图   一、基本概念 概念描述 教育评价 "教育评价"(education evaluation)的概念最初由泰勒(R.W.Tyler)于1930年提出并于1965年美国国会通过的《初等及中等教育法案》中得到合法化。“所谓教育评价,是指通过系统地采集和分析信息,对教育活动满足预期需要的程度作出判断,以达到教育价值增值的过程。”——《现代教育评价》(华东师范大学出版社,沈玉顺 主编,全国中小学校长提高培训教材,2002,P1-P2) 教育测量 1951年史蒂文斯(Stevens,S.S)给测量下了一个定义“从广义而言,测量是根据法则给事物分派数字。”从中概括出测量包括三个要素:“第一,事物的属性;第二,数字;第三,规则”。“从广义来说,教育测量就是对教育领域内的事物或现象,根据一定的 客观标准,作缜密地考核,并依据一定的规则将考核的结果予以数量的描述。”——《教育测量》(王孝玲,华东师范大学出版社,1989,P1-P2,P6) 教育统计 "统计学是研究统计原理和方法的科学。具体地说,它是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行推断的原理和方法。...。统计学分为两大类。一是数理统计学。它主要以概率论为基础,对统计数据数量关于的模式加以解释,通统计原理和方法给予数学的证明。它是数学的分支。另一类是应用统计学,它是数理统计原理和方法在各个领域中的应用。...。教育统计学是运用数理统计的原理和方法研究教育问题的一门应用科学。...。从具体的应用角度来分,可以分成描述统计、推断统计和试验统计。"——《教育统计学》(王孝玲,华东师范大学出版社,2001,P1-P3) 概念联系 “教育对于人既有发展功能,也有选拔功能。教育的这两种功能,都离不开教育评价。而进行教育的测量,则正是为教育评价提供一定的依据。为了使教育测量和评价达到科学化,引入统计学的原理,因此教育评价论、教育测量学和教育统计学一起构成了现代教育评价理论的基础。”——《现代教育论研究基础》(胡学增等,陕西人民教育出版社,1991,P288)。 "教育评价中获得的大量评价信息要依靠教育统计提供的方法进行处理。...。教育评价是对教育现象状态和价值的判断,这一判断是以评价对象的客观描述为前提的,没有评价对象的客观描述,就不会有对评价对象价值的客观判断。因此,教育测量是教育评价的基础。"——《教育评价的理论与实践》(东北师范大学出版社,2002,P6-P9)  二、发展历史 教育测量和评价的产生与对学生学力和学业成就的检测活动的发展有着紧密的联系,其历史源远流长。早在我国的西周时期,就初步建立了学校教育制度,开始了教育测评。到公元606年,我国隋朝开始实行了科举制。国外学者也认为,中国古代的科举考试是教育测评的最初萌芽。但是由于种种原因,本世纪以来,我国的教育测量和评价的研究一直未能发展起来;而在西方,其中主要是在美国,自19世纪后半叶以来,教育测量和评价得到了迅速的发展。 19世纪上半叶以前,学校考试一般都缺乏标准和应有的客观性,其基本方法是对学生逐个口试。随着学生人数的增多,这种考试很难继续实施了。1845年,美国波士顿文法学校首先引入了书面考试。但这时学生成绩评定的客观标准问题仍然未能得到解决。 1864年,英国教师费舍尔(George Fisher)收集了许多学生的成绩样本,编制了第一本《量表集》,作为度量学生成绩的标准; 1897年,美国的莱斯(J.M.Rice)博士发表了他对20个学校的16000名学生所作的拼字测验的结果;1905年,第一个智力测验量表——法国的《比纳-西蒙量表》发表。1916年,美国斯坦福大学心理学教授特曼(L.M.Terman)发表了对比纳量表进行修订后的更完善的智力测验量表——《斯坦福量表》,首次引入了智商的概念,使智力测量有了比较科学的计算方法,标志着心理测验已达到了比较成熟的阶段。 1904年,美国心理学家桑代克(R.L.Thorndike)发表了《心理和社会测量学导论》,介绍了心理统计方法和编制测验的基本原理; 1909年,桑代克又编写了用于书法、拼字、作文、图画测验的标准测量工具,使教育测量开始走上了科学化的道路。因此,桑代克被称为教育测量学的鼻祖。1918年以后,教育测量的使用范围逐渐从小学发展到中等以上学校,许多大学也开始设立了教育测量学课程。至本世纪20年代末,教育测量已发展到全盛期,教育测量在学力检测与教育成就的定量化、客观化、标准化方面取得了很大的成绩。 随着教育测量运动的发展,其弱点也逐步暴露出来。由于当时的测验都是围绕着教科书编制的,测验内容只要求学生记忆教材的知识内容,未能包括对学生的社会态度、兴趣、情感的检查,不能反映学生的全面发展和实际需要,因而它很快引起了人们的不满和批判。 1929年,美国经历了一场严重的经济危机,教育的社会效果问题越来越多地受到人们的关注,这就直接推动了以教育的社会价值为依据的教育评价活动的发展。从1934年始到1942年止,美国俄亥俄州立大学教授泰勒(R.W.Tyler)受卡内基基金会的资助,进行了历时8年的课程与评价研究,这就是教育评价发展史上著名的“八年研究”。在对以往的课程和测验设计进行了尖锐批评的基础上,泰勒提出了一套以教育目标为核心的课程和测验编制原则,试图以此把社会的要求、学生的需要反映在课程与测验中。为了把这一思想与早期的测量区别开来,泰勒和他的同事正式提出了教育评价的概念:“在本质上,评价过程乃是一种测量课程和教学方案在多大程度上达到了教育目标的过程”;即认为教育评价就是衡量教育活动达到教育目标程度的一种活动,测量是它的手段。根据泰勒的理论进行的评价活动能够获得关于目标完成情况的信息,有助于发现存在的问题,改进教育工作。所以,这一理论受到了较为广泛的欢迎。 泰勒等人的教育测量和评价观点以及相应的“目标评价模式”是教育测评历史上第一个比较完整的、影响较大的理论。自30年代以来的几十年中,这一理论一直占据着主导地位。为了发展泰勒评价模式的实施技术,美国教育心理学家布卢姆(B.S. Bloom)等人提出了教育目标分类学理论,对完善教育评价理论起了重要作用。但随着测评实践和理论研究的发展,这一理论也逐渐暴露出一些根本性的缺陷。泰勒理论的核心是目标,但由于教育目标概念与教育结果的概念紧密相关,这就容易使人们将更多的注意力集中到对教育结果的评价上。因此,泰勒评价更多地被看作是一种对结果的总结性评价;然而,形成性评价可能有着更重要的作用。此外,人们还认识到,目标本身的合理性也需要评价,对那些预期目标以外的教育效果也不能排除在评价之外。 在对泰勒评价观进行分析和批判的基础上,又有人提出了新的教育评价观。克龙巴赫(L. J.Cronbach)修改了泰勒的评价定义,将评价定义为:“为作出关于教育方案的决策,收集和使用信息。”他强调:“评价能完成的最大贡献是确定教程需要改进的方面。”斯塔佛比姆(D .L.Stufflebeam)给评价的定义是:“为决策提供有用信息的过程。”并强调:“评价最重要的意图不是为了证明(prove),而是为了改进(improve)。”在这一观点的基础上,他提出了著名的CIPP(Context-Input-Process-Product)模式,即把对背景、输入、过程、结果四个方面的评价结合起来的一种评价模式。受斯塔佛比姆等人的影响,美国教育评价标准委员会给评价的定义是:“评价是对某些现象的价值和优缺点的系统调查。”  三、评价模式 泰勒的行为目标模式 该模式以全面发展人的才能为其主要目标,主张教学评价反映学生的学习实质,以便了解学生正在学什么,还没有学到什么,对知识的遗忘程度等,从而改进教学过程。 该模式是以目标为中心的评价模式。它把目标、教育过程作为一个循环图。预定的目标决定了教育过程,同时也决定了评价就是找出实际活动中偏离的程度,从而通过信息反馈,促进实际工作尽可能达到目标。 原则:1)确定教育目标;2)选定教育目标并用有关术语表示;3)找出这些行为表现的条件和背景;4)确定满足客观性、可靠性和有效性诸方面的测量方法;5)运用这些方法检查行为变化;6)根据结果对活动、方案作出判断,并说明原因;7)修改方案,重复循环过程。 泰勒的行为目标模式对于确定的教学目标具有良好的评价功能,但是,在教学实际中,有时会有一些目标不可以用行为目标的方式表达出来,因此有一定的局限性。 附:泰勒的行为目标模式更注重对目标的的实现及通过实现的效果来对教学方案进行修改。 CIPP模式 CIPP即Context(背景)评价,Input(投入)评价,Process(过程)评价,Product(结果)评价。具体说来,组成CIPP模式的四种决策类型及其相应的评价是: 1)预期结果的决策。为这类决策提供信息的是背景评价。背景评价根据社会需要对教育教学目标本身作出价值判断,可以发现教育教学计划的目标同实际影响之间的差异。 2)预期方法的决策。为这类决策提供信息的是投入评价。它对教育教学方案、计划可行性作出评价。 3)实际方法的决策。为这类决策提供信息的是过程评价。它提供实施过程中的反馈信息,以便发现问题。 4)实际结果的评价。为这类决策提供信息的是结果评价。主要对目标达到程度进行评价。CIPP评价将教学的过程划分为四个阶段,分别对每个阶段进行评价。比较行为目标模式与CIPP模式,可以发现:(1)评价的目的不同。行为目标模式注重教育目标达到的程度,基本属于事后评价,亦即对结果的总结性评价。CIPP模式注重评价的改进功能,强调为决策过程提供全面的信息,为后来的形成性评价拉开序幕。(2)评价的时空不同:行为目标模式将评价重心放在行为的结果上,评价领域只涉及事后。CIPP模式拓宽了评价的时空,评价范围涵盖了活动的整个过程,涉及到事前、事中、事后各个环节。(3)对待目标的态度不同。行为目标模式以目标为中心,目标一旦确立就不容怀疑,反映了泰勒价值观上的收敛性。CIPP模式则认为目标本身的合理性是需要受到评价的,必要时可以根据对象的需要对目标进行修正和改进。这一观点突破了泰勒的框架,把评价从范围与内容上给予了拓宽,深化了对评价的认识。(4)评价的对象不同。行为目标模式主要适用于评价课程设置的合理性和教学活动的有效性。CIPP模式用于评价计划制定的合理性和各种教学活动。(5)评价的作用不同。行为目标模式用来判断教育效果,控制教育活动达到教育目标。CIPP模式除了控制作用之外,还必须为决策提供全方面的信息,达到改进决策的目的。 目的游离评价 这种模式诞生于20世纪60年代,由美国教育家和心理学家斯克里文提出来的。严格地说,目的游离模式不是一种完善的评价模式,它没有完整的评价程序。因此,有人把它仅当作一种关于评价的思想原则。斯克里文断定:对目的的考虑和评价是一个不必要的,而且是有害的步骤。按他的观点来看,目标评价很容易使评价人受方案制定者所确定的目的的限制。因此,他建议把评价的重点由方案想干什么转移到方案实际干了什么上来。他认为,评价委托人不应把方案的目的、目标告诉评价人,而应当让评价人全面地收集关于方案实际结果的各种信息,不管这些结果是预期的还是非预期的,也不管这些结果是积极的还是消极的,这样才能使人们对方案做出正确的判断。 应答式评价 斯塔克的评价观斯塔克(Stake,R.E)在肯定了评价是一种价值判断的基础上,提出了应答评价模式。他提出:"如果教育评价更直接地指向方案的活动而非方案的内容,如果它能满足评价听取人对信息的需求,或者在反映方案得失长短的评价报告中更能反映人们不同的价值观念,那么,这种评价即可称为'应答评价'"。他认为,要使评价结果能真正产生效用,评价人必须关心这一活动所有参与者的需要,通过信息反馈,使活动结果能满足各种人的需要。斯塔克强调"多元现实性",他认为以前的预定式评价对正在进行的方案缺乏敏感,难以察觉学生在与教师和其他同学接触中获得的收益,或反映对方案抱有的不同观点。他赞成斯克里文的观点:与其评价相当难以捉摸的收益,还不如评价经验的内在价值。 对手模式 是为了揭示方案正反两方面长短得失,而采取准法律过程评委会议审议形式的一种评估模式。它十分重视听取关于教育方案和教育活动的争议意见,尤其是反对的意见。这一评估的基本特点是它充分反映了各类人员“多元的”价值认识。这个模式为我们建构评价主体多元性的模式提供了较高的参考价值。  四、评价类型 按照涉及范围分 宏观评价(教育目标、结构、制度) 中观评价(办学水平、条件,教师,如对高校的排名) 微观评价(美、德、智、体、劳,如期末考试、考核) 按照评价的基准分 相对评价(基准在集合中,如在一个班级的学生中) 绝对评价(基准在集合外,如,在学习之前就确定了评价了标准,即使标准可能会改变,也不会是因为大家的学习结果的不同而改变,而可能是时代对大家的要求变了)在教育评价中应处于核心位置 个体内差异评价(过去和未来对比,评价一个人的发展状况) 按照评价的功能分 诊断性评价(活动前,进行预测性、测定性评价,如用以获得学习者的初始知识掌握情况) 形成性评价(在活动过程中,评价活动本身的效果。用以调节活动过程,保证目标实现) 总结性评价(对最终成果作出价值判断。判定目前成果的“作者”的知识、技能、情感掌握情况) 外在评价(对一项教育活动的规则和实施过程、结果的整体评价,总结经验) 按照参与评价主体分 自我评价(个人、团体、组织) 外部评价(较严格、慎重、客观、可信,但是很耗费人力、物力) 按照评价方法分 定量评价(搜集资料运用数学模型、方法进行评价) 定性评价(进行定性描述) 按照评价对象复杂度分 单项评价(针对系统中的某个、某些元素) 综合评价(针对系统中的所有基本元素)  五、实施方案 建立知识能力结构合理的评价组织 确定评价目标和评价的任务 选择和确定评价的项目与指标 选择和设计收集评价信息的方法和工具 搜集评价所依据的证据或信息 整理和分析信息资料 形成评价报告   六、评价领域   七、意义作用 为了更全面和深入地理解教育测量和评价的意义,有必要再从系统分析的角度,看教育测量和评价在教育系统中的地位和作用。 由于教育活动是“社会、心理和控制三方面的统一”,这三方面的因素可以构成教育系统的三个最基本的子系统,即目标系统、行为系统和控制系统。 教育目标是教师(教育者)和学生(被教育者)通过教育活动应当协同达到的教育质量标准,是指导教师和学生进行教学活动的基本依据。教育过程各个阶段教育目标的有机组合,就构成了教育目标系统,是教育目的的具体化。目标系统体现了教育系统中社会方面的成分,从方向、任务和内容三方面,决定了教师的教和学生的学。 行为系统是指教师和学生通过心智和信息的相互作用而实现教育目标的过程以及影响这一过程的各种心理因素、教育手段等所构成的整体。它包容了教育系统中心理方面的成分。教师和学生为实现教育目标而进行的相互作用就是通过这一系统而实现的。 控制系统是指由控制教育过程朝着实现教育目标方向发展所必需的各种教育手段和方法的最佳组合。该系统包容了教育系统中控制方面的成分。由于一切控制过程都是按照一定的目标对系统在状态空间中的各种可能的状态进行选择,使系统达到或趋近于被选择状态的过程;在选择之前,首先要确定在不同时间的教育系统的空间状态,而这一过程,实际上就是教育测量和评价过程。所以,教育测量和评价可以看作是该系统中的主要因素。 上述三个子系统的有机结合,即构成了一个完整的教育系统。教育活动过程则可以看作是由这三个方面的因素相互作用而构成的既有区别而又相互联系的三个阶段,即目标的定向阶段、目标的控制实现阶段和目标教学结果的测量和评价阶段。在不同的活动阶段中,教师和学生既有各自不同的活动方式,又相互配合、协调统一。教育活动进程具体体现为教师的教授进程与学生的学习进程,两者密切联系;而教育活动进程的三个主要阶段又分别与教育系统的三个子系统相对应。 总之,教育目标为教师和学生提供了一致的活动方向;教育测量和评价为防止偏离这一方向提供了有效的反馈控制手段;两者共同作用于教育过程,保证了教师的主导作用和学生主体地位的和谐统一,最后达到教育目标,实现教育系统的整体功能。 (1)教育测量和评价是教育系统中不可缺少的组成部分。换言之,教育测评并非教育系统可有可无的,也不是教育系统外部强加的。只要有教育过程存在,就必然伴随着教育测评,否则,教育过程就不完整。认识到这一点,就可以增强我们开展教育测评活动的自觉性。对教育测评不需要讨论要或不要的问题,而是应当研究如何进行教育测评、使之符合教育系统功能的要求的问题。 (2)教育测量和评价的主要目的不仅是鉴定,而且还有改进,从某种程度上说,改进比鉴定更为重要。因为教育的根本目的并不是对被教育者做出鉴定,而是要帮助他们全面发展。教育测评作为控制教育过程的主要手段,必须为改进教育过程提供必要的反馈信息,这是教育测评直接的、主要的功能;对学生学习成绩优劣、好坏的区别,与教师和学生的动机有紧密的联系,因而很重要,也是调控教育过程所需要的信息,但其毕竟不能直接而是间接作用于教育过程。认识到这一点,有助于我们积极、主动地利用和开发教育测评的全部功能,提高教育的质量和效率。  八、网络资源 http://www.guangztr.edu.cn/gztr/jyll/lwjs/jypjms.htm 教育评价的概念、分类、步骤和基本模式 http://www.sinogolden.com.cn/lw/old/jylw008.htm 教育评价及相关概念之辨析 http://www.pep.com.cn/200309/ca289771.htm 第七章 教育评价 第一节 教育评价概述 http://www.edu.cn/20031121/3094726.shtml 中国教育评价发展历史述评