第12章 设计和实施总结性评价  目标 说明总结性评价的目的 阐述总结性评价的两个阶段及每个阶段要做的决定 为比较不同的教学材料设计总结性评价方案 从目的和设计两方面比较形成性评价和总结性评价 背景 前面已经学到:形成性评价是为了改进教学而收集数据和信息的过程。与其形成鲜明对照的是总结性评价,它是为了决定是否采用或继续采用某个教学而收集数据和信息的过程。 形成性评价和总结性评价的差异在几十年前就已然区分,当时每出现一个新的学校课程,或者每出现一个新的教学传递系统,发明人总会说它要比其竞争者好,于是就需要尽快通过研究来证实谁是“赢家”。经常的情况是新的教学并不如传统教学,对于有经验的评价人员来说,这也没有什么可奇怪的,因为新事物还很粗糙,而传统教学已经经过了多年的使用和修正。 所以,有人提出这类比较应该在新方法经过形成性评价,修改了所有重要错误之后,已经可以日常使用的时候才进行。在那个时候,就可以将新方法与其他形式的教学进行比较,精确纪录新方法在学习者表现、学习态度、教师反应、费用、持久性,以及与课程或组织中其他教学兼容性方面的情况。做总结性评价并不一定要对两种或两种以上的教学产品进行比较,总结性研究可以只研究一种新方法的效果。 对于教学设计师来说,形成性评价是有效运用系统化设计过程的基础,其重要性怎么说也不过分,每一位教学设计师都必须能够熟练地运用形成性评价,但是并不要求他们掌握总结性评价,这是总结性评价的“本质”造成的。当需要对一个新的传递系统或者一个新的课程进行公正评价的时候,大多数的决策者都不希望由新系统或新方法的开发者或发明者来做评价,而是聘请外面的、第三方评价人员来进行总结性评价。 最近几年,总结性评价的调子有所变化,问题不再是“谁最好?”,而变成“该教学活动是否解决了引发对此教学产生需求的问题?”,换句话来说,教学被视为解决问题的一种方案,总结性评价的最终问题是“它是否解决了这个问题?” 但是,这不正是我们在实际环境下做形成性评价时所问的问题吗?是的,当时我们是问的这个问题,但是在此目的不同。在形成性评价阶段,我们想用这个信息来改进教学,使教学能促进技能在实际环境下的使用,提高技能运用的有效性。而现在,在总结性评价中,我们要问的是,在形成性评价(无论开发者采用了什么设计策略)完成后,教学是否已经能有效地解决了我们的问题。 因此,评价兴趣已经从比较新方法,分析考试成绩,而转向观察学习者在实际环境中的表现:是否运用了所学技能,运用效果如何?为了回答这些问题,总结性评价要分两个阶段进行:第一个阶段聚焦所感兴趣的教学和组织需求之间的关系,通过利用有关文档完成这步分析。第二阶段做教学的实地试验,类似于形成性评价的第三个阶段,只是目的不同,即要为决策者证实该教学能否产生所期望的结果。 在本章后面的几节中,我们会多次提到“教学”和“教学材料”,我们是将它们作为同义词混用的,因为我们要讨论的总结性评价是针对各种类型教学的总结性评价,不管该教学是采用视频形式、教师手册形式、自学教材形式,还是计算机辅助教学形式。所以,当读到后面,见到“教学”或“教学材料”两个词的时候,你不妨将其视为任一形式的教学。 概念 总结性评价定义为:设计评价研究方案,收集数据,以验证教学材料对目标学习者的有效性。其主要目的是要决定是否继续采用当前所用的教学材料,或者是否要采用有可能满足组织所定义的教学需求的材料。所评价的材料也许并没有经过形成性评价和修改,这些材料可能出自出版社、顾问公司或某个个人。材料长短不一,有的是为一天的研讨会或某种类型的短课程而作,也有的是一学期、甚至一年的课程。材料的长短并不会改变研究的基本设计,但是它会影响完成评价所需要的时间。 总结性评价有两个主要阶段:专家评价阶段和实地试验阶段,专家评价阶段的目的就是要判断当前所用的教学或其他候选教学方案是否能够满足组织所定义的教学需求。实地试验阶段的目的是要记录有望采用的教学在预期的环境下对目标人群的有效性。每个阶段所要进行的分析和决策,以及评价活动都列在表12.1中。 在专家评价阶段所要进行的活动是为了判断候选教学是否有竞争力,这包括(1)评价组织的教学需求与该教学的相合性;(2)评价该教学的完整性和正确性;(3)评价该教学中蕴含的教学策略;(4)评价教学的效力,以及(5)评判当前用户对此教学的满意度。如果该教学已经为满足组织的需求而做了裁剪,并经过了系统化的设计和开发,以及总结性评价前的形成性评价,那么专家评价可以不做,但是如果该组织不熟悉此教学和它的开发历史,就必须要做专家评价。 图12.1 总结性评价的专家评价和实地实施阶段 总结性评价   专家评价阶段  实地试验阶段   总体决策   该材料是否有可能满足组织需要?  这些材料在指定的环境下对于目标学习者是否有效?   特定决策   适合度分析:组织的需求和目标是否与教学中陈述的吻合? 内容分析:这些材料是否完全、精确、不过时? 设计分析:材料中是否表现出某种教学原理和动机激励? 可用性分析:该材料对当前用户来说是否方便、耐用,有较好的性价比和满意度?  结果分析: 对学习者的影响:教学之后对学习者的成就和动机水平是否满意? 对工作的影响:学习者是否能够将信息、技能和态度从教学环境迁移到工作环境或者迁移到与教学相关的后续单元中? 对组织的影响:学习者行为(表现、态度)的改变是否对组织使命和目标的实现产生了正面影响,如降低了辍学率、辞职率,提高了出勤率、成果;增加了生产率和成绩) 管理分析: 教员和管理者是否感到满意? 所建议的实施过程是否可行? 与时间、人员、设备和资源相关的费用是否合理?  实地试验阶段由两部分组成,第一部分是结果分析,要评价教学对学习者技能、对学习者工作(迁移)以及对组织(需求满足程度)的影响。第二部分是管理分析,包括评定教员及管理人员对学习者表现的看法,实施可行性和费用等。 总结性评价的实地试验阶段要纪录学习者的表现和态度,记录教员/管理者的态度,记录实施教学过程和所需要的资源,实地试验的主要目的就是要确定教学的优点和缺点,判断成因,记录下好的地方和存在的问题。 专家评价和实地试验都可以只对一种教学材料做,也可以对若干个需要比较的教学材料做。一般来说,专家评价阶段往往是从多个候选教学中挑选出一两个最有竞争力的去做实地试验。下面详细介绍了这两个阶段。在专家评价阶段的叙述中,我们假设你要评价的教学是你所不熟悉的,而你又必须决定是否要增加实地试验的人手和费用。 总结性评价的专家评价阶段 适合度分析 组织的需求 不管总结性评价是否要做教学材料的比较,还是只对一种教学材料进行评价,评价人员都要了解所评价的教学材料是为什么目标针对什么对象而设计的,要判断该教学的目标和对象是否与组织的需求、目标学习者的特征相吻合。为了进行适合度分析,首先你必须获得该组织需求的清楚说明,其中包括对目标学习者入门技能和特征的精确描述。在获得这个信息之后,你要在教学材料中具体标注出满足组织需求的地方。对于每一种候选材料,你都要获得该教学的目标和目的的清楚陈述,以及它所针对的目标对象。这些信息有时候可以在材料的前言中或序中找到,也可能出现在教师手册中。如果这些描述太一般化了,那么你可能还需要与材料的出版商联系,索求更详细的信息。 资源 你还要分析该组织为了购买及实施教学材料可用的资源,以及获取和安装其他材料的费用。太贵的材料,即使很有效,通常也不在组织的考虑之列。组织中可用的设施和设备与实施教学所需要的设施和设备之间往往也存在着一定的差距。 一旦获得了这些相关资料,你就要开始比较1)组织的需求与材料的目标,2)组织的目标人群与材料的目标人群,3)组织可用的资源与获得和实施该教学的设备需求。从适合度分析中得出的信息应该与有关的决策人分享,尽管你会被要求提供建议,但是那些做出最终决定的人,那些决定要对哪个材料做总结性评价,或者是否继续评价过程的人因组织而异。 对于那些被选择做总结性评价的材料都要问如下几个与高质量材料设计有关的问题,这些问题应该在进行实地试验之前就得到回答: 该材料及所附带的考试题是否齐全且准确? 所采用的教学策略是否适合学习结果的类型? 该材料能够被有效地使用吗? 当前用户对此材料满意吗? 如果你判断出候选材料在这些重要方面存在明显的不足,那么继续总结性评价不会有什么结果。在总结性评价的这个阶段结束后,你应该告诉主管你的判断,再问他们是否还要继续总结性评价。 总结性评价的这个阶段所采用的工作方式与形成性评价中一对一评价时所采用的策略类似,但也有些不同。下面我们依次考虑在此阶段要做的各种分析。 内容分析 因为你可能不是要评价的材料方面的内容专家,因此可能需要请一个内容专家作为顾问。你必须考虑的问题是如何最好地发挥这个专家的作用。一种策略是向专家提供所有候选材料的副本,请他们评判材料对于组织所陈述目标的精确性和完整性。另外一种更好的、性价比更高的策略是与专家一起做所陈述目标的教学分析。专家所产生的文档既要包括目标分析也要包括从属技能分析。那个确定并序列化教学目标中主要步骤和从属技能的框架可用来判断任何候选材料的精确性和完整性。 如何使用这个框架呢?框架中所包含的技能可以转换为一张核查表或一张等级量表,评价人员可以据此来审核评定候选材料以及相关考试题的质量。 设计分析 类似于一对一形成性评价,你需要评价候选材料中的教学策略成分是否合适。作为一个外部评价人员,你可能不知道某个策略成分是否出现了,如果出现了是否能引起并维持学习者的注意力。同样在这个时候可以用核查表来审核和比较候选材料,这是最彻底最省时间的方法。 在开发核查表时,你要在最左列列出各教学策略成分,用剩下的列纪录候选材料中是否出现该教学策略。你也可以设计成等级量表形式,基于材料中所说的学习结果的类型设定权值。评价人员所填写的表格会因为教学的性质不同而有很大差别。 可用性和可行性分析 关于教学材料的第三个问题与候选材料的可用性有关。对于每种材料,你都要考虑这些因素,诸如是否有学习者指南,是否有课程大纲,是否有教师手册等。另外还要考虑材料的耐用性,以及是否还有对其他特殊资源的要求,如对教师能力、设备或环境(如学习中心)的要求等。可用性方面的考虑还包括材料是否需要考虑小组或个人进度,获得和实施该材料的相对费用是否可修改等等。事实上,任何有可能扩大或限制该材料在组织中采用的因素都应该考虑。 为了设计这部分的总结性评价,你需要与组织中要求进行总结性评价的关键人物会谈。通过与他们的讨论,确定你确实了解了他们的需求、资源和限制。他们还可能有助于确定你尚未考虑到的一些可用性方面的问题。 你可以根据所选择的可用性问题,设计一个总结表,以便在评价所有候选材料时将注意力集中到这些问题上。与前面的例子一样,最重要的问题列在核查表的最左列,随后是每种材料的回答各占一列。这种核查表和前面介绍的核查表不同,你需要给出每种材料相关的描述性信息,而不是简单判断某个指标是否出现。这种用表格的形式简要总结描述性信息的方式,可以方便材料的比较,有助于形成建议。 当前用户分析 还有另外一类分析你可能希望包含在你的评价设计中,就是向正在使用候选材料的组织寻求额外的信息。当前用户名单可以从材料的出版商处获得。 你需要从用户那里获得哪些信息呢?一种类型的信息是有关目标学习者在其他环境下的数据。例如,他们的入门技能是什么,学习这个材料的动机是什么?使用该教学前后他们的前测和后测表现如何?最后,他们对该材料的态度如何? 另一类信息是教师对该材料的感觉,例如,这些材料是否好用?他们在使用这些材料时碰到了哪些问题?使用这些材料时需要用到哪些资源?他们是否打算继续使用该材料,如果不打算使用了,为什么? 根据你的经费和条件,你也许能够亲自去用户单位了解情况,也许你决定通过问卷和电话访谈来收集信息,不管采用哪种方式,你都要在获取信息之前做好计划。 至此,你已经到了专家评价阶段的总结时期。基于你所收集的数据,你应当能够决定是否需要进行总结性评价的实地试验,哪些材料值得进行实地试验。用于产生这部分评价的评价设计和评价过程都应该与你的建议和分析一起记录在你的评价报告中。图12.2图示了专家评价阶段所要做的各项任务的工作顺序,以及总结性评价人员决定所给的教学是否需要实地试验的决策过程。 图12.2 在总结性评价的专家评价阶段分析活动顺序  总结性评价的实地试验阶段 结果分析 总结性评价的第二个阶段是实地试验。在试验阶段,教学按照预先计划在组织内对所选择的目标学习者实施,实地试验包括以下几个部分:做评价计划,为实施做准备,实施教学和收集数据,整理和分析数据,最后报告结果。 表12.1总结了与此阶段评价每个部分相关的活动,每列的表头是主要部分的名称,下面列出的是与此相关的活动。所有处在第一列“计划”部分的活动都应该在第二列“准备”活动开始之前自上而下地完成。类似地,第二列的活动也应该在第三列“实施/收集数据”活动开始之前按顺序从上往下执行。但是,在教学实施和数据收集时,不再采用这种自上而下顺序执行的模式,而是按照最省时、性价比最高的时间表来收集与每行相关的数据。数据总结和报告这两列也是如此。最后三列的活动之所以也按照这个顺序呈现,只是为了简单地说明他们与前两列活动之间的关系。下面非常详细地介绍了总结性实地试验的每个活动。 计划 第一个计划活动就是设计你要进行的实地试验。所做的设计取决于几个因素,如需求评价、材料特点、是否要包括其他做比较的材料等。你可以只用一组人来评价一种材料;也可以用具有不同的特征、或分处在不同环境下的多个组去评价一种材料;你还可以在对照组和对照环境下比较不同的材料。 另外一个设计活动是清楚定义在研究时要回答的问题,这些问题是根据学习结果分析(对学习者、工作和组织的影响)和管理分析而提出来的。这些问题一定要与学习者的入门技能、他们在目标上前测和后测的成绩、以及他们的态度紧密相关,另外也要与所需要的资源、设备和设施相关,还可能与实施教学的那些人的技能和态度有关。其他相关因素还有实施过程和实施日程安排。具体包含哪些问题取决于所做的研究及可用的资源。 所要设计的问题不仅关于学习环境下学生的表现,还要包括在迁移环境下学生的表现。事先要计划好是对参与教学的部分学生还是全部学生做进一步的调查。可以采用访谈、问卷和观察方法向学习者和管理者、同僚和下属了解该教学对工作环境的影响。在形成性评价实地试验时所问的一些问题在这里也可以问,总之,一定要事先做好计划。 当手头有了教学材料,有了设计好的评价框架,下一步就是陈述研究所需要的资源、设施和设备了。这个活动应该在确定如何取样之前完成,因为在这方面所遇到的限制会影响到你所要使用的组的性质。先计划理想化的需求,然后再协商这些需求的可行性。 在解决了所需要的资源问题后,你就可以将注意力转向描述理想目标学习者了。你的描述应该包括他们的入门技能,以及其他与材料相关的特征(如先前的经历,现在的职位,和个人目标),你还要决定你所需要的(或你能应付的)学习者的数量,以及你所需要的组的数目。在做这个决定的时候,你要做适当地估计,因为是数据的质量而不是数量起关键作用。一般来说,有20到30个经过挑选的真正能代表目标人群的学习者就够了。组这个词并不意味着小组教学,而是指要收集数据的个体数目。 一旦你知道了研究中要有多少学习者,你就可以确定需要多少教员或管理人员。除了说明理想人数,你还要描述为了实施教学他们应具备的技能。是否能够找到一定数量的合适教员可能会影响到你前面设计的学习者数量。如果限制学习者数量不可行,那么你就需要做一个计划,多培训几个教员了。 计划阶段的最后一个活动就是对教员做相关培训。一个好的总结性评价需要实施教学教员的合作,他们必须感到他们是整个研究的重要组成,他们有知情权,他们的观点是有价值的。与这些人从一开始就建立和睦的关系,并在整个研究过程中保持密切合作,会提高实地试验以及你所获得的数据的质量。最后一个提醒:必须要使教员相信你不是在评价他们,也不是在评价学习者。从一开始,评价的焦点就是教学。建立信任,关心学习者的需求,你才能进入这个环境,获得需要的数据,事实上,可以在研究过程中始终将他们既视为研究的实施者,也视作评价人员,这是一个不错的想法。 表12.1 总结性评价试验活动一览 计划 准备 实施/收集数据 整理和分析数据 报告结果  设计评价 获得量表 安排教学和测试时间 编写/修改课程大纲   说明设计的局限  结果分析 说明所需要的资源、设施和设备 获得资源,设施和设备。 适当吗?(观察,访谈,问卷) 说明因资源、设施和设备所引起的问题 建议和分析  说明目标人群的入门技能和特征 说明试验需要的组数和学习者人数 选择样本 确认入门技能(数据) 安排学习者试验时间 学习者表现? (前测) 学习者态度?(观察,访谈,问卷) 学习者在工作环境下的表现(使用情况,有效性?) 进行小组和个人的题目-目标分析 小组和个人的目标交叉测试总结态度总结 对学习者、工作和组织的影响进行解释、分析和建议  管理分析 说明教员或管理人员应具备的技能 说明需要的教员数量 挑选教员 审核其技能 安排教员试验时间 实施有效吗? 要修改吗?(观察,访谈) 说明因教员或目标引起的问题 建议和分析  计划和开发对教员/管理人员的培训 提供对教员的培训 培训有效吗?(观察,访谈) 说明目标和活动引起的实施问题 建议和分析  准备 准备阶段的活动根据计划阶段的决定而做,包括获取所有的材料、量表、资源和人。当需要和现实不同时,就要做出某种让步。在你的评价报告中要专门有一节说明这些试验限制,注明所做的改变。 实施/收集数据 在教学的实施阶段,你需要收集所要求的各种类型的数据,包括测定表现、观察、访谈和问卷。你所收集的数据的多寡取决于你的问题和资源。至少你需要前测数据和后测数据,以及学习者对教学材料和教学过程的看法。这些信息通常通过教员不太昂贵也不太麻烦地就可以获得。在过了一段时间之后,就可以到实际环境去作评价了。 整理和分析数据 在形成性评价的实地试验部分介绍的数据汇总技术对于总结性实地试验也同样适用。至少你需要产生目标-题目对照表,按组或按人总结学习者的成绩,你也可能还想用表格形式比较个人和小组从前测到后测的进步,描述所学技能在实际环境下的使用情况。 在分析数据的时候,需要将教学效果不佳的地方纪录下来,同时也要记录造成这些弱项的可能原因。另外,教学有效的地方也要记录下来。在总结性评价的实地试验阶段,对材料的优势和不足进行均衡分析十分重要,只关注不足对材料的价值评价就会出现偏差。 报告结果 总结性评价报告的内容取决于评价设计,如果评价设计既包括专家评价,也包括实地试验,那么在评价报告中这两个阶段的情况都要写。每个阶段都要说明基本目的、特定问题、评价设计和评价过程、评价结果、你的建议和分析。你的建议必须依据评价结果部分所呈现的数据。 在你设计和形成评价报告的时候要始终想着评价报告的读者。沃仁、桑德和费茨派崔克(1997)在分析了几份项目评价报告后,总结道:尽管这些报告内容丰富,但是它们是印刷“毒药”!你不妨按照他们提出的格式来写作,以避免这个问题。他们建议在报告开头部分先写一个简短的总结,概括最终的建议和所做的分析。随后,读者就可以自行选择阅读技术文档的哪些部分,以便审核评价过程的质量,判断你的结论的正确性。(你可以象对教学做形成性评价一样对技术报告做形成性评价。) 形成性评价和总结性评价比较 形成性评价和总结性评价在几个方面都存在差异,这些差异总结在表12.2中。第一个差异是进行每种评价的目的不同。进行形成性评价是为了发现教学的弱点和问题,以便改进。进行总结性评价是要找出教学的优点和缺点,并将发现记录下来供决策者决定是否采用或继续采用该材料。 两者的第二个差别是所包含的评价阶段不同。形成性评价包括三个阶段:一对一评价,小组评价和实地试验,所有评价都是针对目标学习者进行的。在每个阶段,大量的时间花在对学习者的观察和访谈上,以便了解他们在教学中所遇到的问题及其实质。相反,总结性评价只有两个阶段:专家评价阶段和实地试验阶段。专家评价阶段类似于设计师和领域专家在材料的设计和开发阶段所做的评价决策。目标学习者并不参与这个阶段的总结性评价。实地试验阶段是针对目标学习者进行的,但是很少花时间去追询为什么学习者能通过或不能通过某个教学目标,实地试验是在教学之后、在实际环境下通过不打扰的观察、问卷和标准参照考试等方式获得数据。 表12.2 形成性评价和总结性评价的比较 形成性评价 总结性评价  目的 确定教学的弱点以便修改 记录教学的优缺点以便决定是否采用或继续采用  阶段 一对一评价 小组评价 实地试验 专家评价 实地试验  教学开发历史 自己完成教学的系统化设计,并根据组织需求进行裁剪 自己或别人设计开发的教学,不一定遵从系统化方法  材料 一种材料 一种材料或多种要比较的材料  评价人员的立场 设计和开发组的成员 典型的外部评价人员  成果 修改教学的具体建议 记录了设计、过程、结果、建议和分析的报告  用于形成性评价和总结性评价的材料其开发历史也可能不同,做形成性评价的教学通常是经过系统化设计和开发的,因此具有对目标学习者有效的承诺。而那些作总结性评价的材料可能采用了也可能并不没有采用系统化设计过程开发,只是要进行实地试验的材料,应该具有系统化设计的许多特征,因此也应该具有对目标学习者有效的承诺。 形成性评价和总结性评价的另一个区别是所评价的教学的数量。形成性评价只对一种材料评价,总结性评价可能是评价一种材料,也可能是评价几个彼此竞争的材料。总结性评价可能包括一种评价材料和不同特征的目标人群;也可能是多种评价材料和具有类似特征的目标人群。 形成性评价和总结性评价的另外一个不同是评价人员与材料之间的关系。一般来说,形成性评价的评价人员参与了教材的设计和开发,是为了产生尽可能好的材料而寻求适当的评判。这种对评价结果有个人投入的评价人员叫做内部评价人员。要求总结性评价人员对于所评价的材料没有个人投入是明智的,因为这种派遣的人员可以保持在设计评价时以及描述材料优缺点时的客观性。这种派遣去的评价人员通常叫做外部评价人员。 形成性评价和总结性评价的最后一个区别是其结果不同。形成性评价的结果包括对教学修改的具体建议,以及在评价的三个阶段中实际修改后的材料。总结性评价的结果并不是对修改的建议,而是写给决策者的报告,记录了所评价的教学的优势和不足。 示例 这节介绍了总结性评价的专家评价阶段可用的评价量表样例。在形成性评价那章里已经详细描述了实地试验阶段要用到的量表及数据分析过程,在此就不重复了。一般来说,专家评价阶段所要用到的量表包括信息总结表,评价人员要填写的评价核查表或等级量表。 用于适合度分析的数据总结表 表12.3是一种用于适合度分析的信息总结表格式。左列用于描述组织的教学需求,组织中目标人群的入门技能和特征,为获得和实施教学该组织可用的资源。其他的列用来纪录各候选材料的对应信息。按照这种方式总结信息可以使你和决策人直观地判断候选材料是否合适。 表12.3 适合度分析信息总结表 组织特征陈述 候选材料1 候选材料2 候选材料3  组织的教学需求(目的和主要目标) 材料中陈述的目的和目标 等等 等等  组织的目标群体的入门技能 所陈述的学习者入门技能 等等 等等  组织的目标群体的特征 实施环境的特征 对学习者和环境特征的表述 等等 等等  为获得和实施教学可用的组织资源 购买和实施材料的费用 等等 等等  为实施教学组织可用的设施和设备 实施材料所需要的设施(学习中心,设备) 等等 等等  用于内容分析的核查表:评价材料的完整性和准确度 图12.3是一个假想的目标框架和材料核查表,上面是目标分析图,下面是核查表。使用这样的一张核查表,不仅可以评价材料及其考试资料是否完整,还可以评价材料中信息的顺序是否合适。你还可以开发出其他类型的表格来记录你的评判。在这个例子中,每种材料有三列,第一列指出某种从属技能是否出现在教学中、出现的顺序,第二列和第三列指示与此技能相关的考试题是否包含在前测或后测中。 图12.3 评价候选教学材料的准确性和完整性以及所提供考试题内容合理性的框架 从属技能陈述 候选1 MAT PRE POST 候选2 MAT PRE POST 候选3 MAT PRE POST  1.0 X X X X X X    1.1 X X X    1.2 X X X X X    1.3 X X X    1.4 X X X X X   2.0 X X X X X X X X X   2.1 X X X    2.2 X X X    2.3 X X X    2.4 X X X X X X X X  3.0 X X X X X X X X X   3.1  X X X   4.0  X X X    4.1  X X    4.2  X X    4.3  X X   5.0 X X X X X X X X X  等     总计 16 5 11 22 16 22 4 4 4  注: MAT = 教学材料内容,PRE&POST= 前测/后测考试题内容,X= 材料或考试中包含此技能 在评价了每种材料的准确度和完整性后,在表的最后一行可以统计每列标记的个数,然后比较候选材料之间的相对值。在这个假想的例子中,候选教学2是最有可能被采纳的,因为它的教学包括了内容专家确定的所有22个步骤和从属技能。所提供的考试也是最完全地测定了指定的技能。但是,内容广泛只是总结性评价对教学材料评判的第二位指标。 数据分析之后,你可能希望使用这些数据回答从系统化教学设计角度所提出的一些问题: 这种教学材料的目的和主要目标是否非常清楚? 教学中所包含的信息是否准确、时新? 教学中信息的顺序是否很有逻辑? 对于目标学习者的入门技能和特征(技能,环境,理解力,性别,种族,文化偏向)而言,教学是否合适? 成绩的测定(纸笔测试,红笔批改)是否与教学的目的/目标一致,是否符合目标学习者的特征? 用于设计分析的核查表:评价材料中的学习和教学策略 如果教学设计师是对自己设计的材料进行总结性评价,他们会十分清楚其中所运用的教与学原理,但是对于没有参与材料开发的独立的评价人员来说,他们必须判断某些教学原理是否运用在这些材料的创建过程之中。 一个有效的教学,不管它是关于言语信息、智慧技能,还是关于态度或心智运动技能的,都会具有某些特征,基于认知心理学家、建构心理学家和学习专家的研究成果。高质量的教学应该能够引起学习者的注意力,它还能帮助学习者关注所学内容的相关方面,比如在记忆中逻辑地存储信息,随后能有效地回想等等。总结性评价人员应该了解设计有效教学的最新理论,并能将这些设计原则转化为对教学材料评价的指标。可以用于设计总结性评价的教学原理包括动机理论、学习类型理论(如,智慧技能,言语信息,态度和运动技能)和教学策略。 动机 必须要特别注意所评价的教学材料是如何在学习者学习时激发他们的兴趣的。ARCS模型(Keller,1987)总结了一套激励原则,既可以被设计师用来产生教学材料,也可以为评价人员用于判定现有教学的质量。ARCS提出的原则包括:1)要引发并持续维持学习者在教学过程中的注意力;2)教学应该是与学习者的个人需求和目标相关的;3)教学的难度要适中,使得学习者能够相信只要他们尝试了就能成功,4)学习者要对他们的付出所得到的回报感到满意。这些动机原则的概念可以转换为总结性评价的问卷,如表12.4所示。 表12.4 基于动机原理(注意力,相关性,自信心,满意度)的总结性评价问题 ARCS动机模型 总结性评价要问的问题 教学1 是 否 教学2 是 否 教学3 是 否  注意力 是否有策略用于引发并维持学习者的注意力(如感情因素、个人魅力、问题、思维挑战、人的利害关系,等)?  — —  — —  — —  相关性 2.教学是否与所给目标群体相关,学习者是如何被告知并确信这种相关性的(例如新的毕业需求信息、证书、就业、提高、自我实现等)?  — —  — —  — —  自信心 3.学习者是否在教学的开始就有信心,并至始至终保持信心所以成功(例如,学习者被告知目的后就可能有了预先准备;教学从熟悉的进展到不熟悉的,从具体到抽象;词汇、环境和范围都很适当,既是对现状的挑战但又现实可为,等等)?  — —  — —  — —  满意度 4.学习者是否从学习过程中获得满足(例如,相应的外在奖励,如自由时间、就业、提职、认同;实际的内在奖励,如对成功和成就的感觉,满足好奇心,智力娱乐,等)?  — —  — —  — —  学习类型 用于不同学习类型的教学原则都可以成为总结性评价的专家评价阶段的理论依据。表12.5是一张核查表,基于智慧技能、言语信息、态度和心智运动技能的教学原理。该核查表并不打算穷尽所有能提出的基于学习理论的问题,只是示范在设计一个总结性评价时这些原则的作用。希望进一步了解有关原理及其派生在教学中应用的读者可以参看有关教学原理的书籍。 表12.5 基于有关智慧技能、言语信息、态度和心智运动技能教学原理,审查教学材料教学特征的核查表 I.智慧技能 教学1 是 否 教学2 是 否 等等 是 否  1.是否提醒学习者回想先前存储在记忆中的预备知识?     2.教学中是否为存储在记忆中的预备技能和新技能之间建立了联系?     3.新技能呈现的组织方式是否容易被回想?     4.概念的物理特性、角色和关系特征是否被清楚地描述和图示了?     5. 应用过程是否清楚描述和解释了其中的规则和原理?     6.有直接判断答案、作品或行为的评判标准吗?     7.初学者易犯的错误有没有被直接指出来?     8.正反例是否清楚表达了概念或过程?     9.介绍一个概念或过程的例子和情景对学习者来说是否熟悉?     10.例子、情境和应用是否按照从简单到复杂、从熟悉到不熟悉,从具体到抽象展开的?     11.练习确实是在运用智慧技能还是在回想执行该技能所需要的信息?     12.给学习者的反馈是否提供了正确信息和实例,还是只给了一个正确答案?     13.有没有适当的相关教学活动,如提高、补习,丰富而有逻辑的内容呈现等(如强调预备技能,关注提高动机,提供额外的例子和情境)?     Ⅱ言语信息     1.新信息是否呈现在一个相关的情境中?     2.是否提供了为新信息与存储在记忆中的相关信息建立联系的策略?     3.信息是否是分集组织的,每个子集中元素之间的关系以及子集之间的关系是否有所解释?     4.组织和总结信息是否采用了列表、大纲、表格或其他的结构?     5.当新信息不能与记忆中原有信息建立联系时是否提供了逻辑性的记忆方法?     6.是否有练习题加强记忆线索、细化记忆?(如产生新例子、形成便于回想的图像、细化组织结构等)     7.反馈信息中不仅有答案正确与否的信息,还有为什么一个答案不正确的分析?     8.补习材料中是否也有激励策略和促进回想的练习?     Ⅲ.态度     1.是否清楚描述了所期望的感觉?     2.是否清楚描述了所期望的行为?     3.是否清楚地建立了所期望的感觉和行为之间的因果关系以及它们与相应正面结果之间的必然联系?     4.是否清楚地建立了不期望的感觉和行为之间的因果关系以及它们与相应负面结果之间的必然联系?     5.从学生的角度来看这些正面和负面的结果是否真实可信?     6.目标学生是否会认为所呈现的正面和负面的结果很重要?     7.如果有人代学,在学生中是否会出现对这些人和事的羡慕、轻蔑、同情之类的情绪?     8.如果有人代学,这种情境和场景是否与目标学习者有关或为其所熟悉?     9.不管学生是直接还是间接经历了某个行为,在反馈中都会给出该活动的正面或负面的结果     Ⅳ. 运动技能     1.教学是否教授了类似于学生已经会做的技能?     2.教学是否包含了说明运动技能执行顺序和所需时间的图示?     3.复杂技能是否根据对学习者的分析而分解为几个逻辑块,以便练习、操作?     4.是否可以将各逻辑部分组装成一个完整技能?     5.有没有直接告知常见错误及规避办法?     6.有没有重复练习以保证学习者能够熟练操作达到自动化?     7.反馈是否是立即出现,以防止学习者重复犯错?      教学策略 表12.6为用于评价候选材料中教学策略的核查表。最左列为教学策略成分,只是缺少前测和后测。每种材料有两列供填写,第一列判断每个策略成分是否出现,第二列列头标记为“注意”,用于判断每种策略成分对于目标学习者是否有可感知的动机影响。记住动机强弱取决于材料与学习者兴趣和需求的相关性,学习者对自己成功的自信,以及他们从学习技能和知识中获得的满足感。你可以如例子所示分别核查单个指标,而不是笼统地核查各成分,你也可以用等级量表来代替这种是/否核查表。 核查表的最后一行是总结行,统计每种材料的标记数目。按照这种方式比较不同的材料(表12.3 到表12.6),你很容易地就能找出可以向组织推荐的最有希望的材料。 表12.6 用于评价候选材料教学策略的核查表 策略成分      候选1 呈现 注意 候选2 呈现 注意 候选3 呈现 注意  教前 激发动机 目标 入门技能 说明 样题  X X X X X X X X  X X X X X X X X   信息呈现 组织结构 标题 表格和图示 细化 类比/同义 想象提示/考虑 正例和反例 例子的相关特征 总结/复习  X X X X X X X X X X X X X X  X X X X X X X X X X X X X X  X X X X X X  学习者参与 相关练习 反馈 答案 例子解答 共性错误  X X X X X X X X  X X X X X X X X  X X X X  促进活动 记忆辅助 迁移策略 共计  X X X X 17 17  X X X X 17 17  6 4  用于可用性和可行性分析的表格:专家评价 表12.7可用来总结和比较专家对候选材料可用性的判断,在左列中列出了每种材料要被评判的元素,后面的列标记每种材料的情况。选择哪些元素用于材料比较取决于组织所陈述的需求和资源。你为每种材料记录下的信息最好是描述性的信息,而不是简单地审查某个元素是否出现,或者评定某个元素的质量等级。 表12.7 用于记录和比较不同材料可用性的表格 候选1 候选2  可用性问卷 材料 用户满意度 材料 用户满意度 等等  1.材料的特征 是 否 是 否 是 否 是 否  材料中是否含有 学习者指导/课程大纲? 教师手册? 考试题或题库?  -- -- -- -- -- -- -- -- -- -- -- --  -- -- -- -- -- -- -- -- -- -- -- --  该材料是否可以 自定步调? 定义小组步调? 在传统教室使用? 在学习中心使用? 在家里或图书馆使用?  -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- --  -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- --  该材料是否需要 特殊的教员能力? 特殊设备? 特定环境?  -- -- -- -- -- -- -- -- -- -- -- --  -- -- -- -- -- -- -- -- -- -- -- --  要花多长时间 完成一个学习段? 完成一个单元? 完成教学? 完成考试?  -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- --  -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- --  (当前用户观点)该材料会导致 所期望的成就水平? 所期望的态度和动机? 迁移到工作或下一单元? 完成目标和使命?  -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- --  -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- --  F. 费用 ¥--- ¥--- ¥--- ¥---  用于当前用户分析的表格 从当前用户处收集竞争材料的信息类似于在实地试验阶段收集数据。其不同在于大部分的数据是态度数据而不是行为数据,表12.8中总结了你可能需要从用户处收集到的信息种类。 要考虑的因素放在最左列,这里收集数据活动所用的评价人员填写表的格式与前面用过的不同,你需要在空白处记录下每种材料用户的观点,表12.8的表格中每种材料可以接受两个用户的回答。 表12.8 从材料的当前用户处收集信息 候选方案1 候选方案2 候选方案3   用户1 用户2 用户1 用户2 用户1 用户2  1.所用材料的教学需求?     2.目标学习者的入门技能?     3.目标学习者的特征?     4.学习者在前测的成绩水平?     5.学习者在后测的成绩水平?     6.学习者在实际环境中的成就?     7.学习者对材料的态度?     8.使用材料的环境?     9.对材料的当前满意度?     10.继续使用该材料的计划?      总结 做总结性评价是为了对是否采用该教学或者是否继续使用该教学做出决定。总结性评价的主要评价人员很少是该教学的设计师和开发者,评价人员甚至并不熟悉要评价的材料,不了解要求做评价的组织,不熟悉材料被评价的环境。这样的评价人员就叫做外部评价人员。之所以选择这些评价人员作总结性评价是因为他们对教学没有个人的投入,对教学的优缺点能有客观的评定。 教学设计师是最优秀的总结性评价人员,因为他们了解教学设计过程,认识设计良好的教学应具有的特征,掌握评价教学的各项标准。这些技能使得他们无论是在设计和实施专家评价还是做实地试验,都能够提供专业性的意见。 总结性评价的专家评价阶段的设计根置于系统化设计教学模型。与开始设计教学类似,材料的评价人员先是要判断组织的教学需求与候选教学材料目标的一致性,不适合的材料就被否决了,有希望的材料就要做进一步的评价。下一步,要评价材料中所呈现内容的完整性和准确性。用于这个评价的标准文档是教学目标分析,包括所需要的从属技能。参与其中的内容专家主要是产生或核实技能流图的质量。同样,不适合的材料就被否决了,有希望的材料继续进入下一轮的评价,即进行教学策略的质量、可用性以及他们对当前用户影响方面的评价。只有通过这些评价活动的材料才可以进入实地试验阶段。 在实地试验阶段,教学是按照在预期环境下对目标人群的影响来评价的。评价之后,教学的优点和缺点都将纪录下来,这包括学习者的成绩和态度、教师的态度、实施条件等。 评价报告既要包括专家评价分析(如果做了的话),也要包括评价的实地试验分析,其设计和编写都要将读者的需求牢记在心。 练习 总结性评价的主要目的是什么? 总结性评价分为哪两个主要阶段? 为什么必须做总结性评价的第一个阶段? 说明总结性评价第一个阶段要做哪五种分析,各需要哪些种类的量表。 总结性评价的第二阶段要做什么大决定? 说出总结性评价第二阶段要做哪两类分析,以及每类分析收集信息的过程。 试比较形成性评价和总结性评价的目的。 试比较在形成性评价和总结性评价中评价人员的立场。 试比较形成性评价和总结性评价的最终结果。 答案 目的:记录教学的优点和缺点 阶段:专家评价,实地试验 专家评价:决定候选教学是否有可能满足组织的需求 专家评价阶段所进行的分析类型: 适合度分析——信息总结表 内容分析——产品核查表或等级量表 设计分析——产品核查表或等级量表 可用性和可行性分析——信息总结表,产品核查表或等级量表 当前用户分析——信息总结表,产品核查表或等级量表 实地试验:记录在预期环境下对目标学习者的教学效果 进行实地试验时所进行的分析类型: 结果分析(教学对学习者、工作、组织的影响)—— 标准参照考试,态度问卷,访谈,观察,公司纪录 管理分析(态度满意度,实施可行性,费用合理性)—— 问卷,访谈,观察,公司纪录 形成性评价 总结性评价  7.目的 为了修改教学而收集数据 为了记录教学的优缺点而收集数据  8.评价人员的立场 评价人员是设计师,对教学的改进过程中有个人的投入 评价人员为外面的人,能够客观地评价他人教学的质量  9.最终产品 关于教学材料修改的建议,以及修改后的教学材料 提供给决策者的评价报告,其中记录了研究的目的、过程、结果和建议。  阅读 Brinkerhoff,R.O.(1987). Achieving results from training. San Francisco,CA:Jossey-Bass.提出了一个六阶段的评价模型,包括在工作场所的评价,以及培训对组织的影响。 Carey, L.M., & Dick, W.(1991). Summative evaluation. 见Briggs,L.J., Gustafson,K.L., &Tillman,M.H.(主编) Instructional design: Principles and applications. Englewood cliffs, NJ: Educational Technology Publications. Cronbach, L., & Associates.(1980). Toward reform of program evaluation. San Francisco:Joassey-Bass.这本书中将评价人员作为教学设计过程的支持角色。 Draper,S.W.(1997). The prospects for summative evaluation of CAL in HE. Association of learning technology journal. Vol.5,no.1,pp.33-39。介绍了总结性评价的效用,以及评价计算机辅助学习的教学软件的策略。可以从下面的网址中看到这篇文章:http://www.psy.gla.ac.uk/~steve/summ.html Gagne,R.M.,& Briggs, L.J.(1979). Principals of instructional design. New York: Holt, Rinehart, & Winsotn, 236-238. 从教学设计师角度简要描述了总结性评价过程。 Smith, M.E., & Brandenburg,D.(1991).Summative evaluation. Performance Improvement Quarterly,4(2),35-58. 综述总结性评价相关问题,提供了大量的参考文献 Stufflebeam,D.(1973). Educational evaluation and decision making. 见B.Worthen 和J.Sanders(主编), Educational evaluation: Theory and practice. Belmont,CA:Wadsworth Publishing,128-150. Stufflebeam的CIPP模型是目前教育评价中用得最多的模型之一。 Worthen, B.R.,Sanders, J.R.,& Fitzpatrick, J.L.(1997).Program evaluation(第二版).White Plains, NY:Longman. 第二版增加了一些新的章节论述定性教育,介绍如何进行多个试点的评价研究,用于企业环境的评价方法,以及该领域的最新进展。本书的重点是项目(program)评价而不是教学材料的评价。 注意:第10章和第11章后面的参考文献对于这章总结性评价也是合适的。读者还可以在网上找到很多有关总结性评价的项目、论文、课程介绍,以及总结性评价在不同环境下的应用。