第七章 开发评测量表
目标
能说明标准参照评测的目的
能说明教学设计师会如何使用入门技能测试、前测和后测
能说出开发标准参照评测的四类质量评判原则,并列出每一类原则下要做的考虑
对于给定的各种教学目标,会写出满足所有四类原则的标准参照客观题
能为产品开发、现场表演和态度评估编写说明,开发评价学习者工作的评分标准
能评估教学目的、从属技能、学习者分析、环境分析、绩效目标和标准参照考试题的一致性
背景
成绩测验目前在美国正处于学校改革运动的前沿。一个新概念,以学生为中心的评测(learner-centered assessment),充斥着各种学校改革的文献,贝瑞(1998)将其定义为能促进学习者学习的评测方法。在这个模型中,以学生为中心的评测任务,就像学习事件一样,鼓励学习者参与自我评价,承担起对自己学习质量的责任。
以学生为中心评测的定义与传统的标准参照考试的定义是一致的,后者是系统化设计所产生的教学的核心组成。以学生为中心的评测一定是标准参照的(即与教学目的和由教学目的派生的绩效目标集直接相关),标准参照考试因为不仅能评价学习者的进步,而且还能评价教学的质量,因此非常重要。标准参照考试的结果准确地告诉了教师每个教学目标学习者能够做到多好,也告诉了设计师教学的哪些部分不错,哪些部分还需要修改。此外,标准参照考试还能让学习者通过运用已建立的评判标准来评价他们自己的工作而反思自己的表现,这样的反思能促使学习者最终成为能为他们自己的学习质量负责任的人。
你可能会奇怪为什么在教学设计过程的这个阶段就要设计考试题,而不是在教学开发完成之后。主要原因是考试题必须与绩效目标一一对应。教学目标中所要求的行为必须与考试题中的行为或要求完成的任务中的行为相匹配。同样地,这些发给学习者的考试题也会对教学策略的开发产生影响。
在这一章里,我们将讨论设计师如何构造不同类型的评测量表。我们之所以用“评测”一词而不是“考试”,是因为一提“考试”,往往联想到纸笔、多项选择题等等,而“评测”内涵则更广些,包括各种可以让学习者证明他们是否掌握了新技能的活动。在设计过程的这个阶段,还要为每个目标构造评测样例。
概念
这章的主要概念是标准参照评测。标准参照评测由一组能够直接测定一个或多个绩效目标中所描述的技能的题目或任务组成。之所以用标准一词是因为这些评测题目可以作为标尺来判断一个学习者的表现是否达到教学目标的要求,也就是说,通过了这些评测就表示学习者已经达到了教学单元的教学目标。现在越来越多的是采用目标参照一词而不是标准参照,这一变化是为了更明显地指出评测和绩效目标之间的关系。评测的题目和任务直接对应教学材料的教学目标中所描述的行为,因此你可以认为这两个术语本质上是同义词。
标准一词的另一用处是说明行为需要掌握到的程度。这类用法的例子包括“学习者应该正确回答所有题目”、“学习者应该遵循易燃液体安全存储的六个步骤”,“学习者能画出一个5度锐角”,等等,这类标准说明可以是为一个绩效目标的一道考试题而写,也可以为一个目标的多道考试题或多个目标的几道综合考试题而作。清楚说明的目标和恰当行为的评判标准是构造合适的考题所必需的。基于特定的行为目标和所建立的评判标准,一个后测考试可能只需要一道考试题,也可能需要多道考试题。
四类标准参照考试及其用途
设计师设计的考试主要有四种类型:入门技能测试、前测、练习或模拟测试,以及后测。每种考试类型在设计和传递教学的过程中都有不同的功用。下面我们就从设计教学的设计师角度来看看每类考试,看看在教学设计过程中它们各要达到什么目的。
入门技能测试 第一类考试,入门技能测试,是在开始教学前对学习者的考试。这些标准参照的考试题是为了评定学习者对预备技能,即学习者在教学开始前必须具备的技能的掌握情况。预备技能是在教学分析图表中虚线以下的技能。如果一个教学单元需要入门技能,那么就要设计考试题,在形成性评价时让学习者使用。
你可能会发现,理论上也是这么说的,缺乏这些技能的学习者在教学中会感到非常吃力。但是你可能也会发现,出于某些原因,有时入门技能对于教学的成功并不关键。如果在教学分析的时候没有确定什么重要的入门技能,那么就没有必要开发相应的教学目标和考试题。但是如果某些目标人群应该已经掌握的技能却有可能没有掌握,那么就要在入门技能考试中测试这些被置疑的技能。
前测 前测的目的并不是如后测那样要显示教学后学习的收获,而是要参照教学分析,了解学习者。前测(pretest)在教学开始之前实施,目的是要确定学习者是否已事先部分或全部掌握了教学中要教的技能。确定学习者是否已部分或全部掌握了技能的原因是为了教学效率。如果所有技能都已经掌握,那么教学就没有必要了。另一方面,如果只有部分技能被掌握了,那么前测数据就可以使设计师更有效地创建教学。对于这部分已经掌握的技能只要做一些复习或简单的提醒即可,而将大量时间花在对其他技能的教学上,如举例、反复练习等等。
设计师还需要确定前测要评测哪些技能,这需要用到设计师的判断力,要选择最重要的教学目标来考。决定要考什么技能,考几个技能,因教学目的和情况而异。前测中肯定要有那么一道题或多道题是针对教学分析(包括教学目的)中所确定的关键技能的。
因为入门技能测试和前测都是在教学之前进行的,所以它们经常合二为一。尽管出现在一张卷子上,但并不表示它们是同一类或同样的测试。不同的题目评定教学目的流图上不同的技能,设计师要基于学习者在这两类题目上的分数做出不同的决定。根据入门技能测试的成绩,设计师要判断学习者是否已经做好了开始教学的准备;根据前测分数,设计师要决定教学对于学习者来说是否太初级了,如果不是太初级,如何为特定人群开发最有效的教学。
是不是一定要对所教的技能做前测?有时候并不需要。如果你知道你所教的内容对目标人群来说是新的,如果你知道他们在前测的成绩只会是瞎猜的结果,那么就没必要做前测。前测只有在一些学习者可能会具有所教内容的部分知识时才有价值。如果考试时间也是个问题,那么就设计一个简短的前测,测定学期目标和几个关键的子目标。
练习测试 练习测试(practice tests)的目的是为了在教学中提供学习者主动参与的机会。练习测试使学习者能够练习所学的新知识和新技能,自我判断自己的理解程度和技能水平。教师可以根据学习者的练习作业,提供指导反馈,并控制教学进度。一般来说,练习测试所包含的技能少于前测和后测,主要是针对每节课的内容,而不是整个单元的内容。
后测 后测在教学之后进行,与前测相对,只是没有对入门技能的考题。与前测类似,后测(postests)测定教学中所包括的目标。与这里所介绍的所有考试一样,设计师要能将所测试的技能与后测中的考题对应起来。
后测从教学目的分析中选取要评测的技能。按道理应该考所有目标,特别是学期目标。但是与前测一样,如果要测试所有从属技能,就会花很长的时间,也要求试题更加全面,出更多的题目考更多的技能。如果时间有限,且必须开发简略的测试,那么学期目标和一些重要的子技能是一定要考的,那些有可能造成学习者在学期目标上出问题的子技能也要考。
最后后测可以用来评定学习者的表现,给出学习者完成课程应得到的分数。但是,后测最初始的目的是为了帮助设计师确定教学中的不足之处。如果一个学习者没有完成学期目标,设计师就要能够找出在学习过程的什么地方学习者开始听不懂了。通过逐题审查每道题回答得是否正确,并且将每道题无论答对与否都与其对应的从属技能挂钩,设计师就能准确地发现问题所在。
在教学设计过程中会用到所有这四类测试。但是,在教学的形成性评价结束后,部分或全部的入门技能测试和前测也就完成了使命,后测也可能会修改为只测试学期目标。总之,在教学设计和开发完成之后花在测试上的时间就不会这么多了。下表总结了每种测试类型、设计决策及每类测试所包含的典型目标。
测试类型
设计者决策
要测试的目标
入门技能测试
学习者是否已经做好了开始学习的准备?
学习者是否具备所需要的预备技能?
预备技能以及在教学分析图中虚线以下的技能
前测
学习者是否已掌握了要教的技能?
他们已掌握了哪些技能?
我怎样才能最有效地开发这个教学?
学期目标
目标分析中的主要步骤
练习测试
学习者是否已具备了要学的知识和技能?
他们犯了什么错误,哪些概念认识有误?
教学内容分簇是否适当?
教学进度对学习者是否合适?
完成目的中目标子集所需要的知识和技能
只限一堂课,不是整个单元
后测
学习者是否达到了学期目标?
每个主要目标和每个从属目标的教学是否都有效?
教学在哪些方面需要改进?
学习者是否掌握了所期望的知识、技能和态度?
学期目标
主要步骤及其从属技能
设计考试
那么该如何设计和开发一个标准参照考试呢?一个主要的考虑是确定学习领域对应的考试题目类型或者要评测的任务类型。言语信息领域的目标一般采用客观题,如简答题、选择题、匹配题和多项选择题。评判学习者的言语信息类回答相对比较容易,而无论这种回答是手写的还是口头陈述的,因此也就容易判断学习者是否掌握了言语信息目标:学习者要么能想起答案,要么就什么也答不出来。
智慧技能领域的目标要复杂一些,它们一般来说不是用客观题评判,就是要制作作品(如音乐成绩、研究报告、手工制品),或给出某种类型的现场表演(如,指挥乐队,演戏,或召开业务会议)。对于高级智慧技能,很难设计出考试题或评测任务,也很难判断一个回答是否合适。如果一个目标需要学习者产生唯一的解法或做出同样的作品该怎么办?这时候你就需要写出操作说明,让学习者照着做,同时建立一套标准来判断学习者完成的质量,而且还要将这些标准转变成核查表或等级量表,我们常称之为评分标准。
态度领域的评测也很复杂,情感目标一般与学习者的态度或偏好有关。通常没有直接的方式来判断一个人的态度(如,他们是否支持组织多元化)。态度目标的考题或者需要学习者陈述他们的偏好,或者要求教师观察学习者的行为,通过他们的行动推论他们的态度。例如,如果学习者在三个不同的场合都主动参与对少数民族雇员提职的支持活动,那么教师就可以推断他们是支持多元化的。根据这些偏好陈述和所观察到的行为,是可以对态度做出推论的。
心智运动领域目标的考试题一般都是关于如何执行任务的指令集,要求学习者顺序执行一串步骤,这些步骤在一起体现了教学目的。另外,还要确定可接受行为的标准,并将这些标准转化为核查表或等级量表,教师可以用这些量表来判断每一步执行得怎么样。核查表也可以直接根据教学分析确定的技能及其执行质量来产生。设计师可能还想测试运动技能的从属技能,这些经常都是智慧技能或言语信息,可以在学习者做心智运动技能之前用客观题测试。有时候,执行一个心智运动技能的结果是做了一个产品,如制作一个陶壶,这可以通过开发一套标准来评判这个产品做得如何,以此作为对该心智运动技能的评测。
确定掌握水平
对于你所写的每个行为目标,都应该有一个达标陈述,即要说明学习者在你所提供的考试中对于目标所描述的技能必须要做到多好。实际上,这个标准也就是要求学习者的掌握水平。但是掌握水平的概念,相对于达标水平,更多地是用在对整个教学单元或整个课程的考试中。一个教师可能需要说明,学习者为了“掌握”这个单元,他们必须要达到的行为水平。问题是:“你如何确定掌握水平该有多高?”
研究掌握学习系统的研究者提出掌握度应该等于对最好的学习者所期望的行为水准。这种定义掌握度的方法显然是常模参照的(即小组比较方法),但是有时候这也是唯一可用的评判标准。
第二种定义掌握度的方法是靠统计。如果设计师想在进入下一个教学单元前确认学习者“真的掌握了”某项技能,那么就要提供足够的机会让学习者运用这个技能,从而使得技能的正确实施不是偶然为之。当使用多项选择题的时候,很容易就能计算出这组题正确答案被猜中的概率,对于其它类型的考试题,可能很难计算猜中的概率,因此很容易说服他人成功不是偶然的。但是仅仅超过行为发生的偶然率,可能不能算作一个好的掌握水平,但比随机率高多少合适经常也是很武断的决定。
设置掌握水平的理想情况是存在着精确且明显的行为水平,可以以此定义掌握度。比如士兵为了能够发送加密信息,必须要学会拼写标准的军用词汇。在这种情形下,一个教拼写军用词汇的单元其掌握水平就应该设为100%,这完全不是随意的,因为该技能非常重要,它是学习后续技能的基础。该技能与后续技能的关系越紧密,掌握水平就要定得越高。作为一个一般性的原则,任何行为的掌握水平的确定都不仅要评价在此时此刻该行为的质量,还要考虑到其对本单元及课程剩余部分相关技能学习的影响。
在某些情况下,掌握度的最佳定义就是成功完成工作所需要的水平。对于许多复杂技能来说,其实施水平是连续分布的,新手在一端,有经验的专家在另一端。工作场合或者学习者最终被期望完成的任务应该达到什么水平呢?在这方面,环境分析的结果可以就所希望的行为水平提供有用的信息,因此可以用在标准参照评测的设计过程中。但是如果目前在工作场合没有人使用这些技能,那么管理人员或领域专家就必须运用他们的专业判断来估计掌握水平了。如果掌握水平被证明不切实际,以后还可以再作调整。
编写考试题
无论教学目标中包含的是哪类学习类型,开发标准参照考试题都需要一些考题编写技巧。一般来说,在编写考试题或评测任务的时候,要从四个方面考虑考试题的质量,即以目的为中心的原则、以学生为中心的原则、以环境为中心的原则和以评测为中心的原则。下面分别介绍了各类质量原则。
以目的为中心的原则 考试题以及评测任务应该与学期目标和绩效目标一致,要符合在目标中规定的行为,包括动作和概念。为了将考题的回答与目标中说明的特定行为对应,设计师必须要考虑学习任务或在目标中规定的动词。对于要求学习者陈述或者定义,或者按照指示做,或者独立完成的教学目标,其所要求的考试题目类型和答题形式也都是完全不同的。
在出考试题时很重要的一点是考试题要精确地测定目标中所说明的行为,例如,如果目标是要求学习者能够将概念说明和概念术语对应,那么考试题就必须要包括概念的说明和一组术语,要求学习者做匹配。
让我们来看一个例子。给你一个刻度被十等分的标尺,要求说出标尺上指定点的刻度,精确到0.1。对应这个目标的考试题如下:
1. A点所在刻度是多少?
2. B点所在刻度是多少?
你可以看出这个例子对应的教学目标是要求学习者能够精确读出一个整刻度分成了十等分的标尺上任一点的刻度。考试题给学习者一个这样的标尺,还给出了两个字母表示标尺上的两个指定点。学习者必须要能够指出每个点的刻度值,并精确到十分位。
你在各个课程的练习部分和考试卷上都会碰到很多这样的题目。非常重要的一点是一定要十分注意目标中的动词所描述的行为。如果动词是匹配、列出、选择、或描述,那么你就必须要出这样的考试题,要求学习者去匹配、列出、选择、或描述。目标决定了题目的特点,你不能随意决定题目的形式,比如用多项选择题来评测上面的目标,试题和题目格式一定要根据目标的措词。
考试题和评测任务还应该满足目标中说明的条件,如果目标中规定了题目形式、设备、模拟环境或资源,那么在评测的时候也要提供这些资源和设备。开卷考试与闭卷考试很不一样,因为后者不能看参考资料。绩效目标中所包含的对行为完成条件的说明是出题人必须依据的指南。
考试题和评测任务还要为学习者提供机会来证明其掌握了目标,达到了目标的要求。出题人必须要决定为了判断一个目标是否掌握了需要对此目标出几道题,是不是该目标的所有要求都被覆盖了,这可以用核查表或等级量表来帮助防漏。
行为目标一般还包括用来判断技能掌握程度的评判标准,对于行为评判标准是否要提供给学习者并没有绝对的说法。有时候学习者必须知道行为评判标准,有时候不需要,学习者通常的认识是为了得分,他们必须要答对。
以学生为中心的原则 考试题和评测任务必须要适合学习者的特点和需求。这方面的编写原则包括要考虑学习者的词汇量,根据其语言水平和发展水平来设置适当的任务复杂度,另外还要考虑学习者的动机和兴趣水平,其经验和背景,以及特殊的需求。
答题指示中的词汇以及考试题本身的词汇应与目标学习者的水平相当,不能按照设计师的语言水平来出题,除非该语言水平就是目标学习者的水平。学习者可不愿意因为不认识的术语而答不出题。如果某个术语的定义是完成技能所必需的,那么在教学中就应该教这些定义。缺乏必要的术语和定义也是出题时经常犯的错误。
另外一个考虑是题目要与学习者熟悉的环境和经历有关,学习者不能因为被要求在不熟悉环境下做题,或者因为不熟悉考题形式而做不出题。将一个所期望的行为放在不熟悉的环境下去完成会不必要的增加题目的难度。如果真的这么做了,那么设计师就不仅在测试所期望的行为,而且还在测试其它不相关的行为。即使是一道普通的练习题,这样出题也不合适。学习者越不熟悉所举的例子、题型、答卷格式和考试管理流程,就越难通过考试。这种人为制造困难的一个典型例子就是编造一个不熟悉的环境下发生的问题。问题发生的情境,无论是海滩、商店、还是学校,办公室,都应该是目标人群所熟悉的,学习者对熟悉的话题比不熟悉的话题能更好地展示其技能。如果一个题目出得不必要得难,就可能会损害对问题中所要评测行为的精确测定。
设计师在出考试题和评测任务的时候还要注意性别问题和多元文化问题。题文如果出现偏见或在统计上出现对某组人的冒犯不仅是不合适的,也是不道德的。最后,设计师还要考虑如何帮助学习者对自己进行评估,自我评估和自我改造是所有教学的两大主要目的,因为这会导致自主学习。
以环境为中心的原则 在出考试题和评估任务的时候,设计师还必须要考虑到最终的应用环境,以及学习环境或课堂环境。考试题和任务对实际应用环境来说应该尽可能地真实、可信。这类原则可以促进知识和技能从学习环境向应用环境迁移。
另外还要考虑学习环境的设施和资源,有时候学习环境不能提供精确模拟应用条件所必需的设备,设计师必须创造性地提供与现实尽可能接近的条件。考试环境越真实,学习者的回答也就越可信。例如,如果行为是要求在一个观众面前做表演,那么考试的时候就必须要有一个观众在场。
以评测为中心的原则 学习者在考试的时候可能会紧张,但是结构良好、专业编制的考试题和评测任务会让考试变得更为轻松。考试题的编写质量包括正确语法、正确拼写和标点,简洁明确的答题指示、资源材料和题目等。
为了确保题目和任务清楚,减轻学习者的考试紧张感,在学习者答题之前应该为学习者提供他们解题所必需的所有信息。理想的情况是,学习者阅读问题和做题说明,在头脑中形成答案,然后给出回答,或者在一串选项中挑出答案。
那些故意绕学习者的题目并不是在评测教学目标中说明的技能,设计师应该花时间编制好的模拟题目,而不是发明这些偏题、怪题。如果教学目标是确定学习者完成技能的程度,那么提供一系列由易到难的题目,比出一、两道难题(如,双重否定,误导信息,嵌套问题,不完整信息等)更能测出学习者的实际水平。
对于各种类型的客观题、作品和行为的操作指示以及评判标准该怎么写,还有很多规则,这些规则多是为了尽可能地产生最清楚的题目和评测任务而提出的。学习者应该因为不具有某项技能而出错,但不应该因为考试题目太绕或太混乱而丢分。不熟悉考题和做题说明编写原则的设计师应该去看一些有关标准参照测量的书籍,上面会有关于各种评测格式的书写原则。
确定掌握标准
在编制试卷的时候,总是要问这个问题:“为了确定一个目标是否掌握了需要出几道题?”,学习者必须要答对多少道题才算成功地完成了这个目标?如果学习者答对了一道题,你是否可以说他们达到了目标?或者,如果他们做错了一道题,你是否能确定他们就没有掌握这个概念?如果你为每个目标出了十道题,学习者全做对了或全做错了,恐怕也只有在这种情况下你才能很确定地给出评测的结论。关于一个目标需要出几道题,有一些经验数据。如果考试题的回答形式允许学习者猜测,那么你对同一个目标最好出几道同类的题,如果猜对的几率很小,那么出一两道题就足以判断学习者是否具有完成该技能的能力。
如果从教学目标的学习类型方面来考虑每个目标要出的题目数目,可能会比较容易地做出判断。一般来说,要评估智慧技能,需要三次以上的机会来证实是否具有该技能,对于言语信息,从记忆中检索特定的信息只要一道题就够了。但是如果信息对象内容很多(如,确定州府),那么设计师就必须从中随机挑选几个实例,并假定学习者的表现就代表着这个要掌握的言语信息对象的掌握比例。在心智运动技能情况下,经常也只有一种方式测试技能,即要学习者在考官面前完成该技能。有时候教学目标可能还会要求学习者在不同的条件下完成该技能,这可以表示为重复该心智运动技能。
题型
在出考试题的时候另一个需要考虑的重要问题是:“哪种类型的考试题或评测任务最能测出学习者的表现?”目标中说明的行为为确定评测该行为的试题类型提供了线索。表7.1中最左边一列列出了行为目标中说明的行为的类型,表的第一行给出了可以用来评测学习者表现的考题题型。这个表只是提供一些建议,说明目标的特点如何决定了最合适的评测类型。
表7.1行为类型和相关的题目类型
考题类型
目标中的行为类型
简答题
填空题
完型填空题
多选题
匹配题
作品核查表
现场表现核查表
说明
(
(
确定
(
(
(
(
讨论
(
(
定义
(
(
选择
(
(
区分
(
(
解决
(
(
(
(
(
开发
(
(
(
定位
(
(
(
(
(
(
构造
(
(
(
(
(
产生
(
(
(
(
操作/运行
(
选择(态度)
(
(
(
正如图上所显示的,有些类型的行为可以有多种评测方式,有些考题类型比其它类型更适合考某类行为。例如,如果认为学习者记住某个事实很重要,那么要求他们说出这个事实,比要他们从多项选择题中选择更好。应该以教学目标为指南,选择那些能够给学习者提供更好的机会来展示目标中所要求的行为的题型。在选择最佳考试题型的时候还要考虑一些其他因素,因为每类考试题都有它的优点和局限。为了从那些可用的题型中挑选出最佳题型,还可以考虑下列一些因素:学习者答题所需要的时间、批改所需要的时间,考试环境和猜中正确答案的机率。
有些题目形式虽然能加速考试过程,但是并不合适采用,比如为了判断学习者是否知道某个术语的正确定义而采用真/假判断题,如果要学习者做这样的选择,那么学习者就不是在定义术语,而是在将题目中的定义与教学中所学的定义进行比较。真/假判断题不是该目标中所说明行为最合适的评测形式,何况真/假判断题猜对答案的几率又在50%。
可以将考试题从最佳评测题型转变为需要最少做题时间或最少批改时间的题型,但是改变后的题型仍旧要提供学习者展示目标中要求的行为的机会。因为在教学实施的时候,很重要的一点是教师要能使用这个评价过程,所以设计师在开发教学的时候可以用某一种题型,然后在教学准备被广泛采用的时候再提供更多的题型。
考试环境也是影响题型选择的重要因素。考试环境下有哪些可用的设备和设施?学习者是否能在目标中说明的条件下实际完成一个技能?如果没有设备或设施,是否可以用纸和笔或其他形式来构造对现实的模拟?如果不可能模拟,像这样的问题“列出你要做 所采取的步骤”是否对你的情境是适当的、可用的?考试题中评测的行为与目标中陈述的行为相差越远,就越不可能精确地判断学习者是否能够完成所希望的行为。有时候目标中描述的行为是不可能被评估的,这样就必须采用其它的方式,这也是在开发教学策略时需要做出的重要考虑。
题目排序
在智慧技能或言语信息的考试中,题目顺序的排放没有硬性的规定,也没有什么快速法则,但是有一些关于排放的建议,最终的决定还是要基于考试的环境和要评测的行为。
对于需要人工判分并分析每个目标答题情况的设计师来说,典型的排序策略是将同一个目标的题目放在一起,而不管题目的形式。对于这种策略只有一种类型的题目可能是例外,那就是答题内容比较长的论述题,这种类型的题目一般放在考试的最后,便于学习者在考试时管理他们的时间。这种形式组织的考试题可能不如按题目类型组织的试卷那么齐整,但是这种组织方式无论是对学习者还是对教师都是最为方便的,因为它使学习者能够在某个时刻集中于某个方面的信息和技能,也使得教师不用先对数据重新排序就能够按照教学目标来分析个体或小组的表现。
编写答题指示
考试卷应该提供清楚简洁的答题指示。学习者在考试的时候往往都很紧张,因为会依据考试成绩来评判学习者,所以学习者要非常清楚地知道考试的时候应该怎么做。一般来说,整张考试卷要有一个答题指示,当题型发生变化的时候,每个部分也要有该部分的答题指示。
不同的做题环境可能需要不同的答题指示,不过下面这些种类的信息通常都会出现在答题指示中:
考试题目要说明评测的内容范围,而不是简单地写一个“测验”或“考试一”。
简要说明要求评测的教学目标或行为,以及每个正确答案的分值
告诉学习者如果不知道答案是否可以猜测
答题指示还要说明学习者写错字要不要扣分
告诉学习者答卷上是写他们的名字,还是只写小组名即可
要说明考试的时间限制,答题字数限制和可用空间大小。此外,还要告诉学习者他们是否要用特定工具答题,比如2号铅笔,使用机读答题卡,特殊文字,特殊设备,如计算器或地图等。
编写清楚简洁的答题指示并不容易,对你来说清楚的事情对其他人来说可能并不清楚。在写出答题指示后,要仔细修改,以确保学习者得到了正确完成考试所需要的所有信息。
评估试卷和试题
答题指示和每个目标的考试题在实际用来评价学习者的表现之前都要进行形成性评价。因为一道考试题对于出题者来说可能是十分清楚的,但是对于答题者来说可能却是混乱不清的。 考试的时候很多环节都可能出错,设计师要确保:(1)答题指示清楚,简单,容易照着做,(2)每个考试题都很清楚,并且含有对学习者刺激的信息,(3)答题条件是现实可行的,(4)答题方式学习者很清楚,(5)有学习者答题所需的答题空间、时间和设备。
在出完考试题之后,设计师应该请一个学习者或某个人(不是实际目标组的人)来大声地解释做题指示和考试题,并且按照答题格式要求回答每个问题。在构造考试卷的时候,设计师可能不知不觉地产生了一些错误,这种对考试的初步审核可以减轻学习者的焦虑,少浪费学习者和教师的时间,避免无效的考试结果。即使是题目编号写错了这样的小错误也会造成答卷混乱,难以解释考试的结果。类似地,象不清楚的做题指示、令人糊涂的举例或问题,以及那些对于考试对象来说太难的词汇也都可能造成同样的问题。请一个人,最好是几个人,对考试卷进行初步审核,这可以有助于发现试卷的缺点和每道题应该修改的地方。
考试之后,设计师还要评估每道题的清晰度,对于大多数学习者都没有做对的题目更要仔细分析。这样的问题也许并没能测定出学习者的表现,但是说明了在题目中、或者做题指示中或者在教学中可能存在着不合适的地方。受到怀疑的题目一定要在再次使用之前进行分析和修改。
如果设计师必须要在同一时刻或者在很短的时间跨度内(一天或一周内)对不同组的学习者评测同一目标,那么还必须要考虑考试答卷的诚实性和一致性,设计师必须要准备多套后测考试卷。除了前测考卷之外,一般来说还要准备五、六套后测考试卷。
在编写考试题或考试卷的时候,设计师必须要牢记,考试可以测定以下内容是否适当:(1)考试本身(2)答卷格式,(3)教学材料,(4)教学环境和情境,以及(5)学习者的成就。
这里讨论的所有建议都可以用在标准参照考试卷的开发中,如果你不是一个熟练的出题专家,也许想多看几本有关试题构造的参考书。本章后面列出一些测试技术方面的参考资料。
开发测量行为表现、作品和态度的量表
开发测定学习者行为表现和作品的量表并不是要出考试题,而是要写指导学习者活动的说明,构造一个评分标准来指导对行为表现或作品的评价。
许多复杂的智慧技能都既有过程目标也有作品目标。例如,考虑采用本教材的一门课程,教学目的可以是:“用教学设计过程来设计、开发和评估一个一小时的自学材料”。学习者可能被要求纪录教学设计过程的每一步,产生一些教学材料。教师可以通过审查学习者关于如何使用教学设计过程的报告和他们的中间产品,如教学分析和行为目标来评价这个过程。为了评估该过程的每一步还要使用等级量表,对于所产生的教学的评价要用另外一种量表。
显然,在某些情况下,过程是主要输出,很少考虑作品,认为只要重复这个过程,产品就会不断得到改进。但是在其它的一些情况下,产品或结果可能是最重要的,学习者所采用的过程倒并不重要。作为设计师,你必须既能开发出传统的考试题,也要能开发出其他创新的评估方式,如观察表格、等级打分评价方式等。在这一节里,要介绍一些开发这样的量表所使用的方法。
编写操作说明 指导学习者行为表现和作品的指示要清楚地说明学习者要做什么、怎么做,要说明所需要的特殊条件,如资源和时间限制。在编写操作说明时,还要考虑要提供的指示的多寡。一般来说,操作说明要能够提醒学习者做一些特定的步骤,并告诉他们将要用来评估他们工作的标准。在象写一篇研究报告或做一个讲演这样的例子中,被测试者应该得到一份评估核查表或用来评判他们工作的评分表,这些资料应该是操作说明的一部分;但是在另外的场合(如要回答一个论述题,或换轮胎),提供这样的指示就违背了考试的宗旨。你可以用来决定指示数量多寡合适的因素包括:要评测的技能特点,技能的复杂性,目标学习者的思辨水平,以及在环境分析中所确定的技能要迁移到的应用环境的特点。
测试态度的说明与测定行为和作品的说明不同,为了精确测定态度,重要的是被测试者要能够感到自己是“自由地”根据自己的态度来选择行为的,那些知道自己被人观察的测试者是不太可能展示出反映他们态度的行为的。
但是在许多工作场合偷偷摸摸地观察雇员会引发很多问题。在雇员和雇主之间经常会就谁被评估、谁能做评估、评估什么、雇员是否要被事先通知、数据会怎么被使用等方面签署协议。即使有这些可以理解的条件限制,有时候也还是可以通过计划和事先协议来创建一个环境,在其间可以对态度进行合理地评估。
开发量表 除了为学习者编写操作说明之外,你还需要开发一个评分表格来指导对行为表现、作品或态度的评估。开发这样的量表要经历五个步骤:
确定要评估的要素
重新表述每个要素
在量表中安排各要素的顺序
选择评估人员要做的判断类型
决定量表如何计分
确定、表述和顺序化量表要素 与考试题类似,要评判的要素直接取自行为目标中的行为。这些要素的类型包括作品或行为的物理形态方面、作品或行为的用途,作品和行为的美感等等。你要保证所选择的要素实际是可以从行为或作品中观察到的。
每个要素都要在量表中重新表述。因为观察和打分的时间有限,特别在观察现场表演时更是如此。过长的描述,象教学目标中的那些描述,会妨碍评估过程。一般来说只要用一两个词组,表示过程的步骤、产品、行为的某些方面,从而达到与评估者沟通的目的即可。在表述的时候,还要注意每个词表述方式的一致性,这样评估者给“是”就表示是正面输出,“否”就为负面输出。请看下面这个关于口头讲演的例子:
不正确
是
否
正确
是
否
1.不能维持视觉接触
1.保持视觉接触
2.有“嗯啊”停顿
2.防止“嗯啊”停顿
3.忘了想法
3.能记住想法
在表达不正确的例子中,行为的表述混淆了正面和负面的输出,这会很难计分。在表达正确的列表中,这些项的措辞做到了:“是”表示正面评判,“否”表示否定评判,这种一致性便于累计“是”项,从而得到行为或作品质量的总得分。
在确定了要素表述之后,下一步就是安排要素在量表中的顺序。要素的顺序应该与事件发生的自然顺序一致,如果有这样的顺序的话。例如,一篇短文或段落的评估核查表要包括这些内容,首先是引言,其次是立论观点,最后是结论。换轮胎的时间顺序也会被用来作为其核查表中各步骤的顺序。银行柜员行为的最有效的顺序毫无疑问是先与顾客打招呼,处理业务,最后结束交易。一般来说,目的分析得到的顺序可以用来建议各评判要素的顺序。
设计评判格式 开发测量行为表现、作品或态度量表的第四个活动是决定评估人员会怎样做出评价,会怎么记录评价。评估人员常用的评估量表至少有三种:核查表(如,是或否)、记录不同质量等级的等级量表(如,差、中、好)、记录每个要素出现次数的频数计数表,或者是上述表格的混合。要确定最佳的评估格式需要考虑下面几个因素:(1)所观察要素和复杂度,(2)观察时间、判断时间和记录判断的时间,(3)评估人员做出评判的准确性或一致性;(4)向被考者提供的反馈的质量
核查表 三种评判量表中最基本的是核查表。如果你选择采用核查表,你可以很容易就完成你的评估量表:在每个要被观察的已经表述好的并且顺序化的要素旁边增加两列,一列用来在每个要素出现时标记“是”,另一列为“否”,表示要素没有出现或者表现不充分。核查表的好处是包含了许多不同的要素,这些要素可以在给定的时间内由评估人员以可能完成的速度完成观察,可以保证所做评价的一致性或可靠性,便于获得整个行为的分数。核查表的一个不足是没有信息说明为什么会出现不做判断的情况。
等级量表 如果存在着不同的质量等级,核查表就可以通过增加每个要素的质量等级数目而转换为一个等级量表。等级量表不是用两列来为一个元素计分,而是至少使用三列,这三列包括“不出现(0)”、“出现(1)”和“好(2)”,或者“差(0)”、“中(1)”、“好(2)”。是将(0)或(1)作为最低档取决于是否所判断的要素可以完全从作品或行为中忽略,例如,某种程度的视觉接触会出现在讲演报告中,最低级别应该是1,但是一个段落,可能完全没有结束语句,那么在这种情况下就应该得0分,计分档次的确定取决于要判断的要素的特点。
类似于核查表,等级量表有好的一面也有不好的一面。从好的一面来看,它们可以分析评价行为表演或作品的子成分。对于被评估者来说,等级量表比核查表提供了更多关于他们的行为质量方面的信息。从不好的一面来说,等级量表使用起来比较费时间,因为要对所评价的每个要素的质量做更细的区分。另外,它们所提供的分数的可靠性也不如核查表,特别是当包含了较多的质量级别时,这一方面是可能没有时间进行区分,另一方面也很难保证评分的一致性。试想如果有一个等级量表每个要素有10个不同的质量级别,那么等级3和4或者等级6和7的区别该如何精确定义?要评估的维度太多必然给评估人员以及评估人员之间的评判造成不一致。
在开发等级量表时有两种策略可以帮助产生更可靠的等级评定,第一条策略是为每个质量水平提供一个清楚的言语描述。不是简单地用数字表示类别,也不是用“(1)差,(2)中,(3)好”这样的一般性描述,而是用更精确的语言描述每个质量层次的评判标准,请看下面的例子,这是一个关于段落中主题句的例子:
一般性的
无
差
中
好
1.主题句…
0
1
2
3
改进后的
没有
太宽泛/窄
正确描述
正确描述且有重要价值
1.主题句…
0
1
2
3
上面这两个计分表都要做四个判断,最上面的计分表虽然对每个计分等级也有语言描述,但是对于什么样的主题句是差的、中等的或好的并没说清楚。下面的计分表则对每个等级的评判标准都定义得很清楚。一般来说,每个质量级别的评判标准定义得越清楚,就越可能量化所要判断的要素的质量。
开发高质量等级量表的第二个策略是限制每个量表中分级的数目。并没有规定所有要判断的要素一定要有同样数量的质量等级,如都是4点或都是5点。分级的数目应该由要判断的要素的复杂性以及评判所需的时间来决定。考虑下面两个来自段落例子的要素。
是(1)
否(0)
1.有缩进
1.有缩进
0
1
2
3
2.主题句
2.主题句
0
1
2
3
在左边的核查表中,每个元素都可以因此而很可靠地测定,但是看右边的等级量表,你会立即发现问题:缩进段落和写主题句在技能复杂性方面是截然不同的,试想想如何才能为段落缩进分四个不同档次!正如前面的例子指出的那样,主题句的质量分成四个档次是合理的。
决定每个要素的等级应有多少合适的一个办法是确保每个数字或每个级别都与特定的考评标准对应,如果你用完了所有的考评标准,就说明你已经得到了可以进行一致性判断的所有级别。
频度计数表 评估人员所使用的可以给作品、行为和态度计分的第三种评定表是频度计数表。如果要观察的要素在行为表现期间或在作品中会重复多次,不管是好还是坏,都需要用频度计数表。例如,在一个作品中,如写报告,其中同类优点或错误可能会多次出现;在网球比赛中,也会有多次发球,有时候有效,有时候无效。在给行为打分的时候,比如对银行柜员所展示的行为,该柜员可能在不同的日子在为很多不同的顾客服务时被观察记录,因此该柜员所展示的好的行为或不好的行为都应该不分日子和顾客进行统计。
频度计数量表可以简单地通过在每个要素旁边加一空白区域来创建,在此空白区域计数出现的次数。与核查表类似,构造频度计数量表最大的难处在于确定要被观察的要素和安排它们的顺序。
计分过程 创建量表测定作品、行为或态度的最后活动是决定量表该如何计分。与纸-笔考试一样,你既需要每个目标的得分,也需要总分。核查表是三种量表中最容易计分的,将与目标相关的所有要素的“是”选项加起来即得到该目标的分数,将整个量表中所有“是”选项加起来就得到了该被评估者在教学目的上的总得分。
从等级量表获得某教学目标的分数是将与该目标相关的每个要素所得的数字相加,被评估者在整个教学目的上的得分为量表中所有要素的得分值之和。
与客观考试、核查表和等级量表不同,为频度计数量表决定适当的计分过程往往是一种挑战。可用的最佳过程依环境而不同,取决于要测定的技能或态度,以及测试环境。例如,如果要计数教师在教室里的交流行为或销售人员的交互行为,你所要观察的行为有些在评估的时候会出现,有些并不会出现。在这种情况下你就必须要决定行为不出现应作否定处理还是应算作自然现象。在另外的场合,比如打网球,你会有很多机会观察一个要素,如发球局,很容易地就能数出首发球、踩线和无效发球的数目,也很容易就能算出一个球员的总发球数,并计算出其中首发成功、踩线和无效发球的比率。一旦算出这些数据,你还需要决定如何用这些信息来得到网球发球教学目的的分数。
不管你决定怎么为频度计数表计分,重要的是在量表开发过程中你要考虑该量表会如何计分,要能够将一种计分方式的结果与另一种计分方式的结果进行比较。你所确定的量表计分方式可能会要求修改可观察的元素列表,因此计分过程应该在对学习者的表现实际计数之前就确定。如果对一个频度计数量表找不到简单的计分过程,你就需要重新考虑是否应该使用核查表、等级量表,或是两者的结合来代替。
学习档案评估
学习档案是反映学习者学习成效的标准参照评测样品的汇集。这些评测既包括展示学习者从前测到后测进步情况的客观题型的考试,也包括学习者在教学中制作的作品或现场表演。学习档案还可以包括有关学习者对所学内容和教学情况态度方面的评定。
学习档案评估(portfolio assessment)定义为对所收集的反映学习者可观察的变化或发展的学习样品进行元评估的过程。客观题型的考试可以测定学习者从前测到后测期间成长变化的情况,作品和行为表现也可以通过对学习者进展的跟踪来比较。
高质量的学习档案评估具有以下几个特点。第一,学习样品必须基于特定的教学目的和绩效目标。第二,学习样品必须是在教学过程中收集的标准参照评测,它们是常规的前测和后测,考试形式不限。一般来说不会为档案评估专门设计考试。第三,每个常规评测都有评分标准,以及每个学习者的答卷和得分,它们指出了学习者在这次考试中做得好的地方和存在的问题。将这些学习样品收集在一起,并按照一定顺序排列后,评估人员就可以开始进行评价学习者成长的评估过程了。
成长评价分两级完成,第一级是学习者的自我评价,这也是学习者为中心评价运动的原则之一。学习者审查他们自己的材料,包括考试分数、作品、行为表现和评分标准。他们写下自己对材料中的优点和问题的看法,还要说明应该怎么做来改进材料。然后是教师审查这些材料,教师先不看学习者自己的评价,只纪录自己的评判。在教师完成评价之后,教师和学习者一起比较两者所做的评价,讨论两者之间的区别。面谈结束的成果之一就是要一起计划下面学习者该怎么做才能提高学习的质量。
档案评估并不是对所有的教学都合适,因为它很花时间也很昂贵。教学本身就是很花时间的,因为学习者需要时间来练习和熟练技能,然后教学才能产生评估所需要的作品或行为。
教学设计方面的课程比较适合采用档案评估,因为在几个月的跨度内学习者要开发和细化好几个产品。学习者创建的产品包括教学目的、教学分析、学习者分析和环境分析、绩效目标、评测量表和评测过程、教学策略、教学材料集等等,经常还会有对材料的形成性评价结果,对教学优点的介绍和对存在问题的改进意见。在设计和开发过程中,要采用某个评分标准为过程中的每个元素计分。在课程结束的时候,就可以用该评分标准对所有材料进行元评估。经常在这个时候,学习者会说:“如果我当时就知道我现在知道的这些该有多好!”
评估设计过程的一致性
在教学设计的系统化方法中,一个步骤的输出是下一个步骤的输入。也正因为如此,每过一段时间就要停下来,审查一下所产生的结果在从一个步骤到另一个步骤的过程中是否始终保持一致。
在设计过程的这个时刻,教学目的已经分析了,从属技能已经确定了,学习者和环境也分析过了,写出了教学目标,开发了评测量表。因为这些技能、目标和评测都是围绕同样的技能集的,所以需要仔细地审核以保持一致性。
为了在教学设计过程的这个时刻更好地评估这些材料的一致性,你应该如何组织和呈现这些材料呢?一条原则是将每个阶段的成果都建立在前面阶段的产出之上,这样你就可以比较设计中的不同成分。设计师最好能一眼就看出各成分是否对应、是否适当。要做到这一点,其中一个方法就是将这些材料中相关的成分放在一起,如表7.2,表中的每个成分为教学分析得到的技能、绩效目标和考试样例。最后一行是教学目的、学期目标和为学期目标出的考试题。评估人员一眼就能看出考试题是否能让学习者证明其掌握了目标。
表7.2 设计评估表的结构
子技能
绩效目标
评测样例
1
目标1
考试题
2
目标2
考试题
3
目标3
考试题
教学目的
学期目标
考试题
注意你必须为学期目标编写考试题。想想当有人问你学习者如何证实他们已经达到了你的教学目的时你会怎么回答。你会要求学习者做什么来证明他们已经达到了掌握水平呢?对于这个问题的回答,也就是要你描述一个考试,要求学习者成功地运用教学目的中的主要步骤。通常会对过程中的每个步骤分别评测,这样就可以判断,随着教学的进行,学习者是否掌握了所教的每一步。
表7.3根据表7.2的材料类型要求给出了一个具体的实例,你可以检查表7.3中这三个成分所要求的行为是否是对应的,另外,再看看目标中陈述的原则,确定考试题是否能让学习者满足此要求。
设计评估表中子技能的出现顺序也很重要。如果你将它们按照你所认为的教的顺序排列,而评审人也很关心你用来安排技能和教学呈现顺序的逻辑的话,那么你就有可能从评审人那里得到更多的反馈。这些额外的反馈可能会节省日后重写材料或重新组织材料而需要完成的步骤。下一章会详细谈到技能的排序问题。
另外一种向内容专家和其他评估专家展示你所确定的从属技能之间关系的方法是同时提供教学分析流图,所有题目都按照分析流图中子技能的编号索引。这个流图可以用来和你的设计评估表一起清楚地呈现你的内容分析和设计。
在你收到了有关你的设计合适程度的反馈,并对你的框架做了适当地修改后,你就具备了在模型的下一阶段(即开发教学策略)开始工作时所需要的输入。在此时,一个良好的、经过仔细分析的设计,会有助于你完成教学设计过程中后续步骤的工作。
表7.3设计评估表的例子
技能
绩效目标
考试题
1.写出将码转换为米的公式
1.根据记忆,正确写出将码转换为米的公式
1.在下面的空白处,写出将码转换为米的公式。
2.将码转换为米
2.给定不同的以码为单位的长度,将码转换为米,保留一位小数
2.5码 = 米 7.5码 = 米 15码 = 米
示例
在你审查考试题的时候,你可以使用本章前面所讨论的四类原则,这可以有助于你关注题目的具体方面。这些原则包括:(1)以目标为中心的原则,要求考试题和绩效目标中所陈述的条件、行为和评判标准相一致;(2)以学生为中心的原则,涉及诸如学习者的词汇量、兴趣、经验和需求等方面;(3)以环境为中心的原则,包括最终应用环境和学习环境的特征,和(4)以评估为中心的原则,包括题目的清晰度。表7.4为包含这些原则的一个核查表,你在学习这节的例题时,在创建你自己的考试题时,或者在修改你所编写的题目时都可以使用这个核查表。
表7.4 评价考试题的核查表
是
否
核查标准
I. 目标—题目一致性:考试题目中的内容与下面各项一致吗?
1.目标中说明的条件?
2.目标中说明的行为?
3.目标中的概念或内容?
4.目标中说明的评判标准
II. 学习者—题目一致性:对于指定的学习者,考试题目从下面几方面来看是否合适?
1.词汇和句子结构复杂度适中?
2.熟悉题目背景、所举例子和场景?
3.熟悉考试形式或其他所需设备?
4.没有带有偏见的内容(如关于性别、文化、政治等)?
III. 环境—题目一致性:考试题中所需要的行为真实吗?
1.在学习环境下?
2.在应用环境下?
IV. 清晰度:考试题中所呈现的材料
1.没有病句和错别字?
2.表达清楚?
3.关键术语和概念用词准确
4.直接,易懂
言语信息和智慧技能的考试题
表7.5中重复给出了表6.2(教学目的:“引导旨在解决问题的小组讨论”:第6步:“管理小组协作交流”)中的行为目标。由于空间有限,这里只包含了目标6.1.1到6.5.1,并为每个目标出了一道或多道考试题。在你读这些考试题的时候,首先要体会考试题是如何从条件、行为和评判标准三方面与绩效目标对应的,题目中的关键词汇都采用特殊字体突出表示,以引起学习者注意。其次,要审核这些题目对于第五章所描述的NCW领导人是否合适。第三,还要审核这些题目在第五章所描述的学习环境和应用环境是否适合使用,在表7.5的最后是对主步骤6在学习环境和应用环境下的评测,你可以以此来审核这条原则。在后测的时候,学习者在引导小组讨论时要被观察,评估人员会使用观察表在每个地点记录领导人所展示的行为,统计每个行为发生的频数。最后,审查每道题目的清晰程度。注意体会言语信息题目和智慧技能题目在做题复杂性方面的差异。
表7.5 为表6.2(教学目的:引导旨在解决问题的小组讨论)中确定的言语信息和智慧技能绩效目标所出的考试题
从属技能的绩效目标
对应的考试题
6.1.1 当被要求口述或写出促进协作交流的成员行为时,说出这些行为。至少要说出六种促进行为。
1.请列出在NCW会议期间你和与会成员为促进小组协作交流而采取的正确行为。(答题线画9条,可以填写9个答案)
6.1.2当被要求口述或写出在他们的观点被小组质疑时应采取的行为时,说出这些能促进小组协作交流的正面行为。至少要说出三种可能的行为。
1.假设你在一次NCW会议上提出了一个新想法,并且遭到了置疑,为了促进小组协作交流你将采取哪些正确行为?(答题线画4条,可以填写4个答案)
6.2.1给定小组成员在开会时的行为描述,指出这些行为是否为协作行为,正确区分率要超过80%。
1.阅读图1中画出的NCW会议的对话,每当NCW的领导人或其成员表现出一种合作行为时,就在该句话所在行做一个(标记
6.2.2给定NCW开会时的分段录像,指出这些行为是否为协作行为,正确区分率要超过80%。
(读者注意:本录像带和答题纸都在NCW培训网站上考试练习一节。)
做题指示
技能:将NCW领导人及其成员的协作行为分类。 点击屏幕左边的视频播放(Video)按钮,从出现的对话框中选择Video1,然后:
(a) 选中Video1的答题纸,并打印(b) 认真了解答题纸结构,阅读如何标记答案的指示说明(c) 在屏幕上找到Video1的标题按钮,如果已经准备好开始考试了,就点击该按钮(d) 考完之后(在打分过程中你可以看两遍录像),点击视频菜单中“Video1答案”标题(e) 将你的答卷与“Video1答案”比较,注意其中的差别(f) 在你的答卷上记下这些差别,下次在培训中心上课时要带上此答卷
6.3.1 当被要求写出领导人促进或抑制成员讨论和协作的行为时,说出这些行为,学习者至少要列举出10种鼓励行为和对应的抑制行为。
请列出12种你作为NCW领导人为影响成员在NCW 会议上的交流而采取的促进行为及对应的抑制行为。(做一个两列的答题格式,每列12行,列标题写上“正确行为”和“抑制行为”)
6.4.1 给定小组领导人在会议期间的行为描述,指出这些行为是否可能鼓励或抑制小组协作交流,对于给定的行为,学习者要能正确区分其中的80%。
1.阅读图2中画出的NCW会议的对话,每当NCW的领导人或其成员表现出一种鼓励他人合作的行为时,就在该句话所在行的左边做一个(标记,每当NCW的领导人或其成员表现出一种抑制他人合作的行为时,就在该句话所在行的右边做一个(标记。
6.4.2给定NCW开会时领导人行为的分段录像,指出领导人的这些行为是否可能鼓励或抑制成员间的协作交流,无论是鼓励行为还是抑制行为,学习者都要能正确区分其中的80%。
(读者注意:本录像带和答题纸都在NCW培训网站上考试练习一节。)
做题指示
技能:将NCW领导人鼓励或抑制成员协作的行为分类。
(a) 选中“答题纸2”,并打印(b) 认真了解答题纸结构,阅读如何标记答案的指示说明(c) 在屏幕上找到Video2的标题按钮,如果已经准备好开始考试了,就点击该按钮(d) 考完之后(在打分过程中你可以看两遍录像),点击视频菜单中“Video2答案”标题(e) 将你的答卷与“Video2答案”比较,注意其中的差别(f) 在你的答卷上记下这些差别,下次在培训中心上课时要带上此答卷
6.5.1在模拟NCW问题解决会议上,学习者扮演小组领导人,做出促进成员间协作的行为。在讨论过程中,小组成员彼此之间以及与领导人之间都能友好合作。
做题指示:
技能:促进成员之间的协作行为
在今天的NCW会议上,你将扮演30分钟的领导人角色。在会议期间,一个成员(教师)会提出一个以前小组中没有讨论过的问题,你要引导小组讨论这个问题,并在小组成员面前展示你认为能够促进小组成员协作参与的行为。无论你对你的行为或他人的行为有何问题,都要等到30分钟结束后才能向教师或其他成员提出。
主要步骤的绩效目标
观察频度计数量表说明
6.在由NCW新的受训领导人参加的、在县政府培训中心举行的邻里犯罪监控组织(NCW)的模拟会议上,管理小组协作交流。与会者自由参与、自觉贡献,完全配合领导人和其他人员。
在实际的邻里犯罪监控组织(NCW)的会议上(会议一般在居民家里或社区活动中心举行),引导旨在解决社区现有犯罪问题的小组讨论。
下面的分类用于第6步:在学习环境下以及应用环境下管理小组协作交流。
A. 所展示的促进行为 频度1. 2. (等)
B. 所展示的调解行为 频度1. 2. (等)
C. 所展示的压力缓解行为 频度1. 2. (等)
D.协作小组交流的总体质量评级
较少 1 2 3 4 5 很好
评估运动技能的核查表
为了测定运动技能的表现,你需要执行该行为的指示和一张用来记录行为评语的评分表。这里所给出的例子基于表6.3中包含的换汽车轮胎的绩效目标。
给被考试者的考试指示见表7.6。该指示与表6.3中的学期目标稍有不同。从考试的角度来说,汽车未必一定要有瘪胎,学习者只要换好考官指定的任何轮胎即可。试想想要评测15个到20个学习者换轮胎技能,如果要求每人都从有瘪胎的汽车开始考试,准备起来该有多麻烦。该指示中还有一些信息是从管理考试的角度制订的,比如要求学习者将所有工具、设备和零件放回原处,这不仅是为了让考生知道该如何完成这些任务,也是为了确保设备和汽车可以用于下一位考试。
指示中还告诉了考生其表现会如何被评分。这些指示告诉考生为了得分,他们必须:(1)记住所有步骤,(2)使用合适的工具完成任务,(3)正确使用每个工具,(4)在完成每一步的时候始终要有安全意识。根据这些信息,考生就知道如果某步不能满足这四条要求之一,这一步就不能得分。他们还被告知可能在考试过程中会被随时叫停。知道会发生这种事情,为什么发生,发生的后果,这样当考试中被叫停的时候就不会太担心。
表7.6 心智运动技能考试指示(换轮胎)
使用汽车后备箱中提供的工具,卸下教师指定的轮胎,换上备用胎。当你做完了以下工作之后,考试就结束了:(1)将汽车恢复到安全驾驶的条件,(2)将所有工具放回后备箱中应放的地方,(3)将换下的轮胎放到汽车后备胎存放的地方,(4)将考试中搬动过的一些在轮子上或者后备箱中的物什放回原处。
你在每一步的表现都会被按照以下三项标准打分。首先要记得完成每一步,其次每一步都能用合适的工具恰当地完成,第三是每一步都很注意安全。出于安全原因,监考人员可能会随时喊停,并要求你(1)完成你忘记的步骤,(2)改换工具使用方式,或改用其他工具,(3)重复没有安全完成的步骤。如果出现这种情况,这一步你就不能得分。但是此后正确完成的步骤仍旧得分。
表7.7中给出了用来评估该行为的核查表的一部分,这里只是详细解释了第2步:举起汽车。注意第二步中的主要标题与目的分析(图4.15)中的步骤以及表6.3中绩效目标的编号一致。表6.3中每个目标的评判标准在此重新表述后用字母编号形成核查表。为了便于评估人员纪录,增加了两列。
开发量表的下一步是决定如何统计学习者的得分。这里做出的决定是不仅要算每个主要步骤(如举起汽车)的得分,也要算整个考试的总得分。为了方便计分,在每个主步骤的左边都留有空格,每个主步骤如第二步可能得到的总点数写在空格下面的括号中,每个学习者在该步骤所得的点数就是该步骤中“是”列X的数目,这个值写在主步骤如第2步左边的空白处。例如,你可以看到这个学习者在第2步得了13分中的11分。将每个主步骤左边列的点数相加就得到了考试的总分,这个分数可以写在表格上方姓名之后。整个考试的满分点数写在得分下面的括号中。
最后还有一个观察决定要做,评估人员需要决定如果没有调整汽车或千斤顶该如何给2.2.b和2.3.c计分,一个策略是在不必做的步骤对应的列上也打X,因为如果空着该空格或者在“否”列上做标记,都表示是学习者做错了,而实际情况不是这样。
表7.7 评估心智运动技能的部分核查表(换轮胎)
姓名: Karen Hacuser 日期: 6-12 得分: ( )
( )
1.得到备用胎和工具
11 ( 13 )
2.举起汽车
是
否
2.1 检查千斤顶操作 a. 安全地固定把手 b. 摇动把手将千斤顶举起来 c. 松下安全钩,降低千斤顶
(((
______
2.2 固定千斤顶 a. 检查汽车停放是否稳定 b. 如果需要,重新停车 c. 确定千斤顶与车架的接触点 d. 将千斤顶放在适当地方
((((
________
2.3 固定千斤顶 a. 摇动把手使千斤顶接触车架 b. 看看接触得好不好 c. 如果需要,调整千斤顶的位置
(____
__((
2.4 在轮子旁边设置障碍块 a. 选择适当的障碍块 b. 将障碍块放到轮子之前 c. 将障碍块放到轮子之后
(((
______
( )
3.卸下轮胎
( )
4.换轮胎
等等
评价与态度有关的行为的量表
给与态度有关的行为打分,以便从中推论出所持的态度,可以用核查表、等级量表或频度计数表。在此的例题是根据第二章有礼貌的银行柜员的解释以及表6.5。因为银行柜员可以在实际场合用几个典型的客户交易来进行评估,所以频度计数表无疑是最合适的。表7.8给出了一个频度计数量表的例子。
注意在量表的最上面要写上所评测的柜员的姓名和评测时间,以及总观察交易数,后者在解释数据的时候有用。另外量表还统计了该柜员在被观察期间所展示的正面行为总数和负面行为总数。
要评测的行为表述在最左边的一列里。类似于核查表,这里也有两个纪录列,区别只是每列是用来计数在几个不同的交易中各行为发生了多少次。
下面看看怎么用这个量表打分,这里给出了该柜员所表现的正面行为总数(186)和负面行为总数(19)。根据这个模拟数据,我们可以说该柜员在大多数场合都能够礼貌待客。根据柜员是否知道自己被观察,这个信息还可以做两种解释。如果柜员不知道被观察,并且不是有意要这么行事,那么评估人员就可以得出结论:这个柜员真的具有提供礼貌、友好服务的态度。相反,如果柜员知道在被评测,那么评估人员就只能推论:该柜员知道该怎么在交易时礼貌待客,并且在被观察的情况下会这么做。
表7.8 根据行为推导态度的频度计数量表(礼貌服务)
姓名: Karen Hacuser 日期: 4/10,17,24 观察的业务量总数: 正正正 总计 + 186 总计 -19
A.客户走近时,柜员
是
否
1.微笑
正正
正
2.言语问候
正正正
3.个性化评论
正正正
4.当延迟服务时表示道歉
1111
11
5.询问要求的服务
正正1111
1
6.关注所有排队的人
正正
111
7.其他:
B.在处理业务的时候,柜员:
1.仔细聆听
正正正
2.要求更清楚的信息
正1111
3.提供所需要的表格
正1111
4.完成/修改表格
正1111
5.解释所做的修改
正1111
6.解释返回的材料
正正11
111
7.其他:
C. 结束交易时,柜员:
1.询问是否要其他服务
正正正
2.说:“谢谢你”
正正正
3.回应客户的议论
正正
正
4.给出临别祝愿
正正正
5.其他:
用于评估设计的材料
在完成了绩效目标对应的考试题之后,就到了要评估设计过程中各成分一致性的时候了。需要评估的三个产品分别是:在教学分析中确定的主要技能和从属技能;基于这些技能的行为目标;以及基于这些目标的考试题。表7.9为对引导小组讨论教学目标所使用的设计评估表的一部分,第一列为从第6步“管理小组协作交互”中挑选的几个从属技能,第二列是所选技能的行为目标,第三列为每个目标对应的考试题,除了这张表,你还需要目标的分析图(图4.6)、学习者特征分析(表5.1)、应用环境特征分析(表5.2)和学习点特征分析(表5.3)。
要评估不同设计成分之间的一致性,可以采用下面的过程:
将图4.6目标分析中每个技能的表述语句与表7.9中的对应部分比较,描述从属技能所使用的词汇应该是一样的。
将在第一列的每个技能的用词与第二列的行为目标对照,技能中所描述的行为应该包含在对应的绩效目标中。技能和行为目标的区别只是后者增加了行为的条件和评判原则。
判断你的行为目标在所给的环境下依据目标开发标准是否合理。重温 a)你对学习者特征的描述,应用环境的特点和学习环境的特点,b)评估行为目标的核查表。用这些文档作为行为目标的开发标准,你就不仅能够判断一致性问题,而且还能确定要做的修改,加强这些成分之间的对应和联系。
判断你的行为目标和基于目标的考试题之间的一致性。在此,你不仅需要设计评估表,而且还需要学习者和环境的描述信息,以判断题目、目标、学习者和环境之间的吻合度,你可能还需要使用考试题标准核查表。有了这些设计元素在手,你就能够较好地判断出你所做的设计的一致性和质量。
对学校例子有兴趣的读者可以参看附录D中的内容。
表7.9 针对教学目的:“引导旨在解决问题的小组讨论”的第六步“管理小组协作交流”所做的设计评估表的一部分
技能
行为目标
考试题
6.3说出鼓励协作的策略
6.3.1 当被要求写出领导人促进或抑制成员讨论和协作的行为时,说出这些行为,学习者至少要列举出10种鼓励行为和对应的抑制行为。
1.NCW领导人可以采取多种策略促进或抑制会议期间的合作讨论。如果你是领导人,你会采取哪些行为来鼓励成员的参与和合作?(画10条答卷线)
6.4区分鼓励特定协作行为的策略
6.4.1 给定小组领导人在会议期间的行为描述,指出这些行为是否可能鼓励或抑制小组协作交流,对于给定的行为,学习者要能正确区分其中的80%。
在那些能促进小组交流的领导人行为前画+,在那些会抑制小组交流的领导人行为前画- : 1.介绍与会的所有成员 2.强调小组成员之间的身份差别 3.用眼神扫射全组以示欢迎 4.喊某位成员的名字,从他/她开始讨论 5.在每个人说完后都给予肯定评语(等等)
6.5促生成员协作行为
6.5.1在模拟NCW问题解决会议上,学习者扮演小组领导人,做出促进成员间协作的行为。在讨论过程中,小组成员彼此之间以及与领导人之间都能友好合作。
在你观察 (名字) 管理会议时,他/她采取了哪些行为来促生和促进小组合作行为?促生合作的行为 频度1. 2. 3. (等等)
总结
为了设计标准参照考试,需要根据教学分析得出的绩效目标清单。每个目标中所包含的条件、行为和评判标准有助于确定评测量表的最佳形式。
对于大多数言语信息和智慧技能目标来说,使用客观题最合适,但是,你还是需要决定哪种类型的客观题最符合所要求的条件和行为。客观题的编写要注意减少猜对答案的几率,并且文字要清楚,目标中描述的所有条件或线索都要出现在题目中或做题指示中。你还要决定每个教学目标应该考学习者多少道题才合适,为了决定出题数量,你要考虑每个信息或技能会被考多少次,要为前测和后测出足够的题。另外,只要可能,对于要评测的每个目标,每次都给学习者出不同的题。
有一些智慧技能不能使用客观题测定,如写一段文字、做一次讲演、分析和比较两种预测经济趋势的方法。对那些会产生作品或表演的智慧技能、运动技能,以及与态度相关的行为的评测通常由两部分组成:给学习者的做题指示和给评估者的观察量表。在创建这些量表的时候,你必须要确定在产品、表演和行为中要被观察的要素,将其重新表述并顺序化。你还要为评估人员选择合适的评判格式,决定量表如何计分。
题目和量表的质量取决于教学目标的质量,而教学目标的质量依赖于教学分析和目的陈述的质量。在审查了为目标所编制的题目后,你应该停下来,不再继续设计过程,在此阶段评估你迄今完成的所有设计。
在整体设计评估之后,你就可以进入下一章有关教学策略的内容了。在设计过程的这个阶段,你要确定教学包中要有什么考试,以及会被如何使用。在后面开发教学材料那章中,你要用这里产生的目标考试样题和考试计划来构造你所需要的对各个目标的考试。如果你已经开发了分级量表而不是客观试题,你要计划何时和如何使用这些与教学策略和教材有关的量表。
练习
判断下面关于标准参照考试的说法是否正确,如果正确,就在题目前面的横线上写一个C,如果不正确,简要说明为什么。将你的回答与后面的答案对照。
标准参照考试是由测定行为的考题组成的。
标准参照考试与目标参照考试是一回事。
标准参照考试的考试题不一定按照行为目标中所描述的行为类型来评测。
标准参照考试的考试题是根据教学分析中确定的技能直接开发的。
为前测设计入门技能考试题总是不错的好主意。
开发入门技能考试题的目的是为了测定在开始教学前学习者应该具有的技能。
前测在教学前使用,以了解学习者对于要教的内容已具备的知识,以及是否具备入门技能。
标准参照考试题是直接根据行为目标而编写的,行为目标则是根据教学分析的技能而写出来的
使用下面的教学分析流图,说明哪些技能(用编号)应该用来开发下面的测试题:
入门技能测试:
前测:
后测:
为绩效目标出对应的考试题。根据表7.10所列出的“向支票账户存钱”的绩效目标,在另外一张纸上,为每个目标出一道考试题,要求考试题的条件、行为和内容要与目标中说明的一致。假设:
你的目标人群是即将上大学的高中高年级学生,所有人都具备你的教学单元所要求的基本的算术入门技能。
应用环境为学习者和家长选择的一家本地银行,在教学结束后,所有学习者都要在家长的同意下真的开立一个支票账户。
教学环境为某高中教室,本地银行愿意提供有关的银行表格以增加教学的真实感。为辅助你的工作,你可能需要参照你自己的存款单的格式和要求你可以用表7.4 的核查表来辅助出题,并评价所出题目的质量,将你所出的考试题与表7.11比较。你的题目肯定与表中所给的题目不同,因为表中所给的只是众多可出题目的一小部分。
图7.10 图4.8和4.9中所示的银行教学目的中子技能的绩效目标
第2.0步 向支票账户存钱(表6.6)
步骤
目标
2.1
在要求回答从哪里可以得到存单时,举出两个可以得到存单的地方
2.2
根据存单样例,填写姓名,地址,账号和日期
2.3.1
根据存单样例,找到填写纸币和硬币的地方
2.3.2
计算所给的纸币和硬币,并在存单上填写总数
2.4.1
对于所给的几张支票,在账户位置填写姓名,在名字下面写账号
2.4.2
在存单样例中找到支票填写位置,包括填银行号和支票额的地方
2.4.3.1
对于所给的支票样例,在支票上找到银行号
2.4.3.2
对于所给的支票样例,在存单上填写每张支票
2.4.4
根据所给存单,其后面已填写了几张支票,计算存款总额
2.4.5
根据存单背面要存入的支票总额,在存单前面适当的地方填上该总数
2.5
对于所给的存单,上面有要存入的现金总额和各支票额,确定总存款额
2.6
当被问及如何递交已填好的存单、现金和支票时,说出两种方法
2.7
给你一张填好的存单和银行的存款收据,判断两者的钱数是否一样
2.8.1
给你一个银行交易记录本和已填好的存单,要求在记录本上记录日期、交易性质(存钱)、存钱金额,然后计算账户结余。
2.8.2
当被问及你如何证明最近的存款增加了信用额度时,说明存单都安全地保存在个人银行文件中。
为击球入洞这个心智运动技能开发考试,其中包括给学习者的指示和评估表格。下面的行为目标基于图4.6所做的教学分析。考试由两部分组成,包括击球姿势和击球准确性。将你所写的指示与答案中第IV部分的内容比较,将你所设计的评估表与答案部分的表7.12比较。目标:在高尔夫绿地上,使用调节球和轻击棒:5.1 在准备击球的时候应该有好的身体姿势,身体必须放松,与目标成直线,球棒抓在适当的高度,很舒服地握紧,向目标打击的高度、速度和方向要合适、流畅,垂直地击到球。6.1在高尔夫斜坡绿地上,将球击打上坡、下坡和越过坡,距离分别是10英尺,15英尺和25英尺。要精确地击打,使球落在离洞三英尺之内
计划设计评估。如果你打算做设计评估,你要先创建一个三列的表格,分别是技能、目标和评测1. 除了你所构造的设计评估表,还有哪些设计文档能够帮助你判断表中第一列的信息是否合适?2. 为了判断表中第二列信息的合适性和质量,你需要哪些信息?3. 为了判断表中第三列信息的合适性和质量,你需要哪些信息?4. 这些不同的设计元素在评估过程中是如何关联的?
答案
1. C
C
它们必须测定目标中的行为
它们是从目标派生出来的
可能没有需要测试的入门技能
C
C
C
一般来说,考试题要包括的绩效目标有:
入门技能:技能1到技能4
前测:技能5到技能14
后测:技能5到技能14
表7.11给出了支票账户目标中的绩效目标(表7.10)和对应的考试题样例。
表7.11 对应教学目的“支票账户的开户和使用”第二步“向支票账户存钱”的言语信息和智慧技能绩效目标的考试题
教学目标
考试题
2.1
在要求回答从哪里可以得到存单时,举出两个可以得到存单的地方
列出你能得到存单的两个来源:1. 2.
2.2
根据存单样例,填写姓名,地址,账号和日期
根据存单样例,输入表示你是存户的信息。
2.3.1
根据存单样例,找到填写纸币和硬币的地方
在存单样例上1. 在纪录纸币的地方的旁边写一个B2. 在纪录硬币的地方的旁边写一个C
2.3.2
计算所给的纸币和硬币,并在存单上填写总数
算算下面有多少钱,将总数填在存单上硬币 纸币3 个25分 4张20元纸币4 个1角 5张10元纸币2 个5分 3张1元纸币3 个1分
2.4.1
对于所给的几张支票,在账户位置填写姓名,在名字下面写账号
根据所给的要存入的支票,为将这些支票存入你的支票账户做好准备
2.4.2
在存单样例中找到支票填写位置,包括填银行编号和支票额的地方
1.在存单正面找到写支票的地方2. 在存单背面找到写支票的地方3. 找到写银行编号的地方
2.4.3.1
对于所给的支票样例,在支票上找到银行号
在下面的支票样例上,圈出要写在存单上的银行编号。
2.4.3.2
对于所给的支票样例,在存单上填写支票
在存单上写下每张支票
2.4.4
根据所给存单,其后面已填写了几张支票,计算存款总额
将写在存单背面的所有支票累加,将总和记在所提供的空白处
2.4.5
根据存单背面要存入的支票总额,在存单前面适当的地方填上总数
在图XX中找到存单背面标记的所有支票总额,在存单正面银行提供的空白处填上该总数
2.5
对于所给的存单,上面有要存入的现金总额和各支票额,确定总存款额
将图XX存单中现金和支票的总额相加,在存单的适当地方写上存款总额。
2.6
当被问及如何递交已填好的存单、现金和支票时,说出两种方法
说出递交存单(既有现金也有支票)的两种方法:1. 2.
2.7
给你一张填好的存单和银行的存款收据,判断两者的钱数是否一样
请看图XX中的存单和银行收据,银行存款额与客户存单相比:a. 钱数正确?b. 少钱?c. 多钱?
2.8.1
给你一个银行交易记录本和已填好的存单,要求在记录本上记录日期、交易性质(存钱)、存钱金额,然后计算账户结余。
使用图XX中的交易记录本和已填好的存单,在记录本上记下这次存款交易。正确填写本次交易的所有信息。
2.8.2
当被问及你如何证明最近的存款增加了信用额度时,说明存单都安全地保存在个人银行文件中。
假设你收到的支票账户报表没有记录下本月你所做的一次存款,你如何向银行证明你确实存了这笔钱?
有关击球入洞技能考试的指示如下。评估表格见表7.12。击球入洞技能考试分为两部分:击球姿势和击球准确性。本次考试总共要做27次击球。 你的击球姿势会使用后附的打分表的第一部分进行评估,要打分的姿势细节详见表中的A列和B列。你的分数就是(1)列中被画圈的OK个数,最多可以得10分,做得不好的地方在错误类型一列中圈出。在这个例子中,这个学习者得了7分,所犯的所有错误都与摆动有关:后挥得太低,击球弧线低,击球速度慢。 你的击球准确性也要根据这27次击球来判断。9次上坡,9次下坡,9次越过山坡直达球洞。在每个区,3次击球在10英尺,3次击球在15英尺,3次击球在25英尺,你的分数跟每次球距球洞的距离来定,在球洞旁边的绿地上围绕球洞每间隔1英尺画了3个环代表目标区域,下面是球到每个区域所得点数: 入洞 = 4 点 2英尺以内 = 2 点 3英尺之外 = 0 1英尺以内 = 3 点 3英尺以内 = 1 点 落在环线上的球可以得到高一级的点数。例如,如果一个球落在1英尺的环线上,你可以得到3分。 你27次击球每次都要用打分表下方的表格纪录。这个例子完整地告诉了你考试是如何计分的。在10英尺的地方击球上坡,这个学习者两次将球击入球洞,一次击落在1英尺以内,因此他在10英尺的地方击球上坡总共得了11点(4+4+3)。再看在15英尺的地方击球越过山坡,一次在1英尺之内,一次在三英尺之内,一次在三英尺以外,总共得了4点(3+1+0)。为统计该学习者的总分,要先将所有区域和所有距离的点数分别累加,比如这个学习者在10英尺的分数是27,上坡分数是25,学习者的总成绩是56。 下面的分数级别将用来评定你击球入洞的总表现: 可接受 = 27 (27 x 1) 很好 = 54 (27 x 2) 好 = 41 (27 x 1.5) 完美! =108 (27 x 4)在开始考试之前,一定要先做15分钟或30个击球的热身,在喊到你考试之前,要一直呆在练习场。
参看图7.1和本章的有关讨论。
表7.12 评估击球入洞的核查表和计数表
姓名: Mary Jones 日期: 3/26
A
B
(1)
错误类型
1.身体
舒适成直线
OKOK
TNSRT
LFT
2.握紧
压力高度
OKOK
TNSHI
LOW
3.后挥
高度方向
OKOK
HIRT
LOWLFT
4.击球弧线
高度方向
OKOK
HIRT
LOWLFT
5.速度
OK
FST
SLW JKY
6.球棒表面
OK
OPN
CLS
总计
7(10)
击球入洞准确性计分
区域
上坡
下坡
越过山坡
总计
点数
4
3
2
1
0
4
3
2
1
0
4
3
2
1
0
10‘
//
/
/
/
/
/
/
/
27
15‘
//
/
/
/
/
/
/
/
18
25‘
/
/
/
/
/
/
/
//
11
总计
25
18
13
56
总计
图7.1 在进行设计评估时要收集的设计要素
阅读
Baron,J.B.(1998). Using learner-centered assessment on a large scale. 在Lambert,N.M.,& McCombs, B.L.(Eds.) How students learn. Washington, DC:American Psychological Association.为以学生为中心的评测给出了很好的定义,并将其与学习联系在一起。
Bashaw, W.L.(1991). Assessing learner performance. Briggs,L.J.,Gustafson,K.L., & Tillman, M.H.(Eds.).(1991).Instructional design: Principles and applications. Englewood Cliffs, NJ: Educational Technology Publications.
Carey, L.M.(2001). Measuring and evaluating school learning(3rd ed.). Boston:Allyn and Bacon. 说明怎么出考试题,怎么写评价作品、表演和态度的指导规则和评判标准,以及学习者档案评估,其中的术语与本书一致。
Dick,W.(1996). The function of the pretest in the instructional design process. Performance and Instruction,25(4),6-7. 讨论了与设计和使用前测有关的问题
Gagne,Robert M., Briggs,Leslie.J.& Wager,Walter W.(1992).Principles of Instructional design(4th ed.). New York: Holt, Rinehart and Winston. 评测学习者表现这章不仅谈到了目标参照作业的开发,也谈到了掌握度和非标准参照测量。
Haladyna, T.M., & Roid, G.H.(1983).Reviewing criterion-referenced test items. Educational technology,23(8),35-39. 作者提供了一种用来基于数据的审核标准参照考试题的过程。
Kubiszyn, T. & Borich, G.(2000). Educational testing and measurement.(6th ed.) New York: John Wiley & Sons, Inc. 是关于标准参照评测很好的教科书,还有一些关于题目编写原则、开发其他评测方式以及档案评估方面的信息。
Linn, R.L., & Gronlund, N.E.(2000). Measurement and assessment in teaching (8thed.) Upper Saddle River, NJ: Prentice-Hall, Inc.作者描述了考试题目和评测任务的格式标准,学习档案评估和观察技术。