教学评价技术：2004040122

分类：教育格式：ppt 日期：2006年06月14日

教育测量
1,教育测量基本概念回顾
2,教育测量的分类
3,教育测量理论
3.1经典测量理论（ CTT）
3.2项目反映应论（ IRT）
4,教育测验的编制
4.1编制步骤
4.2编制细则
1,教育测量基本概念回顾
? 测量的定义
? 量表
? 信度
? 效度
? 难度
? 区分度
2,教育测量的种类
? 按测验的目标分类：
学业成就测验
智力测验
能力倾向测验
? 测验结果的评价标准分类：
常模参照测验
目标参照测验
经典测量理论
（ Classical Test Theory ）
? 在实际测验中所得到的分数称作实测分数
? 实测分数的组成：有效分数＋测量误差，测量误差
＝随机误差＋系统误差
– 故实测分数＝有效分数（ V）＋随机误差（ E）
＋系统误差（ I）
– 即,X＝ V＋ I＋ E
? 真分数：通常把上式中稳定出现的 V,I之和称作真
分数，用 T表示
– T＝ V＋ I
? 实测分数 X＝ T＋ E，移项得,E＝ X－ T
? E是由偶然因素造成的，结果可正可负
3.1.1概念描述
3.1.2 CTT的基本假设
? 对某个学生进行测验所得分数 X可看作是代表该生实际
知识水平的真实分数和测验误差分数的线性组合, 真实
分数是指在测验完全没有误差时所得到的理想值；是由
随机误差引起（并未包括系统误差）。所谓随机误差是
指, 由与测量目的无关的偶然因素所引起的无规律的误
差；系统误差则是指, 由与测量目的无关的固定因素所
引起的有规律的误差。可正, 可负, 因而测得的分数 X
可能大于真实分数, 也可能小于。
? 误差分数的数学期望（统计平均值）为零, 因此真实分
数也可以用一个被试在大量测验中所得分数的统计平均
值来表示。
? 任意两次测验所产生的误差相互独立。
3.1.3假设的公式推演
X= X
T
+ X
E
S
X
2
= S
T
2
+ S
E
2
S
X
2
= S
V
2
+ S
L
2
+ S
E
2
3.1.4 项目分析
? 项目分析是对测验中的每一道题目进行分
析，所以也称“题目分析”。对测验题目
的分析一般包括难度分析、区分度分析和
迷惑效力分析等三个方面。
3.1.5难度分析
? 非客观性试题（填空题，证明题，问答题，
计算题，改错题等）的难度为：
? 客观性试题（选择题）的难度为：
j
n
i
ji
j nW
X
P
?
??? 11
n
n
P jj ?? 1
3.1.6 区分度分析
? 好的试题应能对不同知识水平和能力水平的被
试加以区分，所谓区分度就是用来表示这种区
分能力大小的质量指标。一道试题的区分度高
是指，该题被能力强者答对的可能性大，被能
力弱者答对的可能性小；区分度低的试题则不
能反映出这种差别。计算区分度的方法有多种，
较简单而有效的一种是“两极分组法”。这种
方法的基本思想是，比较测验总分最高和最低
的两组被试在答对率上的差别。其计算公式如
下：
jLjHj PPD ??
3.1.7迷惑效力分析
? 迷惑性答案的效力，是指多项选择题中用的非
正确答案被考生选中的可能性，所以这项指标
只对多项选择题有意义。对这项指标的计算比
较困难，通常是用一次测验中选中某答案的次
数来估计该答案的迷惑效力。如果在考试中某
一选项无一人挑选，则说明改选项没有迷惑力；
如果选用的人数多且低分组的选用多于高分组，
则说明改选项的迷惑力强；如果高、低分组选
择某选项的人数都较少且人数接近，则说明该
选项的迷惑力较弱。显然，在测验组卷时应尽
量少用或不用迷惑力弱的试题，以免影响测验
效果。
3.1.8整体分析
? 为了检验某一测验是不是良好的测量工具，
应当对测验的质量进行分析评估。一个高
质量的测验的测验，它的结果应当是可靠
而且有效的。所谓可靠是指多次测验的结
果一致；所谓有效是指该测验准确地测量
了它所要测的内容。用来估计测量一致性
程度的指标称为, 信度, ；而用来估计测
量准确性程度的指标则称为, 效度, 。显
然，信度和效度是评价测量质量的两个最
主要的指标。
3.1.9信度的估计
? 信度是测量的可靠性度量，而在测验所得
的分数中，随机误差所占比重的大小直接
反映了测验的可靠性。因此我们可以将真
实分数的方差（真实分数的变异数）与测
验所得分数的方差（总变异数）之比用来
表示信度的大小，并称之为信度系数，用
表示，即：
? XX = S T2 / S X2
3.1.10效度的估计
S X2 = S V2 + S L2 + S E2
效度是测量的有效性度量。在一个测验所得分数中，与
测量目的无关的因素影响越小（或者说与测量目的有关
的因素影响越大），测验的有效性就越高，由上式可见
这就相当于要求增大的比重。因此我们就可以将真实分
数的方差中与测量目的有关的部分即（称为“有效变异
数”）与测验所得分数的方差（总变异数）之比，用来
表示效度的大小，并称之为“效度系数”，用表示，即：
2
2
X
V
XX S
S??
3.1.11效度类型
? 内容效度：指试题对欲测内容的符合程度，即该测验所采
用的试题是否能充分反映欲测范围内的教学内容与教学目
标。当以考试结果作为了解学生在某一学科的整体表现时，
应采用内容效度来评价考试的有效性。对内容效度的估计
至今没有定量的计算方法，目前主要采用的是专家判断法
和再测法。
? 构想效度：构想效度是指测验对某种理论上的构想或假设
的符合程度，因此构想效度主要用于理论研究。估计构想
效度的基本步骤是：先从某一理论出发，提出关于某种心
理特质或认知能力的假设；然后设计和编制响应的测验对
被试施测；最后对测验结果用相关分析法进行分析以验证
与理论构想（假设）的符合程度。
3.1.11效度类型
? 准则关联效度,准则关联效度是根据测验所作的
预测是否能被证实来衡量测验的有效性。如果测
验所作的预测与未来实际发生的事情很接近，这
个测验就是一个有效的好测验。在这种场合，被
预测行为是用来衡量测验是否有效的标准，因此
被称之为“准则”。准则关联效度就是要考察测
验得分与准则之间有什麽样的关系。例如用“模
拟考试”来预测高考的成绩，模拟考试在这里就
是一个准则。如果预测的准确性高，该模拟考试
就是一个有效的好测验。
3.1.12经典测量理论的局限
? 第一,CTT用于评价试题质量的指标
（如难度和区分度）严重依赖于计算这
些指标时所用的被试样本。例如：对同
一试题，若被试样本的能力水平异质
（程度参差不齐），则求出的区分度值
会很高，反之会很低。
经典测量理论 (CTT)在三条基本假设的基础上建
立了自己的测验方法体系，导出了包括信度、
效度、难度、区分度和迷惑效力在内的一整套
质量指标的计算公式，使整个测验过程比较科
学和客观，因而具有较大的实用价值。但是，
随着测量实践的深入和发展，经典测量理论也
暴露出一些难以克服的局限：
3.1.12经典测量理论的局限
? 第二,CTT对被试的某项能力或知识水平的估
计，只有当所有被试都使用同一个测验或并行
的测验时才是可比的；若对同一水平的被试使
用不同的测验，则其测量效果无法进行直接比
较。
? 第三,CTT主要适合与检查学生相对能力水平
的测验（亦称“常模参照测验”），而不适合
于考察学生实际能力水平的测验（亦称“目标
参照测验”）。例如，在目标参照测验中，当
被试组全部通过或全部不能通过测验时（这种
情况完全可能发生）,CTT根本无法对这种情
况的难度和区分度进行计算。
3,2项目反映理论
（ Item Response Theory）
3.2.1 项目反映理论
? 项目反映理论（ IRT）正是针对经典测量理
论的上述局限提出来的。它的最大优点就
是，项目参数（ CTT中的质量指标对应）的
估计值与被试样本的选择无关；对被试能
力水平的估计值与施测所用试题无关；同
时还能给出测验项目对被试实际能力估计
值的精度。
3.2.2 项目反映理论的假设
? 第一、单维性假设 ──即假定当前测验仅测量被试的某一项知识或
能力。事实上，任何测验都不可能是单维，因为除了该测量的能
力之外，被试的个性、认知特点、测验环境等因素都可能对测验
有影响。但是，只要所测量的内容是其中最主要的或主导的因素，
就可以认为是单维性测验。这样做不仅简化了对问题的分析，也
基本符合绝大多数的实际情况。
? 第二、局部独立性假设 ──被试对某一测验项目的反应只与该测验
项目本身有关，而不受其它测验项目的影响；在某一测验项目上
作答的各个被试也彼此独立，各被试的成绩仅由本身的内在素质
和能力水平决定，一个被试的成绩不会影响另一个被试。
? 第三、项目特性曲线假设 ──IRT认为，可观察的被试的测验得分
与影响测验成绩的不可观察的内在素质、能力水平之间所存在的
关系，可用“项目特性曲线”描述。所谓项目特性曲线假设，就
是对这种关系的数学表示形式所作出的一种假设。在 IRT中，这种
假设也被称为“项目反映模型”。换句话说，项目反映模型就是
用来表示被试的测验得分（或正答概率）与被试内在素质、能力
水平之间所存在关系的一种数学函数，所以也叫“项目反映函
数”。
3.2.3项目反映模型 1, 0 0
P (Q )
i + c / 2
C
0, 0 0
Q
b
拐点
P Qj ( ) = C Ce a Q b? ?? ? ?11 1 7,( )
3.2.4项目反应模型的参数
P Qj ( ) = F ( Q,a,b,c )
被试的能力参数，用 Q表示
项目的质量参数，用 a,b,c标识，分别称为区分度
参数、难度参数和猜测参数
这些参数值都不能由直接测量得到，而必须通过对
被试的反应数据进行估计来求出。对于项目反应模
型中参数的估计，通常采用的是极大似然估计法
3.2.5项目与测验的信息函数
? 某个试题 j的信息函数值的大小直接反映出
该题对被试能力素质水平的估计精度，信
息函数值越大，这种估计就越精确。因而
信息函数可作为衡量测验试题是否有效的
工具。在项目反应理论中，某个测验项目 j
的信息函数定义为：
jj
j
j QP
P
QI
2
)( ?
4 教育测验的编制与实施
4.1编制测验的一般步骤
? 确定测验目的
? 分析教育目标
? 测验取材并编拟题目
? 试测与分析
? 编制测验（测验的目的、时间限制、回答
试题的方法、记分的方法）
4.2.1简答题与填空题
– 1.基本特点
? 根据呈现的问题，学生以一个词、短语、数字或者符号做出回
答
? 适合测量各种相对简单的学习结果
? 问题答案可以由数字或符号表示的数学和科学领域（此类问题
用选择题的方式进行测试，可能会不能达到测试的目的）
– 2.优点和局限性
? 优点：
– 容易编制
– 学生必须提供答案，减少了通过猜测获得答案的可能
? 局限性：
– 不适合测量复杂的学习结果
– 记分的难度
– 3.编制简答题的一些建议
? 题目措辞时，应使要求的答案简洁具体
– 以其他动物的肉为食的动物是（）
– 以其他动物的肉为食的动物属于（）类
? 不要直接引用教材上的陈述作为简答题的基础
? 直接提问通常比不完整的陈述效果更好
? 如果答案要以数字单位的形式表示，请标明要求的答案类型
? 给题目答案留的空白长度应该一样而且都放在题目的右端
? 使用填空题时，需要学生填的空不要太多
4.2.1简答题与填空题
– 1.基本特点
? 用于测量事实性陈述、术语定义以及定律表述是否正确的辨认
能力
– 2.优点和局限性
? 优点：
– 效率高
– 可以获得课程内容的大样本
? 局限性：
– 测量的学习结果种类有限（大多为知识领域）
– 具有猜测性
4.2.2是非题
– 3.编制是非题的一些建议
? 要判断正误，应避免过于宽泛的判断
– 美国总统是选举产生的（）
– 美国总统通常是选举产生的（）
? 避免琐碎的陈述
? 避免使用否定句式，尤其是双重否定
? 避免使用长的复杂句型
? 如果不是测量因果关系，应避免在一个判断中包含两个观点
? 避免使用没有任何来源的观点，除非要测的是判断观点的能力
? 避免使用长度不一的正确判断和错误判断
? 避免正确判断和错误判断地数量不合比率
4.2.2是非题
– 1.基本特点
? 由一个问题和一列选项组成
? 学生答题方式是选择正确的或者最佳的选项
? 错误的选项叫干扰项，目的在于干扰那些知识掌握不牢固的学生答题
– 2.优点和局限性
? 优点：
– 较强的灵活性，可以用来测量多种类型的知识和理解水平的学习内容
– 在测量各种类型的学业成绩方面有广泛的应用性
– 摆脱了其他类型的客观题的局限性
? 与填空题相比：呈现一个更加明确的问题
? 与匹配题相比：不需要同质性的材料
? 与判断题相比：减少了线索和猜测的可能性
? 局限性：
– 局限于对言语水平的测量
– 难以找到足够多的似是而非的干扰项
4.2.3 选择题
– 3.设计选择题的建议
? 题干本身具有意义并以一个确定的问题呈现
– 南美（）
– 大多数居住在南美的殖民者来自于（）
? 题干应包括尽可能多的内容，但与题干无关的材料应该删去
– 大多数南美国家的居民是来自西班牙的殖民者。你将如何解释大量的西
班牙殖民者定居在那里呢？
– 西班牙殖民者定居在南美许多国家是为了寻找
? 除非某种重要的学习结果需要，一般不使用否定式的题干
– 下面哪个州不位于回归线以北？
– 下面哪个州位于回归线以南？
? 全部的选项都应与题干在语法上保持一致
? 除非说明是多选题，否则一个题目应该只有一个正确或者明显的最佳
答案
4.2.3选择题
– 3.设计选择题的建议
? 用来测量理解力的题目应该具有一定的新颖性，但也不要过于新颖
? 所有的干扰项都应该是似是而非的
– 选择题中应该有多少个选项？
– 编制具有迷惑性的干扰项的方法
? 使用学生最常见的错误
? 使用与题干听起来重要的词，但不要过分
? 使用那些在口语中与题干相联系的词
? 使用课本上的语言或者其他具有真理性的措辞
? 使用那些由于学生误解或者是粗心大意而造成的错误答案
? 干扰项在内容上与正确答案同质或者相似
? 干扰项在形式上与题干平行，在语法上与题干一致
? 使干扰项与正确答案在长度、词汇、句子结构和内容的复杂程度上
相似
4.2.3选择题
– 3.设计选择题的建议
? 避免使题干与正确答案之间存在语言联系
? 不要通过选项的相对长度来提供答案的线索
? 正确答案出现在选项重的位置应该大致平均而且是随机的
? 少用诸如“以上都不对”、“以上都对”的选项
? 如果其他题型更合适，就不要使用选择题
4.2.3选择题
– 1.基本特点
? 应试在解答问题时，可以自由组织答案
? 评分者按照给分标准，借助主观判断确定被试得分
– 2.优点和局限性
? 优点：
– 可以测量高层次的学习水平，这方面的内容与特质客观题难以测定
– 答案能够反映考生解答问题的思维过程和回答问题的正确程度
– 可以促使学生养成注意全部学习内容和知识之间的内在联系的习惯
? 局限性：
– 试卷中试题数量少，考试覆盖面小，试题取样不广泛，难以有效地代表
所测内容，影响考试信度和效度
– 评分不够客观
– 阅卷时费时费力
4.2.4 主观题
– 3.编制主观题的一些建议
? 加强试题的综合性，以测量较高层次的学习水平
? 要给考生提供展显才智的条件
? 突出重点内容
? 要出“活题”
– 不脱离考试的范围和要求
– 不出偏题、怪题
? 编制题目的同时，制定明细合理的评分标准
4.2.4主观题

课件简介

课件名称：	教学评价技术
课件分类：	教育
课件类型：	其他
文件大小：	563.89KB
下载次数：	2
评论次数：	2
用户评分：	6

用户列表