第八章 教育统计与教育测验
教学目标:明确统计的一些基本概念,如均值、方差、标准差和相关系数等;了解正态分布;掌握原始分数与标准分数的转换方法;理解信度、效度、难度、区分度的含义,了解常用的计算方法
教学时间:6课时
教学重点、难点:原始分数与标准分数的转换方法;基本概念
第一节 变量与变量种类 [问]根据资料是否包含数据,资料的分析可以分为哪几种?定性分析和和定量分析。即从本质和数量两方面揭示研究对象的真相,得出结论。所选取的分析角度和分析方法对报告的质量可能会有很大影响。如经过调查后写的报告,好的可以发表,不好的就象没有使用调查数据写出来的一样。
一、研究资料的定性分析? ? (一)定性分析的定义与特点? ? 定性分析主要是用逻辑思维的方法,对研究所获资料进行思维加工,揭示出研究对象的本质和规律。主要思维方法有:分析和综合、比较与分类、抽象与具体、归纳和演绎等逻辑分析方法。? ? 定性分析具有以下特点:①建立在描述基础上的逻辑分析或推断;②侧重揭示教育现象背后的意义;③倾向于运用归纳分析的方法;④不仅注意对结果和产品的分析,更重视对过程和相互关系的分析。? ? (二)定性分析的基本方法? ? 1、比较与分类? ? 比较是指依据一定的标准,确定事物或现象之间的异同及相互关系,从而寻找心理行为的普遍性及特殊本质。比较有纵向和横向两种,前者指对同一对象在不同时间的比较,后者指对同时并存的不同对象的比较。分类就是将对象划分为不同的类别。? ? 2.归纳与演绎? ? 归纳就是从大量资料中概括或推论出某一类事物、现象所具有的某种属性;演绎是从一般性前提推出个别性结论酌逻辑方法。? ? 3.分析与综合? ? 分析是指把复杂的研究对象(研究结果、现象等)分成简单的部分,进行单独的考察,从而认识各部分的性质和特点。综合则是指根据分析的结果,在已经认识到的事物本质的基础上,将事物的各方面的本质联合成为一个整体,从而使人们的获得对已知对象的全面、完整妁认识。? ? 4、抽象与具体? ? 教育学研究对象是具体的,要认识其中的本质和规律,必须借助于抽象方法。另一方面,为了描述、解释、预测教育现象,必须要经过由抽象到具体的过程,才能使理论运用于实践。? ? 二、定量分析(统计分析)
1、定义与方法
用数学的方法(主要是统计的方法)分析数据,找出研究对象的数量特征、水平、比例、结构及发展变化规律。基本的统计方法有:数量描述、频数分析、差异分析、相关分析、趋势分析等。
心理学研究数据具有变异性和统计规律性的特点,它要求在纷繁复杂的数据中寻求研究对象的特征和规律性,正确地使用统计分析方法。
统计分析具有以下功能:①可以为教育研究提供一种清晰的形式化的描述;②是进行解释和科学预测的重要方法;③可以训练科学、严谨的思维方法。 数量描述中最基本的有百分比、总和、平均值、方差(标准差)。百分比反映了研究对象的比例或比重,总和反映了研究对象的规模,平均值反映了研究对象的典型水平或平衡位置,方差(标准差)反映了研究对象的离散程度。
频数分析可以反映研究对象的集中程度、分布情况。
差异分析可以反映研究对象的差异程度,两组比较时用t检验,多组比较时用方差分析。
相关分析可以反映研究对象之间的相关程度。
趋势分析可以反映研究对象随时间发展变化的规律。
与上述分析有关的表和图,可将研究对象的数量大小、关系、比例、变化规律形象、直观地表示出来。利用计算机统计软件SPSS或有统计功能的电子表格软件Excel,可以快速、有效地处理和分析数据。
2.与定性分析的关系
在教育研究中,统计分析与上述的定性分析都具有十分重要的地位,两者缺一不可、一方面,统计分析是现代教育研究的必备工具,教育研究成果通常以统计分析的方式表现出来,不懂得统计分析就难以了解他人的研究进展,也难以确定自己的研究方向并进行深入的研究。另一方面,那种以为“统计万能”的思想是片面的、错误的。统计分析要以定性分析为基础,以教育理论为基础,只有在正确的观点和思想方法指导下的统计分析才是有用的。统计分析是为了揭示数据的特征和规律性,因此,这种定量分析的方向、范围须由定性分析来确定,而不是由研究者随意确定;脱离了定性分析的统计分析只是“无本之木”,“无鱼之水”。? ? 统计分析的进行需依据一定的方法和公式,这些方法和公式的选择需要研究者具备一定的教育专业知识。否则,这些统计分析就只是在数据上绕圈子,而不具有任何意义。此外,统计分析得出的规律或特征也需要借勘于教育学理论才能科学地解释。可见, 对教育学研究的结果必须进行定性与定量两方面的分析,才能揭示心理与教育现象的本质和规律。定性分析与定量分析(主要是统计分析)应该是相互补充,相辅相成的。 三、基本概念
总体(有限总体、无限总体)与样本(样品、个体、样本容量)
被试:被研究者的简称,也称研究对象或受试。个体:组成总体的基本单位。
概率:反映某一事件发生的可能性大小的量,用符号P表示,一般概率在0和1之间。接近1,表示事件发生的可能性越大;越接近0,则越小。
统计量:代表样本特征的量。从这些统计量可以估量总体的数值,即参数:代表总体特征的量。
测量:根据一定法则,对事物属性给予数字化的过程。测验,通常指测量的工具。
(二)变量:在性质与数量上可以变化并可以测量的条件、现象或特征。
包括变量的数量和类型。变量的多少是统计分析中较重要的因素。确定变量数量的一般原则是用尽可能少的变量得出最佳结果。
变量的类型有定类变量、定序变量、定距变量和定比变量4种
1、定类变量
表示事物在属性与类别上的不同。
在数据处理时,要对其进行数值化,如:“性别”是“男”时,编码为1;“性别”是“女”时,编码为0。
特点:无测量单位也无绝对零点,有“相等”和“不等”的关系,但不能比较大小和四则混合运算。
2、定序变量(等级变量)
表示研究对象在某一属性上的顺序。
在数据处理时,要对其进行数值化,如学生成绩优秀=4,良好=3,一般=2,差=1,一般值越高,表示越喜欢。
特点:既无测量单位也无绝对零点,不能指出其间差别大小,但有“等于、不等于关系、”序关系(优于、劣于等),四则运算没有意义。
3、定距变量(间距变量)
取值具有“距离”特征的变量。如学生身高,小李160cm,小王165cm,相距5厘米。
有测量单位,但不一定有绝对零点。如成绩0分,不表示没有一点知识。但有“等于、不等于、大于、小于等关系,可以进行加法、减法运算,但乘、除无意义。
4、定比变量
既有相等单位又有绝对零点。如身高、学生人数等。可以进行全部运算。
关系:定比变量的级别最高,定类变量的级别最低。级别高的可以转换为低的变量进行计算分析,如可以将百分制成绩转化为等级制成绩。定类变量是定性型,定比、定距是定量型,统称为定量变量;定序变量可以看成是定性型,也可看成是定量型,习惯上将其近似为定距变量处理。
第二节 描述统计
在教育技术研究过程中收集到大量的资料数据,但从这些杂乱无章的资料中,很难对其总体水平与分布状况做出评价判断。因此,必须采用一些适当的方法对这些资料进行处理,使之简约化、分类化、系统化,从中发现它们的分布规律,掌握总体的特征,以便对其水平做出客观的评价。 统计描述方法,是研究简缩数据并描述这些数据的统计方法。将搜集来的大量数据资料,加以整理、归纳和分组,简缩成易于处理和便于理解的形式,并计算所得数据的各种统计量,如平均数、标准差、以及描述有关事物或现象的分布情况、波动范围和相关程度等,以揭示其特点和规律。 一、数据资料的整理和表示 在教育技术研究中,我们用各种方法搜集来的资料,一般是零散的,它只反映个别现象的个别特征,必须经过整理加工,使之系统化,才能计算统计指标,进行统计分析,为进一步研究提供有用的信息,首先要进行的是统计整理,它包含以下几部分内容: 1.数据检查??? 主要检查数据的完整性与正确性。统计资料完整性的检查,就是要根据调查项目检查是否填写齐全,避免遗漏,删去重复。正确性检查,就是检查搜集的资料是否真实可靠。特别是统计数字的真实性是统计工作的生命,统计资料的检查整理必须抓紧这一环。??? 数据检查可分为逻辑检查和计算检查两种方法。逻辑检查,是从理论和一般常识上来检查资料内容是否合理,指标之间是否矛盾。计算检查是检查统计数字在计算方法和计算结果上有否错误。 2.数据分类 数据分类就是把搜集来的数据进行分组归类。数据分类要做到既不重复、不遗漏,又不混淆,一般又可分为品质分类和数量分类。??? 品质分类:是按事物性质划分为不同的组别、种类。如以性别为标志可分为男与女;按“理解能力”、“学习态度”等为标志,又可分为好、较好、一般、差等几种水平,每种水平可看成类,每一类可给以相当的数量。可以通过各类所包含的数据再进行数量化的比较和分析。??? 数量分类:是按数量的属性分类。有顺序排列法、等级排列法和次数分布法等。 ⒊ 数据的排序 数据排序:将各数据从大到小或从小到大进行排列。这样就可以看出最高分和最低分是多少,各分数出现的次数和位于中间的是什么数等。包括等级排列和次数排序。 等级排列:即根据顺序排列划分等级。但与顺序排列不同,它是按数值所含的意义确定的。若是学习成绩,应以数值大的排为第一等级;若是反映时间,则将最小的数值排为第一等级。 次数排序:即根据在指定的数值范围内,数据出现的频数大小排序。 ⒋ 数据统计表 以表格形式对数据进行分类和计算,它具有简明清晰,条理清楚、便于比较等特点。??? 有单项表(主栏按一个特征或变量进行分类,书P129页表7-1)、多项表(主栏按多个特征或变量进行分类,书P129页表7-2、3)、次数分布表(频数分布表)
编制统计表的原则是:结构简单,层次清楚,重点突出,一目了然。
统计表一般由表号、标题、标目、线条、数字、表注等项内容构成
统计表横向的两端必须是开放、不封闭的,一般除表头和合计项外表中没有横线。
⒌ 数据的图示法?? ? 根据统计数据,运用点、线、面以及色彩的描绘而制成的描述数据间的关系及变化情况的图形。 图示法,具有直观、形象,便于比较、记忆和思考以及表达语言难以说清的内容之优点。?? 在教育技术研究中常用的有条形图(书P237页图4)、曲线图、直方图和圆形图(P238页图6),其绘制方法是大家所熟知的,这里不作介绍。 二、特征参数的计算 为了分析研究对象总体的特征,不必对总体中每一个单位都进行研究。而是通过抽样方法,按照随机性原则,从全部对象中,只抽取部分单位(样本组)加以研究,对于每组样本,首先应对其基本特征参数进行计算,以给出整体特征的统计描述。并根据统计数据,对总体对象作出具有一定可靠程度的估计和推测。常用的特征参数包括: (一) 集中量数??? 集中量数也称平均的数,是代表一组数据集中趋势的统计量。
常用的集中量数包括算术平均数、加权平均数、几何平均数、中位数、众数等,它们的作用都是度量次数分布的集中趋势。集中量数的计算是教育科学研究中处理数据的重要方法。
1、算术平均数,用表示,算术平均数=数据值的总和/数据数。
设为各次观察的结果,则有:
上式中,表示平均分表示每个学生的得分,n表示学生人数。??? 2、中数,是指一组按大小顺序排列起来的量数中的中间点的数(不受极端值的影响),又称中位数,用Mdn来表示。 如1 2 3 4 5,样品数是奇数,此组数据的中数是3,此数字是实数。如1 2 3 4 5 6,样品数是偶数,此组数据的中数是3+4/2=3.5,此数字是虚数。 3、众数,是指一列数中出现次数最多的数值,常用M表示。??? 如1 2 3 4 5 4,此组数据的众数是4。如果都不相同,则没有众数。 (二)差异量数??? 差异量数是表示量数之间的差异程度的一些统计量的总称,它是用以表示一群量数的离散程度。差异量越大,表示数据分布的范围越广,越分散,差异量越小,表示数据分布得越集中,变动范围越小。
常用的差异量数有全距、平均差、方差S2、标准差S、标准分数等。
在统计分析中经常应用的是标准差,它是与平均数的差数的平方和的平均数的算术平方根。
上式中,S为标准差??? ,为每个学生的得分与平均分的离差,上述公式计算步骤如下:??? (1)先求出各数据与平均分的离差 ; (2)求各个离差的平方和; (3)将除以n再开方,即得标准差。
[例表6-1]:(1)平均分
(2)标准差? ? 按照求S步骤进行计算,可得到=1819,代入公式(10-2)便可得到标准差S
(三)次数分布(频数分布)
次数分布又称频数分布。指的是一批数据中各个不同数值所出现的次数情况。一般采用次数分布表、次数分布直方图或次数分布曲线来表示。 【例6-1】 现有50名学生的成绩,原始数据如表6-1所示:(n=50)
1.次数分布表 为了显示该组样本在不同分数段中的次数分布情况,我们对该数组进行次数分布统计,编制出该数组的次数分布表。方法如下: (1)求全距:最大数-最小数=98-51=47 (2)定组数,一般10-20组为宜。 (3)定组距,组距=(全距+1)/组数=(47+1)/10=4.7(取5) (4)定组限,95-100,90-95,85-90……等 (5)求组中值:组中值=(上限+下限)/2,如95-100一组,其组中值=(100+95)/2=97.5 (6)归类? 把原始数据,分别归到相关组中,得出次数分布表如表6-2所示:
2.次数分布曲线 根据这个次数分布表,可绘出对应的次数分布直方图、次数分布曲线和积累次数曲线,分别如图6-8、图6-9和图6-10所示。为了分析次数分布曲线的特征,我们可以把它与正态分布曲线相比较来进行研究。?
?
3. 正态分布曲线 正态分布是一种理论分布,在次数分布中,中间的次数多,由中间往两边的次数逐渐减少,且两边的次数多少是相等的。根据正态分布绘成的曲线称为正态分布曲线,正态分布曲线形状如钟形,它的特点是中间成一高峰,由高峰向两侧逐渐下降,先向内弯,后向外弯,降低的速度是先慢后快,以后又再次减慢,最后达到接近底线,但永远不与底线相接,形成一个单峰的对称的钟形形态,如图6-11所示。 正态分布曲线的形状和位置由平均分 和标准差S所决定。平均分 对应于单峰位置,越大,曲线越往右移动。标准差S越大,曲线的单峰高度越低,宽度越大,显得越“胖”;S越小,曲线的高度越高,宽度越小,显得越“瘦”。如图6-5所示。
在正态分布曲线图上,正态曲线以下,以S为距离单位所包括的面积是按一定比例分配的,若将正态曲线底边从-3S到3S分成四等分,每等分距离为1.5S,则每距离间隔之间所包括的面积比例如表6-3和图6-12所示。
利用正态分布曲线这些性质,我们可以得到划分不同学习水平等级的界限和学生人数比例的理论数值。例如对于常态=75,S=10的情况,其优、良、中、差各等级的分数范围和人数比例应如表6-4所示(N=30)。
?按照上述方法,对于一个给定的样本组
N=30,得知其平均分=83,标准差S=7.78,我们便可以得到学习水平等级的划分界线,并将人数比例的理论数和实际数相比较,如表6-5所示。
??? 根据图6-12和表6-4,我们便可以得到如下结论:??? (1)样本组的峰值位置位于的右侧,属于正偏态的情况。??? (2)样本组的水平等级标准较高,分数要在94.7以上才能达到优等,而在71.3以下便认为是差等。 (3)样本组中优、良等级的实际人数(1+17)要比理论数(15人)所占的比例为多。 三、相关关系的度量? ? 描述数量之间的变化关系可用相关分析。变量之间确定的关系是函数关系。如s=vt。变量之间不确定的关系称相关关系。如身高和体重之间的关系。相关分为三种,即正相关、负相关和零相关(书图7—3)。研究中用相关系数r表示变量之间的相关程度。
特征:
1、相关系数的数值介于—1.00和十1.00之间, r正值代表正相关,负值代表负相关,0表示零相关。
2、零相关,指不相关,只能说明变量间不存在线性关系,但还可能存在非线性关系。如一变量随另一变量的变化忽大忽小,没有线性规律。如果非线性关系也不存在,则两变量独立,它们一定不相关。? ? 两种最常见的相关为积差相关和等级相关。积差相关适用于状态分布中的职列变量,即用定距定比量表测得的数据。
常用的是皮尔森相关。(见书16页公式)设X和Y都是定距变量,且是分别独立,配对数据(如同一学生的语文成绩和数学成绩),则它们的相关系数用皮尔森相关。公式:
r=
等级相关适用于等级变量和非正态分布的变量之间的相关分析。常用的等级相关是斯皮尔曼相关。? ? 此外,还有表示多列等级变量相关程度的肯德尔等级相关以及质与量相关的点二列相关等。
第三节 分数的转换与解释
一、原始分数及其局限性
1、含义
通过教育测量所直接得出的分数,叫原始分数。
2、特点:
①直观简便,但不具有科学评价功能和指导意义。
②不可比性 题目难度可能不同。
③不可加性 不同学科评分标准、考试内容、信度、区分度不同。
不能反映学生在团体中的位置 如语文95分,处中下水平,数学90却是第一,单凭原始分数不能确定。
3、导出分数
由原始分数转化而成的量表分数。
常用的有:百分等级分数、标准分数、T分数
几种常用的导出分数
1、百分等级分数
它是相对地位量数。它把参加测量的全体人数作为一百份来计算,从而以某原始分数换算出其在全体中所占的地位,说明分数比他少的人占人数的百分之几。
如某生测验成绩为80分,经换算百分等级分数是73,即表示参加测量的73%的人低于80分,超过他的人仅有27%。
公式 PR=100— R排名序数 N被试总人数
特征:有可比性,易解释,是定序变量,没有可加性,对两极原始分数反映迟钝。
2、标准分数
表示原始分数在团体中的位置,即其在平均数之上多少个标准差。
公式:Z= X原始分数 平均数 S标准差
特点:是定距变量,有可比性和可加性,可直接合成运算,使分析结果更具科学性。但有负数和小数,不易为人们所接受。
【例6-2】 某班语文平均考试成绩为74分,标准差8分。甲学生得90分,乙学生为72分。通过标准分数的计算可以得知他们在全体同学中所出的位置。
3、T分数
把Z分数的小数和负数转化而成,是整数。
公式:一般考试:T=10Z+50(T分数的平均数是50,标准差为10。>50,则在平均数之上,<50,则在平均数之下。多在10-90分之间,符合人们的评分习惯,故常称标准百分。)
韦氏离差智商:T=15Z+100
高考后的公布分数:T=100Z+500 (Z是正态分布)
例:已知某班数学测验平均分65,标准差7分,甲生得72分;语文阅读平均分30,标准差6分,甲生得38分。问甲生哪一种测验成绩在班级位置较高?
解:Z算术===1 T算术=10Z+50=10×1+50=60
Z阅读===⒈3 T阅读=10Z+50=10×⒈3 +50=63
答:甲生在阅读测验中的成绩在班级位置较高。
第四节 测验信度、效度、难度、区分度
信度
1、含义:指测验结果的一致性或稳定性程度,即可靠性。实质是对测验误差大小的一种描述。常用两次测验分数的相关系数来计算信度大小。
通常在0-1之间。大于0、9,信度很高;在0、75之间与0、9之间,信度较高;0、65-0、75之间,中等;0、55-0、65之间,临界状态;0、55以下,低信度。但对信度的要求与测验内容和用途有关。学科和能力测验要求较高,态度问卷和人格测验要求较低。
2、类型:(根据两次测验的来源途径)
重测信度:同一被试使用同一份试题(同样评分标准),前后两次分数的相关系数。注意:两次时间间隔适宜;适宜速度、问卷等非难度测验;提高第二次测验的积极性。
复本信度:用两份“等值”但具体题目又不同的试题,相继对同一组被试进行两次测验所得分数的相关系数。注意:具体内容不要重复;时间间隔适当短(但不应接着进行)。
分半信度:将一个测验中的题目按编号分成两半,分别计算两部分得分,然后计算两部分的相关系数。(可按奇数、偶数题目分)
3、信度系数:用满足某种条件的两次测验分数的相关系数。
公式:r=
注意:分半信度由于测验长度少了一半,对信度有一定影响,应用斯皮尔曼—布朗公式校正。
= (r为奇数、偶数题目的相关系数)
4、提高测验信度的方法
适当增加测验长度;与能力有关的测验,难度应适中,平均0、5左右;
内容不应过于复杂;测验实施和评分应统一、客观。
二、测验效度
1、效度:测验实际能测出所要测的特质或能力的程度,即有效性。
针对测验目的而言,与测验工具有关。取决于测验目的与测验工具的匹配程度。
2、信度与效度
信度高,效度不一定高;效度高,信度一定高。效度高,一定要工具合适。比如体重计称重,如果体重计失灵,体重很重,二次均如此。信度高,但没有测量出真实体重,所以效度不高。例:三人打靶
3、分类:
内容效度:一个测验实际测到的内容代表了所要测量的内容的程度。
从深度(认知层次)和广度(知识内容)两方面考察。如何做到:精心编制双向细目表。
效标关联效度:一个测验与选定的效标的相关系数。(肯得尔相关系数)
效标,指特定的行为标准,或已知效度较高的测验成绩。
4、提高效度的方法
提高信度(信度是效度的必要条件);
精心编制测验(内容和形式);
选择好的效标;
增大样本容量 容量大,可降低误差。
三、难度 (测验的整个质量指标:信度、效度;具体质量-题目的质量指标:难度、区分度)
1、含义:题目的难易程度。
2、计算:
①平均得分率 P=
平均分 W该题的满分值;P在0-1之间,P越大,难度越小。
②该题的通过率 P= R答对该题的人数,N测验的总人数
③测验的平均难度 P=
W测验的满分值 各个题目的满分值 各个题目的难度
四、区分度
1、含义:题目对被试的知识水平(能力)差异的区分能力。
2、计算:区分度就似效度,总分看做效标。在一个题目上的得分与被试的测验总分的相关系数作为该题的区分度。
公式: Dr=
X 该被试在一个题目上的得分 Y该被试在此测验上的总得分
所有被试在该个题目上平均得分 所有被试在此测验上的总分平均分
自测题:
一、名词解释:
定性分析 定量分析 信度 效度 难度 区分度
原始分数 导出分数
二、简答题:
1、如何提高测验的信度?
2、谈谈原始分数的局限性。
三、实践题:
书155页第2题。