第一节 回归模型
回归分析是研究随机现象中变量之间关系的一种数理统计方法。它的主要内容是:从一组数据出发,确定这些变量间的关系式,对这些关系式的可信程度进行统计检验,从影响一个量的许多变量中,判断哪些变量的影响是显著的,哪些是不显著的,寻找具有较好统计性质的回归设计,利用所求得的关系式进行预报和控制。
一、一元线性回归模型
一元回归分析是处理随机变量y和变量x之间关系的一种方法,即通过分析数据,找出变量x和y间的一种关系。如果两个变量的关系是线性的,那就是一元线性回归分析所研究问题。
那么,怎样建立一元线性回归的数学模型呢?
首先,把观察得到的n对数据(x1,y1),(x2,y2),…,(xn,yn)表示在平面直角坐标系(图5-1)中,考察这些点的大致分布情况,如果这些点之间近似存在着线性关系y=a+bx,那么,由最小二乘法可得
量x和y之间的规律,即y和x是否显著地存在线性关系呢?这可以用F
方和为S剩,
则
如果在给定显著性水平α下,有
P{F≤Fα(1,n-2)}=1-α,
于是有1-α的把握确定回归直线的显著性。否则,在给定显著性水平α下,回归不显著,即变量x和y的线性关系不显著。
二、多元线性回归模型
对于一元以上的线性回归,这里先讨论二元线性回归。设随机变量y和另外两个变量x1和x2近似存在线性关系
y=a+b1x1+b2x2,
同样可以讨论二元以上的线性回归。为了书写简便,可以用矩阵的形式来表示回归系数。设随机变量y与另外p个变量x1,x2,x3,…,xp近似存在线性关系
y=β0+β1x1+β2x2+…+βpxp,
经过n次试验,得到数据组(yi,xi1,xi2,…,xip)(i=1,2,…,n)。
这就有
上述方程组就可以写成Y=Xβ。经过矩阵的运算,并运用最小二乘法,
(XTX)-1<>是XTX的逆矩阵。
二元线性回归也可以用矩阵的形式来表示。设
y=β0+β1x1+β2x2,
于是
在数据处理过程中,两个或两个以上变量之间的回归关系,并非总是线性的。这时,选择恰当类型的曲线比直线更符合实际情况。但在许多情况下,非线性回归可以通过某些简单的变量变换,转化为线性回归。例如,假设变量y和x之间有关系式y=β0eβx,只要两边取对数,并令y′=lny,β′0=lnβ0,就可以将上述非线性回归问题转化为线性回归问题。
三、回归模型在教学评估中的应用举例
1.同一学科成绩的一元线性回归分析
从一组学生某学科的平时成绩与期中考试成绩或两次不同考试的成绩,分析这组学生学习该学科的水平状况,便是一元线性回归模型在教学评估中的一个应用。
例如,从某班随机抽取15名学生两个学期的数学期末考试成绩如表5-1(x、y分别表示第一学期、第二学期的期末成绩),下面用一元线性回归进行分析。
所以,这组学生的成绩相关。根据一元线性回归计算方法,得
lxy=1117,lyy=1365.6,
下面用F检验进行方差分析,检验回归的显著性。
查表得F0.01(1,13)=9.07,可见F>F0.01(1,13),于是我们有99%的把握认为回归是显著的,即x和y之间存在线性关系。
如果把第二次考试成绩作为基础,根据上面得到的一元线性回归方程预测第三次考试学生的成绩,可以把第三次考试的成绩填入表5-2(x表示预测成绩,y表示实际的考试成绩)。
同样,用第三次考试成绩作为基础,又可以预测第四次考试成绩,依此类推。当然,每一次的预测都应该与实际分数进行比较,判断预测的准确性,并加以修正。
在不需要较为精确地对学生学习水平作出预测的情况下,为避免较大的计算量,也可以采用比较简单的“平均数”法,粗略地对学生的学习状况作出回归分析。具体地可以按下面步骤完成。
第一步,分组。把n个测验数据点(xi,yi)(i=1,2,…,n)分成大致均匀的两组。若n为偶数,则平分成两组;若n为奇数,可
第二步,求平均数。分别求出这两组数据的各个平均数,并组成新
第三步,求过P、Q两点的直线
可以认为,这条直线是过这n个点的一元线性回归直线。
对上面提到的15名学生的数学成绩,按照前8名为一组,后7名为另一组,分成两组,然后用表5-3(x、y分别表示第一学期、第二学期期末成绩)的数据计算。
因此,得到P(79.3, 76.5), Q(73.7, 70.1),而通过P,Q的直线
这样,我们也可以用这条回归直线来预测这15名学生的学习成绩。
2.同一学科成绩的二元线性回归分析
利用二元线性回归,可以从一组学生某学科更多的测验数据(如平时成绩,考试成绩)中,预测这组学生该学科的成绩。现在对上述15名学生三个学期数学期末成绩(在表5-4中,x1、x2和y分别表示高一第一学期、第二学期和高二第一学期期末成绩)进行二元线性回归分析.
由二元线性回归计算方法,得到:
解得 b1=0.282,b2=0.622。
由此可得这组学生的二元线性回归方程是
虽然通过上面回归方法得到了二元线性回归方程,但两个因素x1和x2对y的回归并不一定是显著的。这里存在着以下几种情况:因素x1对y回归显著,而因素x2对y回归不显著;因素x1对y回归不显著,而因素x2对y回归显著;因素x1和x2对y回归都显著;因素x1和x2对y回归都不显著。
下面通过表5-5,对前面的二元线性回归方程进行检验。
由于F0.05(2,12)=3.89<F,所以得到的回归直线
是显著的。
既然上面回归是显著的,那么,我们可以根据这15名学生的两个学期期末成绩,预测第三个学期的期末成绩,然后,照样可以把第三个学期的成绩作为一个因素(如因素x2),去预测第四个学期的期末成绩。不过,每一次预测值与实际值都应进行检验,并且加以修正。
如果用F检验法检验回归不显著,那么就应该对每个因素进行单独方差分析,剔除回归不显著的因素。一般来说,凡是偏回归平方和(所谓偏回归平方和,是指总的回归平方和,减去剔除某因素后所得的回归平方和的值)大的变量一定是显著的;凡是偏回归平方和小的变量,却并不一定不显著。
3.同一学科成绩的中位数稳健性回归分析
用最小二乘法求回归直线,对所有的测验数据都是一视同仁的,显然个别远离数据群体的“离群值”影响了回归的显著性(拟合度)。若用“中位数”的方法,可以求出一种较为稳健的回归,其步骤是:
第一步,分组。将各数据点按某一变量(例如x)值从小到大的顺序重新排列,得x(1)≤x(2)≤…≤x(n);另一变量y值随之相应地排列。然后将n个点大致均匀地分成左(L),中(M),右(R)三组,并使左右两组点数尽可能相等,如遇有相同的x值,则应该将相应的点划归为同一组,不可分割开。
第二步,求中位数、综合点。在按第一步分出的左、中、右三组中各求出x值和y值的中位数,分别得到三个组的综合点:L(xL,yL),M(xM,yM),R(xR,yR)。这些“综合点”不一定是原始数据点。
第三步,用“中位数”的综合点求回归直线。由综合点先求出斜率的初始值
再取分别过这三个综合点,且以b1为斜率的三条直线的截距的平均数为截距,即
第四步,求残差及其中位数,迭代。求出各点(xi,yi)(i=1,2,…,n)与初始回归直线的初始残差:
若δ1=0或δ1≈0,迭代结束。否则继续按照上面方法迭代,直到第k步出现δk=0或δk≈0为止。这时最终的回归直线为
ak=a1+a。
下面对前面提到的15名学生的成绩作中位数稳健性回归。
第一步,由表5-6,左、中、右三组的中位数分别为
xL=66,yL=67,xM=73,yM=78,xR=89,yR=79,
于是,初始的回归直线是
数,得综合点:L(66,-3.35),M(73,1.73),R(89,-2.83)。
由于δ1≈0,所以迭代结束,最终的回归直线是
从表5-6中的第五列可以看出(74,60)、(97,98)这两个“离群点”,由于中位数比平均数回归更具有稳健性,所以,在用中位数法求回归直线的过程中,自然降低了“离群值”的影响。
4.题目难度的回归分析
题目的难度指数对测验结果反应最敏感。为了对题目的难度有一个比较准确,又可操作的定量化估计,可以利用回归分析,根据学生的实际得分率与决定题目难度的有关因素的赋值建立回归关系,预测题目的难度。学科专家研究确认,数学测验题目的难度因素主要取决于测验涉及知识的广度、运算量、逻辑推理量、失误点、障碍点、综合度、熟悉度等因素。可以认为通常意义下的难度由这七个因素所确定,只要对这七个因素客观地赋值,可以克服主观估计带来的偏差。具体方法是:
(1)利用已有测验的数据,求得各题难度指数pL(l=1,2,…,k,k为题目数)。
(2)对各题给出对应的难度因素值nil。
(3)利用逻辑斯蒂回归模型:
用与pL对应的nil建立回归方程。由于数学测验一般由三类题型(填空题、选择题和解答题)组成,它们的测试功能和考查要求各有所异,因此,应该分别建立三个回归方程
著,以便判别回归方程本身的优劣。
(5)当新的题目编制完后,通过对每题难度因素nil的赋值,代
(6)计算剩余标准差,衡量估计难度值WL变差的大小,确定估计难度与实际得分率的平均误差。
例如,用1989年和1990年高考数学上海试卷中的数据,分别建立三类题型的回归方程:
-1.369n4-1.363n5-0.91495n6,
-0.27023n4-0.13013n5-0.29579n6-1.5384n7,
-0.10652n4-1.1799n5+0.064717n6-1.2517n7。
平方和之比的算术平方根)分别为R1=0.85,R2=0.91;R3=0.88。可以认为估计难度与实际考试结果的拟合度较好,同时也说明了难度因素的确定是合理的。对上述三个线性回归方程的方差分析,可分别得到
F1=5.825>F0.01(6,13)=4.62,
F2=7.884>F0.01(7,12)=4.64,
F3=5.567>F0.01(7,11)=4.89。
可见回归方程是高度显著的。利用上述回归方程对1992年高考上海数学试题(见附件二)进行模拟难度估计,先对各题的难度因素赋值,再通
的大小,求得剩余标准差分别是S1=0.80,S2=0.55,S3=0.85。
得到的p值表明,共有28题落在允许误差的范围内,占整卷题量的97%