6.5 模型检验基于数据用统计方法建立经验模型,做了以下工作:
一,模型检验的必要性
1)借助于数据散布图的直观形象,选择 一个函数来 近似 变量之间的相关关系;
2)用最小二乘法求经验模型中参数的 最佳 估计,
问题,如何评价此建模方法?
分析,若两个变量 X,Y间存在相关关系,设其回归函数为 y=μ(x).
客观存在相当于做假设,令 )()(? xfx
这种假设主观性太强,是否合理必须经过检验,
一元线性回归问题需做两方面的检验工作:
1,评价方程对样本数据的代表程度;
2,检验变量之间的线性关系是否显著,
选择一个函数 f(x) 作为
y=μ(x)的估计函数,
主观设定二,评价回归方程的拟合优度两种方法,考察数据残差图和计算测定系数
1) 考察数据残差图是检验回归方程拟合优度的一个简单有效的方法,
数据残差图分析原理分析数据残差图,若数据点
( xi,e*),i=1,2,…,n
在( 一 2,2)区间内随机散布,说明回归方程的拟合是良好的,
例 6.5.1 生产费用与产量拟合优度分析例 6.5.2 试分析讲义 P175图 7.10的四副标准化残差图,
1,图( a)全部数据都在 (- 2,2)区间内,且随机散布,说明方程对数据的拟合是良好的,
2,图( b)中有较多数据落在 (- 2,2)区间的外面,这说明方程对数据的拟合不充分,
可能是由于方程的形式选择不恰当,
通过分析标准化残差图可以得到更多信息,
可以分析出回归方程的回归假定 的满足情况,
对 残差图做进一步分析:
*1 图 (c)中残差出现系统变动的趋势;
表明关于,i=1,2,…,n 的 等方差假定不满足 ;i?
*2 图 (d)中残差值 e*,i=1,2,…,n 有相依关系 ;
说明关于,i=1,2,…,n的独立性不满足,i?
2) 计算测定系数 (确定系数、判定系数 )
2
1
2
1
2
1
1
2
1
2
2

)(
)?(
yny
ynyxbya
yy
yy
r
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
i



是评价回归方程拟合优度的一个指标,
可证明 0≤r2≤1 且 r2 的值越大说明方程对数据的拟合度越高,
续例 6.5.1 生产费用与产量拟合优度分析给定拟合回归方程测定系数为
2
2
2
)7.165(102 7 7 1 1 9
)7.165(101 3 2 9 3 83 9 7 8.01 6 5 77 9 0 9.134


r
=0.6524.
结果分析,好不好?
图 7.11中标准化残差 e*在横轴上下随机散布,
且位于( - 2,2)区间内,初步判断拟合是良好的,
结论:
1) 方程对这批数据的拟合是良好的,说明在生产费用的变动中,有 65.24%是由于产量的变动引起,
2) 测定系数 r2 的值不是很高,说明仅用“产量,
这一种因素来解释生产费用的变动并不充分,还应考虑其他因素,
三,线性关系检验测定系数 r2 仅是反映回归方程
xbay
对样本数据的拟合优度的一个衡量指标,
r2 值较高 方程对样本(数据)呈现的线性关系的代表性较好,
X和 Y的相关关系是线性关系,
由于抽样的随机性使样本的关系与变量 X与 Y之间的相关关系有一定差异,还不能肯定 X和 Y的线性关系显著,
线性关系检验 检验变量 X与 Y的线性相关关系是否显著,




n
i
n
i
ii
n
i
ii
yyxx
yyxx
r
1 1
22
1
)()(
))((
yyxx
xy
ll
l
的大小反映了 X和 Y之间线性相关关系的强弱,
样本相关系数当 r=1,说明变量之间存在 完全 正相关关系 ;
见 P178图 7.12 线性相关图当 r=0,说明变量之间 不存在线性相关关系 ;
当 r=- 1,说明变量之间存在 完全 负相关关系 ;
样本相关系数 r的变动范围是- 1≤r≤1,
当 0<r<1,说明变量之间存在一定程度的正相关关系; 当- 1<r<0,说明变量之间存在一定程度的负相关关系;
的值有多大时,才能认为变量 X与 Y之间的线性相关关系显著?
r
对给定显著性水平 α(0<α<1),可计算样本相关系数临界值 rα(n- 1):
)2,1()2(
)2,1(
)1(


nFn
nF
nr
则在显著性水平 α下,认为变量 X与 Y之间的线性关系显著 ;
,若 )2( nrr?
否则认为它们的线性关系不显著,
判别准则续例 6.5.1 生产费用与产量线性相关关系检验算出生产费用和产量之间的样本相关系数为



n
i
i
n
i
i
n
i
ii
ynyxnx
yxnyx
r
1
222
1
2
1
))((
])7.165(102 7 7 1 1 9][)7.77(107 0 9 0 3[
7.1657.77101 3 2 9 3 8
22

取显著性水平 α=0.05,
8078.0?
查 F分布值表得 F0.05(1,8)=5.32,样本相关系数临界值为 rα(n-2),计算得
632.0
32.58
32.5
)8,1(8
)8,1()8(
05.0
05.0
05.0 F
Fr
),8(05.0rr?有
,同时还有 768.0)8(01.0 rr
结论,可以认为生产费用和产量之间有显著的线性相关关系,
附注,样本相关系数是测定系数的平方根,
.2rr即对线性回归问题成立