§ 2.5单方程线性模型的区间估计
Interval Estimation of Multiple Linear
Regression Model
一、参数估计量的区间估计 — 不做介绍
二、预测值的区间估计
预测值的区间估计
一、预测的概念
? 预测 通常指利用 现有 信息对 不知道 的或
尚未发生 的数据和事件所作的 估计 。
? 由于在经济活动中,谁能对未知事件或
尚未发生的事件作出准确的估计,谁就
能够掌握主动权,并在经济活动中受益,
所以预测在经济活动中具有重要作用。
? 它是计量经济学的核心任务之一。
? 例如:我们可能希望利用现有汽油消费量和价格数据
预测汽油价提高后相应的消费量。或者利用现有数据
预测明年我国的 GDP的增长幅度。
? 通常情况下,要预测的是 与样本观测值之外的 x值对应
的 y值 。
? 如:样本观测值范围为 1985- 2003年,预测 2004年的
居民消费。
? 用于预测的变量通常用 x0 和 y0表示,指利用 x0的值来预
测与相对应的被解释变量 y0的值。
? 对于多元而言,用于预测的变量可用 (x10,x20,… xk0)和
y0 表示 (书中 P53页为矩阵表示,含虚变量 )
? 注意:下标为 0,表示该值为预测期产生的值。
? 当然用于预测的 x0也可以在样本观测值的范围内。
二、区间估计
? 估计:人人都做过。如:
? 上课时,你会 估计 一下老师提问你的可
能性有多大?
? 过马路闯红灯时,你会 估计 一下被罚款
的可能性有多大?
? 推销员年初时要 估计 今年超额完成任务
的可能性有多大?
? 估计的类型包括,
? 1,点估计:只有一个取值。
? 2,区间估计:以一定的可靠性给出被估计参数的一个
可能的取值范围 。
? 例如:销售经理想估计一下明年的出口总值,甲估计
是 53万美元,乙估计是 50— 56万美元之间,并可以确
切地说“有 95%的把握”。
? ▲两种估计类型哪一种更科学?
? 显然后者的可信程度大于前者。
? 它在给出估计区间时,还可以给予一个“可信程度”。
这就是 区间估计的优点所在,在给出估计 区间(而非
一个具体的取值) 时,还可以给予一个“可信程度”
区间估计定义
对区间估计的形象比喻
? 我们经常说甲的成绩“大概 80分左右”,可以看成一
个区间估计问题。(某甲的真实成绩 ?为被估计的参数 )
? 如,P(75 < ? <85 )=0.95=1-0.05
? ( 75,85)
?
“大概 80分左右”
置信水平
下限 上限
置信区间
? 1、置信水平(置信度):它是指与一个估计区间相联
系的概率,它表示该区间将包括总体参数的可能程度。
用 1-α表示。置信水平越大,估计区间内所包含总体参
数的可信度越高。( 68.3%,95.5%,99.7%都是置信
度)
? (本题中的置信度,95% )
? 2、置信区间:与一个“置信水平”相联系的估计值的
取值范围。
? (本题中的置信区间:( 75,85)
? 3、置信限:与置信区间相联系的界限,包括上限和下
限。如上题中下限,75,上限,85
区间估计中几个常用概念
? 区间估计 就是要构造总体参数的一个置信区间
( confidence interval), 该区间以一定的概率
( 置信水平, confidence coefficient ) 包含该参
数 。 根据
得,在置信水平 1- α 下,θ的 置信区间为 (θ1,θ2)
? 要找到置信区间,就必须找到一个服从确定分布
形式的统计量,然后依据该统计量的 概率分布 求
得一定概率(置信水平)下的置信区间。
???? ???? 1)( 21P
例 新生儿体重的置信区间
? 假设新生儿(男)的体重服从正态分布。随机抽取 12
名新生儿,测得体重如下表,试以 95%的置信度估计
新生儿(男)的平均体重。
Dò o? 1 2 3 4 5 6 7 8 9 10 11 12
D? éú ?ù ì? ?? 3100 2520 3000 3000 3600 3160 3560 3320 2880 2600 3400 2540
? ?
3 3 0 02 8 2 0
2 0 1.2
12
3.3 7 5
3 0 5 72 0 1.2
12
3.3 7 5
3 0 5 7
9 5 %μ
3.3 7 53 0 5 7
11
1
3 0 5 7
(2 0 1.21205.0
12
1
2
)112(
??
??????
???
????
? ?
?
?
?
?
?
?
即
的置信区间是置信度为
再计算
表的图有错)
i
x
t
i
sx
n?
三、预测值的区间估计
? 1、预测误差
? 2、预测值的区间估计(即找到在一定置
信水平 1- α 下的预测值的置信区间)
? 对模型的参数进行估计之后,得到 SRF
? 如果结果理想,则可用估计好的模型进行预测。
? 给定样本以外的解释变量的观测值 x0,可以得到被
解释变量的预测值
ii xy 10 ??? ?? ??
0100 ??? xy ?? ??
但是,严格地说,这只是被解释变量的 预测值的
估计值,而不是 预测值 。
为什么?
说明:以一元为例介绍,多元的方法和理解完全相
同
1、预测误差
? 给定样本以外的解释变量的观测值 x0被解释变量
实际的预测值应该为 y0( )
? 根据 SRF得到的为 ( )
? 所以 只是被解释变量的 预测值的估计值,而
不是 预测值 。
? 实际的预测值 y0与其估计值 之差定义为 预
测误差,
? 不难看出,预测误差的定义与残差的定义类似,
只不过 e0用来表示预测期得到的误差 。
0100 ??? xy ?? ??
00100 ??? ??? xy
0?y
0?y
0?y
2、预测值的区间估计 — 以残差为突破口
? 由 e0的定义
? y0是正态随机变量 ?0的线性函数,是正态随机
变量 的线性组合
? 可以看出,它为正态随机变量的线性组合,因
此,e0服从正态分布
e0 ~N(0,)2
0e?
j??
0?y
0-)(-
)
??
E(-)E(
))
??
(-E(
)?-E()E ( e
0
????
??
??
?
000
0
0
0
yyy
y
y
y
i10
i10
i10
0
xββ
xββ
xββ
y
由于方差包含 ??2,而 ??2 未知,用 代替,于是,
用 代替,从而,2
0?e?
2???
2
0e?
分布的服从自由度为
代替,则无法求出,用由于
),,(服从标准正态分布因为
t1-k-n
?
?
10N
0
00
0
0
0
e
ee
e
e
t
e
?
??
?
?
构造统计量
~ t n k( )? ?1
00
?
?-
?t
000
ee
yye
?? ??
2t?? 2t?
2? 2?
??1
22 t,t- ??
0
区间估计:
1-?置信区间
t统计量的分布
临界值
预测值的区间估计的推导:
?
?
??
??
??
?
?
?
??
?
?
?
?
?
?? 1t
?
?
t
2
e
00
2
0
yy
P
? ? ??? ????? 1ttt 22P
?
?
?? ??
??
?
?
?
??
?
?
?
??? 1t
?
t 202
0e
e
P
? ? ??? ?? ?????? 1t??t?? 2e002e0
00
yyyP
?
?
?? ??
??
?
?
?
??
?
?
?
?
?
?? 1t
?
?
t 2
e
00
2
0
yy
P
1)-k-(n??1)-k-(n??
2020 000 ??
?? tyyty ee ??????
给定( 1-α)的置信水平下,预测值 y0的置信区间为:
(预测值的估计值 ± 预测误差标准差的估计值 *t临界值 )
这就是说,当给定解释变量值 x0后,能得到被解释变量
y0以( 1-?) 的置信水平处于该区间的结论。
利用 t统计量,得到在给定( 1-α)的置信水平下,
预测值 y0的置信区间为:
示例
? 用某市 1988- 1998年实际数据估计该市城镇居民年
人均鲜蛋需求量和年人均可支配收入之间的关系
(, 天津统计年鉴 1999年, )
? 用此模型预测未来年份该市城镇居民年人均鲜蛋需
求量。假定通过研究得出 2000年该市城镇居民人均
可支配收入为 1863元,则,
( 5, 0 0 ) ( 7, 7 4 ) t
67.0r 0 0 0 5.084.10? 2tt
?
??? xy
16.201 8 6 30 0 5.084.10
0 0 5.084.10? 2 0 0 02 0 0 0
???
??
*
* xy
? 经计算,在给定显著水平= 0.05下,查
表 tα/ 2= 2.262,于是,2000年该市城镇居民年
人均鲜蛋需求量的置信度 0.95下的预测区间为
),即(
)*+,*-(
89.2443.15
09.2262.216.2009.2262.216.20
09.2? 0=e?
3、一点启示
? 计量经济学模型用于预测时,必须严格科学地
描述预测结果。
? 如果要求给出一个, 准确, 的预测值,那么真
实值与该预测值相同的概率为 0。
? 如果要求以 100%的概率给出区间,那么该区间
是 ∞ 。
? 模型研制者的任务是尽可能地 缩小置信区间。
4、如何缩小置信区间
? 增大样本容量 n,因为在同样的样本容量下,n
越大,t分布表中的临界值越小,同时,增大
样本容量,还可使随机误差项的标准差减小;
? 提高模型的拟合优度,模型优度越高,残差平
方和应越小。
? 提高样本观测值的分散度 。
预测的隐含假定
? 要进行预测,有一个假设前提应当满足,即 对于样本观
测值数据成立的解释变量与被解释变量之间的关系对于
新的观测值也成立 。
? 以一元为例:
? 若一元线性回归模型的原设定为
? 则要使用此模型来预测的话,还
? 应该也成立。
)( ni,,2,110 ????? iii xy ???
00100 ??? ??? xy
? 例如:在大范围内,假定总体是非线性回归模
型的关系,当抽取样本的范围比较线,样本表
现出线性关系。当把这种线性关系外推至样本
取值范围之外,用线性关系反映非线性的总体,
那么预测的误差会明显变大。这种情况称为 外
推的危险性 。此时用样本回归方程进行预测是
不行的。
? 要减少这种外推带来的预测误差明显变大的危
险,应该 从尽可能大的范围选取样本,以便
SRF能更好的反映真实总体。
Interval Estimation of Multiple Linear
Regression Model
一、参数估计量的区间估计 — 不做介绍
二、预测值的区间估计
预测值的区间估计
一、预测的概念
? 预测 通常指利用 现有 信息对 不知道 的或
尚未发生 的数据和事件所作的 估计 。
? 由于在经济活动中,谁能对未知事件或
尚未发生的事件作出准确的估计,谁就
能够掌握主动权,并在经济活动中受益,
所以预测在经济活动中具有重要作用。
? 它是计量经济学的核心任务之一。
? 例如:我们可能希望利用现有汽油消费量和价格数据
预测汽油价提高后相应的消费量。或者利用现有数据
预测明年我国的 GDP的增长幅度。
? 通常情况下,要预测的是 与样本观测值之外的 x值对应
的 y值 。
? 如:样本观测值范围为 1985- 2003年,预测 2004年的
居民消费。
? 用于预测的变量通常用 x0 和 y0表示,指利用 x0的值来预
测与相对应的被解释变量 y0的值。
? 对于多元而言,用于预测的变量可用 (x10,x20,… xk0)和
y0 表示 (书中 P53页为矩阵表示,含虚变量 )
? 注意:下标为 0,表示该值为预测期产生的值。
? 当然用于预测的 x0也可以在样本观测值的范围内。
二、区间估计
? 估计:人人都做过。如:
? 上课时,你会 估计 一下老师提问你的可
能性有多大?
? 过马路闯红灯时,你会 估计 一下被罚款
的可能性有多大?
? 推销员年初时要 估计 今年超额完成任务
的可能性有多大?
? 估计的类型包括,
? 1,点估计:只有一个取值。
? 2,区间估计:以一定的可靠性给出被估计参数的一个
可能的取值范围 。
? 例如:销售经理想估计一下明年的出口总值,甲估计
是 53万美元,乙估计是 50— 56万美元之间,并可以确
切地说“有 95%的把握”。
? ▲两种估计类型哪一种更科学?
? 显然后者的可信程度大于前者。
? 它在给出估计区间时,还可以给予一个“可信程度”。
这就是 区间估计的优点所在,在给出估计 区间(而非
一个具体的取值) 时,还可以给予一个“可信程度”
区间估计定义
对区间估计的形象比喻
? 我们经常说甲的成绩“大概 80分左右”,可以看成一
个区间估计问题。(某甲的真实成绩 ?为被估计的参数 )
? 如,P(75 < ? <85 )=0.95=1-0.05
? ( 75,85)
?
“大概 80分左右”
置信水平
下限 上限
置信区间
? 1、置信水平(置信度):它是指与一个估计区间相联
系的概率,它表示该区间将包括总体参数的可能程度。
用 1-α表示。置信水平越大,估计区间内所包含总体参
数的可信度越高。( 68.3%,95.5%,99.7%都是置信
度)
? (本题中的置信度,95% )
? 2、置信区间:与一个“置信水平”相联系的估计值的
取值范围。
? (本题中的置信区间:( 75,85)
? 3、置信限:与置信区间相联系的界限,包括上限和下
限。如上题中下限,75,上限,85
区间估计中几个常用概念
? 区间估计 就是要构造总体参数的一个置信区间
( confidence interval), 该区间以一定的概率
( 置信水平, confidence coefficient ) 包含该参
数 。 根据
得,在置信水平 1- α 下,θ的 置信区间为 (θ1,θ2)
? 要找到置信区间,就必须找到一个服从确定分布
形式的统计量,然后依据该统计量的 概率分布 求
得一定概率(置信水平)下的置信区间。
???? ???? 1)( 21P
例 新生儿体重的置信区间
? 假设新生儿(男)的体重服从正态分布。随机抽取 12
名新生儿,测得体重如下表,试以 95%的置信度估计
新生儿(男)的平均体重。
Dò o? 1 2 3 4 5 6 7 8 9 10 11 12
D? éú ?ù ì? ?? 3100 2520 3000 3000 3600 3160 3560 3320 2880 2600 3400 2540
? ?
3 3 0 02 8 2 0
2 0 1.2
12
3.3 7 5
3 0 5 72 0 1.2
12
3.3 7 5
3 0 5 7
9 5 %μ
3.3 7 53 0 5 7
11
1
3 0 5 7
(2 0 1.21205.0
12
1
2
)112(
??
??????
???
????
? ?
?
?
?
?
?
?
即
的置信区间是置信度为
再计算
表的图有错)
i
x
t
i
sx
n?
三、预测值的区间估计
? 1、预测误差
? 2、预测值的区间估计(即找到在一定置
信水平 1- α 下的预测值的置信区间)
? 对模型的参数进行估计之后,得到 SRF
? 如果结果理想,则可用估计好的模型进行预测。
? 给定样本以外的解释变量的观测值 x0,可以得到被
解释变量的预测值
ii xy 10 ??? ?? ??
0100 ??? xy ?? ??
但是,严格地说,这只是被解释变量的 预测值的
估计值,而不是 预测值 。
为什么?
说明:以一元为例介绍,多元的方法和理解完全相
同
1、预测误差
? 给定样本以外的解释变量的观测值 x0被解释变量
实际的预测值应该为 y0( )
? 根据 SRF得到的为 ( )
? 所以 只是被解释变量的 预测值的估计值,而
不是 预测值 。
? 实际的预测值 y0与其估计值 之差定义为 预
测误差,
? 不难看出,预测误差的定义与残差的定义类似,
只不过 e0用来表示预测期得到的误差 。
0100 ??? xy ?? ??
00100 ??? ??? xy
0?y
0?y
0?y
2、预测值的区间估计 — 以残差为突破口
? 由 e0的定义
? y0是正态随机变量 ?0的线性函数,是正态随机
变量 的线性组合
? 可以看出,它为正态随机变量的线性组合,因
此,e0服从正态分布
e0 ~N(0,)2
0e?
j??
0?y
0-)(-
)
??
E(-)E(
))
??
(-E(
)?-E()E ( e
0
????
??
??
?
000
0
0
0
yyy
y
y
y
i10
i10
i10
0
xββ
xββ
xββ
y
由于方差包含 ??2,而 ??2 未知,用 代替,于是,
用 代替,从而,2
0?e?
2???
2
0e?
分布的服从自由度为
代替,则无法求出,用由于
),,(服从标准正态分布因为
t1-k-n
?
?
10N
0
00
0
0
0
e
ee
e
e
t
e
?
??
?
?
构造统计量
~ t n k( )? ?1
00
?
?-
?t
000
ee
yye
?? ??
2t?? 2t?
2? 2?
??1
22 t,t- ??
0
区间估计:
1-?置信区间
t统计量的分布
临界值
预测值的区间估计的推导:
?
?
??
??
??
?
?
?
??
?
?
?
?
?
?? 1t
?
?
t
2
e
00
2
0
yy
P
? ? ??? ????? 1ttt 22P
?
?
?? ??
??
?
?
?
??
?
?
?
??? 1t
?
t 202
0e
e
P
? ? ??? ?? ?????? 1t??t?? 2e002e0
00
yyyP
?
?
?? ??
??
?
?
?
??
?
?
?
?
?
?? 1t
?
?
t 2
e
00
2
0
yy
P
1)-k-(n??1)-k-(n??
2020 000 ??
?? tyyty ee ??????
给定( 1-α)的置信水平下,预测值 y0的置信区间为:
(预测值的估计值 ± 预测误差标准差的估计值 *t临界值 )
这就是说,当给定解释变量值 x0后,能得到被解释变量
y0以( 1-?) 的置信水平处于该区间的结论。
利用 t统计量,得到在给定( 1-α)的置信水平下,
预测值 y0的置信区间为:
示例
? 用某市 1988- 1998年实际数据估计该市城镇居民年
人均鲜蛋需求量和年人均可支配收入之间的关系
(, 天津统计年鉴 1999年, )
? 用此模型预测未来年份该市城镇居民年人均鲜蛋需
求量。假定通过研究得出 2000年该市城镇居民人均
可支配收入为 1863元,则,
( 5, 0 0 ) ( 7, 7 4 ) t
67.0r 0 0 0 5.084.10? 2tt
?
??? xy
16.201 8 6 30 0 5.084.10
0 0 5.084.10? 2 0 0 02 0 0 0
???
??
*
* xy
? 经计算,在给定显著水平= 0.05下,查
表 tα/ 2= 2.262,于是,2000年该市城镇居民年
人均鲜蛋需求量的置信度 0.95下的预测区间为
),即(
)*+,*-(
89.2443.15
09.2262.216.2009.2262.216.20
09.2? 0=e?
3、一点启示
? 计量经济学模型用于预测时,必须严格科学地
描述预测结果。
? 如果要求给出一个, 准确, 的预测值,那么真
实值与该预测值相同的概率为 0。
? 如果要求以 100%的概率给出区间,那么该区间
是 ∞ 。
? 模型研制者的任务是尽可能地 缩小置信区间。
4、如何缩小置信区间
? 增大样本容量 n,因为在同样的样本容量下,n
越大,t分布表中的临界值越小,同时,增大
样本容量,还可使随机误差项的标准差减小;
? 提高模型的拟合优度,模型优度越高,残差平
方和应越小。
? 提高样本观测值的分散度 。
预测的隐含假定
? 要进行预测,有一个假设前提应当满足,即 对于样本观
测值数据成立的解释变量与被解释变量之间的关系对于
新的观测值也成立 。
? 以一元为例:
? 若一元线性回归模型的原设定为
? 则要使用此模型来预测的话,还
? 应该也成立。
)( ni,,2,110 ????? iii xy ???
00100 ??? ??? xy
? 例如:在大范围内,假定总体是非线性回归模
型的关系,当抽取样本的范围比较线,样本表
现出线性关系。当把这种线性关系外推至样本
取值范围之外,用线性关系反映非线性的总体,
那么预测的误差会明显变大。这种情况称为 外
推的危险性 。此时用样本回归方程进行预测是
不行的。
? 要减少这种外推带来的预测误差明显变大的危
险,应该 从尽可能大的范围选取样本,以便
SRF能更好的反映真实总体。