第四章练习题参考解答练习题
4.1 假设在模型中,之间的相关系数为零,于是有人建议你进行如下回归:

(1)是否存在?为什么?
(2)
(3)是否有?
4.2在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。不我待在逐步回归中既可采取每次引进一个解释变量的程序(逐步向前回归),也可以先把所有可能的解释变量都放在一个多元回归中,然后逐一地将它们剔除(逐步向后回归)。加进或剔除一个变量,通常是根据F检验看其对ESS的贡献而作出决定的。根据你现在对多重共线性的认识,你赞成任何一种逐步回归的程序吗?为什么?
4.3 下表给出了中国商品进口额Y、国内生产总值GDP、消费者价格指数CPI。
年份
商品进口额
(亿元)
国内生产总值
(亿元)
居民消费价格指数(1985=100)
1985
1257.8
8964.4
100
1986
1498.3
10202.2
106.5
1987
1614.2
11962.5
114.3
1988
2055.1
14928.3
135.8
1989
2199.9
16909.2
160.2
1990
2574.3
18547.9
165.2
1991
3398.7
21617.8
170.8
1992
4443.3
26638.1
181.7
1993
5986.2
34634.4
208.4
1994
9960.1
46759.4
258.6
1995
11048.1
58478.1
302.8
1996
11557.4
67884.6
327.9
1997
11806.5
74462.6
337.1
1998
11626.1
78345.2
334.4
1999
13736.4
82067.5
329.7
2000
18638.8
89468.1
331.0
2001
20159.2
97314.8
333.3
2002
24430.3
105172.3
330.6
2003
34195.6
117251.9
334.6
资料来源:《中国统计年鉴》,中国统计出版社2000年、2004年。
请考虑下列模型:
(1)利用表中数据估计此模型的参数。
(2)你认为数据中有多重共线性吗?
(3)进行以下回归:

根据这些回归你能对数据中多重共线性的性质说些什么?
(4)假设数据有多重共线性,但在5%水平上个别地显著,并且总的F检验也是显著的。对这样的情形,我们是否应考虑共线性的问题?
4.4 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造解释变量数据矩阵X才可能避免多重共线性的出现?
4.5 克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y和工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料,利用OLSE估计得出了下列回归方程:

(括号中的数据为相应参数估计量的标准误)。
试对上述模型进行评析,指出其中存在的问题。
4.6 理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,收集了中国能源消费总量Y (万吨标准煤)、国内生产总值(亿元)X1(代表经济发展水平)、国民总收入(亿元)X2(代表收入水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2002年期间的统计数据,具体如下:
年份
能源消费
国民总收入
GDP
工业
建筑业
交通运输邮电
人均生活电力消费
能源加工转换效率
y
X1
X2
X3
X4
X5
X6
X7
1985
76682
8989.1
8964.4
3448.7
417.9
406.9
21.3
68.29
1986
80850
10201.4
10202.2
3967.0
525.7
475.6
23.2
68.32
1987
86632
11954.5
11962.5
4585.8
665.8
544.9
26.4
67.48
1988
92997
14922.3
14928.3
5777.2
810.0
661.0
31.2
66.54
1989
96934
16917.8
16909.2
6484.0
794.0
786.0
35.3
66.51
1990
98703
18598.4
18547.9
6858.0
859.4
1147.5
42.4
67.2
1991
103783
21662.5
21617.8
8087.1
1015.1
1409.7
46.9
65.9
1992
109170
26651.9
26638.1
10284.5
1415.0
1681.8
54.6
66
1993
115993
34560.5
34634.4
14143.8
2284.7
2123.2
61.2
67.32
1994
122737
46670.0
46759.4
19359.6
3012.6
2685.9
72.7
65.2
1995
131176
57494.9
58478.1
24718.3
3819.6
3054.7
83.5
71.05
1996
138948
66850.5
67884.6
29082.6
4530.5
3494.0
93.1
71.5
1997
137798
73142.7
74462.6
32412.1
4810.6
3797.2
101.8
69.23
1998
132214
76967.2
78345.2
33387.9
5231.4
4121.3
106.6
69.44
1999
130119
80579.4
82067.5
35087.2
5470.6
4460.3
118.1
70.45
2000
130297
88254.0
89468.1
39047.3
5888.0
5408.6
132.4
70.96
2001
134914
95727.9
97314.8
42374.6
6375.4
5968.3
144.6
70.41
2002
148222
103935.3
105172.3
45975.2
7005.0
6420.3
156.3
69.78
资料来源:《中国统计年鉴》2004、2000年版,中国统计出版社。
要求:
(1)建立对数线性多元回归模型
(2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什么?
(3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。
4.7 在本章开始的“引子”提出的“农业和建筑业的发展会减少财政收入吗?”的例子中,如果所采用的数据如下表所示
1978-2003年财政收入及其影响因素数据年份
财政收入(亿元)CS
农业增加值(亿元)NZ
工业增加值(亿元)GZ
建筑业增加值(亿元)JZZ
总人口(万人)TPOP
最终消费(亿元)CUM
受灾面积(万公顷)SZM
1978
1132.3
1018.4
1607.0
138.2
96259
2239.1
50760
1979
1146.4
1258.9
1769.7
143.8
97542
2619.4
39370
1980
1159.9
1359.4
1996.5
195.5
98705
2976.1
44530
1981
1175.8
1545.6
2048.4
207.1
100072
3309.1
39790
1982
1212.3
1761.6
2162.3
220.7
101654
3637.9
33130
1983
1367.0
1960.8
2375.6
270.6
103008
4020.5
34710
1984
1642.9
2295.5
2789.0
316.7
104357
4694.5
31890
1985
2004.8
2541.6
3448.7
417.9
105851
5773.0
44370
1986
2122.0
2763.9
3967.0
525.7
107507
6542.0
47140
1987
2199.4
3204.3
4585.8
665.8
109300
7451.2
42090
1988
2357.2
3831.0
5777.2
810.0
111026
9360.1
50870
1989
2664.90
4228.0
6484.0
794.0
112704
10556.5
46991
1990
2937.10
5017.0
6858.0
859.4
114333
11365.2
38474
1991
3149.48
5288.6
8087.1
1015.1
115823
13145.9
55472
1992
3483.37
5800.0
10284.5
1415.0
117171
15952.1
51333
1993
4348.95
6882.1
14143.8
2284.7
118517
20182.1
48829
1994
5218.10
9457.2
19359.6
3012.6
119850
26796.0
55043
1995
6242.20
11993.0
24718.3
3819.6
121121
33635.0
45821
1996
7407.99
13844.2
29082.6
4530.5
122389
40003.9
46989
1997
8651.14
14211.2
32412.1
4810.6
123626
43579.4
53429
1998
9875.95
14552.4
33387.9
5231.4
124761
46405.9
50145
1999
11444.08
14472.0
35087.2
5470.6
125786
49722.7
49981
2000
13395.23
14628.2
39047.3
5888.0
126743
54600.9
54688
2001
16386.04
15411.8
42374.6
6375.4
127627
58927.4
52215
2002
18903.64
16117.3
45975.2
7005.0
128453
62798.5
47119
2003
21715.25
17092.1
53092.9
8181.3
129227
67442.5
54506
(资料来源:《中国统计年鉴2004》,中国统计出版社2004年版)
试分析:为什么会出现本章开始时所得到的异常结果?怎样解决所出现的问题?
练习题参考解答练习题4.1参考解答:
(1) 存在。
因为
当之间的相关系数为零时,离差形式的
有
同理有:
(2)会的。
(3) 存在。
因为
当时,
同理,有
练习题4.3参考解答:
(1)参数估计结果如下:

(2)数据中有多重共线性,居民消费价格指数的回归系数的符号不能进行合理的经济意义解释,且其简单相关系数呈现正向变动。
(3)分别拟合的回归模型如下:



单方程拟合效果都很好,回归系数显著,判定系数较高,GDP和CPI对进口的显著的单一影响,在这两个变量同时引入模型时影响方向发生了改变,这只有通过相关系数的分析才能发现。
(4)如果仅仅是作预测,可以不在意这种多重共线性,但如果是进行结构分析,还是应该引起注意的。
练习题4.5参考解答:
从模型拟合结果可知,样本观测个数为27,消费模型的判定系数,F统计量为107.37,在0.05置信水平下查分子自由度为3,分母自由度为23的F临界值为3.028,计算的F值远大于临界值,表明回归方程是显著的。模型整体拟合程度较高。
依据参数估计量及其标准误,可计算出各回归系数估计量的t统计量值:

除外,其余的值都很小。工资收入X1的系数的t检验值虽然显著,但该系数的估计值过大,该值为工资收入对消费边际效应,因为它为1.059,意味着工资收入每增加一美元,消费支出的增长平均将超过一美元,这与经济理论和常识不符。
另外,理论上非工资—非农业收入与农业收入也是消费行为的重要解释变量,但两者的t检验都没有通过。这些迹象表明,模型中存在严重的多重共线性,不同收入部分之间的相互关系,掩盖了各个部分对解释消费行为的单独影响。
练习题4.7参考解答根据样本数据得到各解释变量的样本相关系数矩阵如下(见表4.3):
表4.3 样本相关系数矩阵
CS
NZ
GZ
JZZ
TPOP
CUM
SZM
CS
1
0.910
0.970
0.967
0.839
0.965
0.515
NZ
0.910
1.000
0.981
0.982
0.946
0.985
0.590
GZ
0.970
0.981
1.000
0.999
0.904
0.999
0.570
JZZ
0.967
0.982
0.999
1.000
0.904
0.998
0.567
TPOP
0.839
0.946
0.904
0.904
1.000
0.917
0.639
CUM
0.965
0.985
0.999
0.998
0.917
1.000
0.575
SZM
0.515
0.590
0.570
0.567
0.639
0.575
1.000
解释变量之间相关系数较高,特别是农业增加值、工业增加值、建筑业增加值、最终消费之间,相关系数都在0.9以上。这显然与第三章对模型的无多重共线性假定不符合。