回归分析的基本步骤,SPSS
第一步:初步观察数据
G r a d e s a n d H o u r s
H O U R S
121086420
G
R
A
D
E
100
90
80
70
60
50
40
Graphs/Scatter/
第二步:看看描述性统计
7 2, 8 0 0 01 9 3 3 410
5, 5 0 0 03 0 2 7 710
G R A D E
H O U R S
M e a n
S t d,
D e v i a t i o nN
D e s c r i p t i v e S t a t i s t i c s
1, 0 0 0,9 7 3
,9 7 31, 0 0 0
.,0 0 0
,0 0 0,
10
10
G R A D E
H O U R S
G R A D E
H O U R S
G R A D E
H O U R S
P e a r s o n
C o r r e l a t i o n
S i g,
( 1 - t a i l e d )
N
G R A D EH O U R S
C o r r e l a t i o n s
Analysis/Correla
tion/
Analysis/Descrip
tiveStatistics/De
scriptives/
第三步:看看回归方程
? 关注显著性( Significance)
? 解释标准化系数:均值为 0,方差为 1
? 解释非标准化相关系数:原始均值与方差
3 8, 6 6 73, 2 0 51 2, 0 6 4,0 0 0
6, 2 0 6,5 1 7,9 7 31 2, 0 1 5,0 0 0
( C o n s t a n t )
H O U R S
M o d e l
1
BS t d, E r r o r
U n s t a n d a r d i z e d
C o e f f i c i e n t s
B e t a
S t a n d a r d i
z e d
C o e f f i c i e n
ts
tS i g,
C o e f f i c i e n t s
a
D e p e n d e n t V a r i a b l e, G R A D Ea,
G r a d e s a n d H o u r s w i t h R e g r e s s i o n L i n e
G r a d e = 3 8, 7 + 6, 2 * H o u r s
H O U R S
121086420
G
R
A
D
E
100
90
80
70
60
50
40
第三步:看看回归方程
第四步:是否还有其他变量
Hours Grade Gender
(1 = female)
1 46 1
2 44 2
3 62 1
4 68 1
5 64 2
6 76 2
7 88 1
8 86 1
9 96 2
10 98 2
G r a d e s a n d H o u r s w i t h R e g r e s s i o n L i n e
G r a d e = 3 8, 7 + 6, 2 * H o u r s
H O U R S
121086420
G
R
A
D
E
100
90
80
70
60
50
40
第四步:是否还有其他变量
G r a d e s a n d H o u r s w i t h R e g r e s s i o n L i n e
G r a d e = 3 8, 7 + 6, 2 * H o u r s
H O U R S
121086420
G
R
A
D
E
100
90
80
70
60
50
40
第四步:是否还有其他变量
f
f
f
f
f
4 6, 0 8 03, 7 7 11 2, 2 1 9,0 0 0
6, 5 4 3,4 1 61, 0 2 61 5, 7 3 4,0 0 0
- 6, 1 7 72, 3 8 9-, 1 6 9- 2, 5 8 6,0 3 6
( C o n s t a n t )
H O U R S
G e n d e r
M o d e l
1
BS t d, E r r o r
U n s t a n d a r d i z e d
C o e f f i c i e n t s
B e t a
S t a n d a r d i
z e d
C o e f f i c i e n
ts
tS i g,
C o e f f i c i e n t s
a
D e p e n d e n t V a r i a b l e, G R A D Ea,
既然性别的标准差较小,和小时数相比,它的非标准化系数会被夸大。
第四步:是否还有其他变量
这意味着小时
数和性别同样
重要,是吗?
3 2 6 3, 5 3 821 6 3 1, 7 6 91 2 6, 8 2 7,0 0 0
a
9 0, 0 6 271 2, 8 6 6
3 3 5 3, 6 0 09
R e g r e s s i o n
R e s i d u a l
T o t a l
M o d e l
1
S u m o f
S q u a r e sdf
M e a n
S q u a r eFS i g,
A N O V A
b
P r e d i c t o r s, ( C o n s t a n t ),G e n d e r,H O U R Sa,
D e p e n d e n t V a r i a b l e, G R A D Eb,
第五步:检查整个模型的显著
性
看看方差分析
( ANOVA)结果
第六步:考虑多元共线性
Hours Grade Gender Race
1 = F 1 = W
1 46 1 2
2 44 2 1
3 62 1 2
4 68 1 2
5 64 2 1
6 76 2 1
7 88 1 2
8 86 1 2
9 96 2 1
10 98 2 1
如果性别和种族都加入的话,相关系数无意义。
第六步:考虑多元共线性
? 高度多元共线性( Extreme Multicollinearity),|R| >
0.9,应尽可能限制某些变量,避免高度多元共线形的
情况。
? 中度多元共线性( Moderate Multicollinearity)或低度
多元共线性可能会导致自变量与因变量相关符号与局
部回归相关符号不一致。
第七步:运用调整的 R2 解释小样本数据
,9 7 3
a
,9 4 7,9 4 14, 6 9
,9 8 6
b
,9 7 3,9 6 53, 5 9
M o d e l
1
2
RR S q u a r e
A d j u s t e d
R S q u a r e
S t d, E r r o r
o f t h e
E s t i m t e
M o d e l S u m m a r y
c
P r e d i c t o r s, ( C o n s t a n t ),H O U R Sa,
P r e d i c t o r s, ( C o n s t a n t ),H O U R S,G e n d e rb,
D e p e n d e n t V a r i a b l e, G R A D Ec,
基本原则
? 不要引入不显著的自变量
? 非标准化系数可能比 Beta 更重要
? 注重相关系数而不是相关,R2或显著性水平
? 相关系数的正负号仅决定了它的解释性而不
是重要性
? 在不少问卷调查中 R2都比较低
? 回归之后最好运用方差分析
第一步:初步观察数据
G r a d e s a n d H o u r s
H O U R S
121086420
G
R
A
D
E
100
90
80
70
60
50
40
Graphs/Scatter/
第二步:看看描述性统计
7 2, 8 0 0 01 9 3 3 410
5, 5 0 0 03 0 2 7 710
G R A D E
H O U R S
M e a n
S t d,
D e v i a t i o nN
D e s c r i p t i v e S t a t i s t i c s
1, 0 0 0,9 7 3
,9 7 31, 0 0 0
.,0 0 0
,0 0 0,
10
10
G R A D E
H O U R S
G R A D E
H O U R S
G R A D E
H O U R S
P e a r s o n
C o r r e l a t i o n
S i g,
( 1 - t a i l e d )
N
G R A D EH O U R S
C o r r e l a t i o n s
Analysis/Correla
tion/
Analysis/Descrip
tiveStatistics/De
scriptives/
第三步:看看回归方程
? 关注显著性( Significance)
? 解释标准化系数:均值为 0,方差为 1
? 解释非标准化相关系数:原始均值与方差
3 8, 6 6 73, 2 0 51 2, 0 6 4,0 0 0
6, 2 0 6,5 1 7,9 7 31 2, 0 1 5,0 0 0
( C o n s t a n t )
H O U R S
M o d e l
1
BS t d, E r r o r
U n s t a n d a r d i z e d
C o e f f i c i e n t s
B e t a
S t a n d a r d i
z e d
C o e f f i c i e n
ts
tS i g,
C o e f f i c i e n t s
a
D e p e n d e n t V a r i a b l e, G R A D Ea,
G r a d e s a n d H o u r s w i t h R e g r e s s i o n L i n e
G r a d e = 3 8, 7 + 6, 2 * H o u r s
H O U R S
121086420
G
R
A
D
E
100
90
80
70
60
50
40
第三步:看看回归方程
第四步:是否还有其他变量
Hours Grade Gender
(1 = female)
1 46 1
2 44 2
3 62 1
4 68 1
5 64 2
6 76 2
7 88 1
8 86 1
9 96 2
10 98 2
G r a d e s a n d H o u r s w i t h R e g r e s s i o n L i n e
G r a d e = 3 8, 7 + 6, 2 * H o u r s
H O U R S
121086420
G
R
A
D
E
100
90
80
70
60
50
40
第四步:是否还有其他变量
G r a d e s a n d H o u r s w i t h R e g r e s s i o n L i n e
G r a d e = 3 8, 7 + 6, 2 * H o u r s
H O U R S
121086420
G
R
A
D
E
100
90
80
70
60
50
40
第四步:是否还有其他变量
f
f
f
f
f
4 6, 0 8 03, 7 7 11 2, 2 1 9,0 0 0
6, 5 4 3,4 1 61, 0 2 61 5, 7 3 4,0 0 0
- 6, 1 7 72, 3 8 9-, 1 6 9- 2, 5 8 6,0 3 6
( C o n s t a n t )
H O U R S
G e n d e r
M o d e l
1
BS t d, E r r o r
U n s t a n d a r d i z e d
C o e f f i c i e n t s
B e t a
S t a n d a r d i
z e d
C o e f f i c i e n
ts
tS i g,
C o e f f i c i e n t s
a
D e p e n d e n t V a r i a b l e, G R A D Ea,
既然性别的标准差较小,和小时数相比,它的非标准化系数会被夸大。
第四步:是否还有其他变量
这意味着小时
数和性别同样
重要,是吗?
3 2 6 3, 5 3 821 6 3 1, 7 6 91 2 6, 8 2 7,0 0 0
a
9 0, 0 6 271 2, 8 6 6
3 3 5 3, 6 0 09
R e g r e s s i o n
R e s i d u a l
T o t a l
M o d e l
1
S u m o f
S q u a r e sdf
M e a n
S q u a r eFS i g,
A N O V A
b
P r e d i c t o r s, ( C o n s t a n t ),G e n d e r,H O U R Sa,
D e p e n d e n t V a r i a b l e, G R A D Eb,
第五步:检查整个模型的显著
性
看看方差分析
( ANOVA)结果
第六步:考虑多元共线性
Hours Grade Gender Race
1 = F 1 = W
1 46 1 2
2 44 2 1
3 62 1 2
4 68 1 2
5 64 2 1
6 76 2 1
7 88 1 2
8 86 1 2
9 96 2 1
10 98 2 1
如果性别和种族都加入的话,相关系数无意义。
第六步:考虑多元共线性
? 高度多元共线性( Extreme Multicollinearity),|R| >
0.9,应尽可能限制某些变量,避免高度多元共线形的
情况。
? 中度多元共线性( Moderate Multicollinearity)或低度
多元共线性可能会导致自变量与因变量相关符号与局
部回归相关符号不一致。
第七步:运用调整的 R2 解释小样本数据
,9 7 3
a
,9 4 7,9 4 14, 6 9
,9 8 6
b
,9 7 3,9 6 53, 5 9
M o d e l
1
2
RR S q u a r e
A d j u s t e d
R S q u a r e
S t d, E r r o r
o f t h e
E s t i m t e
M o d e l S u m m a r y
c
P r e d i c t o r s, ( C o n s t a n t ),H O U R Sa,
P r e d i c t o r s, ( C o n s t a n t ),H O U R S,G e n d e rb,
D e p e n d e n t V a r i a b l e, G R A D Ec,
基本原则
? 不要引入不显著的自变量
? 非标准化系数可能比 Beta 更重要
? 注重相关系数而不是相关,R2或显著性水平
? 相关系数的正负号仅决定了它的解释性而不
是重要性
? 在不少问卷调查中 R2都比较低
? 回归之后最好运用方差分析