李炜制作
第三讲 SPSS的主要窗口和菜单
1 SPSS的 3个主要窗口
1-1 数据编辑器窗口( SPSS Data Editor):用来编辑和
显示数据;在此窗口中的文件名称为 *,sav。
1-2 程序语句编辑器窗口( SPSS Syntax Editor):用来
编写各种程序;在此窗口中的文件名称为 *,sps。
1-3 结果观看窗口( SPSS Viewer):显示统计运算结果;
在此窗口中的文件名称为 *,spo。
李炜制作
2 SPSS 数据编辑器的主要菜单
2-1 File 菜单:文件管理
New; Open; Save; Save as; Exit。
2-2 Edit 菜单:编辑
Undo; Cut; Copy; Paste; Clear; Find;
2-3 View菜单:视图
Fonts; Grid lines; Value labels。
李炜制作
2-4 Data菜单:数据整理
define variables; Insert variables; Insert case;
go to case; sort case; select case。
2-5 Transform菜单:数据转换
recode; compute; count。
2-6 Statistics菜单:统计
2-7 Graphs菜单:统计图
2-8 Utilities菜单:工具附件
2-9 Windows菜单:窗口
2-10 Help菜单:帮助
李炜制作
第四讲 SPSS的单变量描述统计
1 单变量描述统计介绍
A变量的尺度:
a 定类 Category Scale:只能计次
b 定序 Ordinal Scale:计次, 排序
c 定距 Interval Scale:计次, 排序, 加减
d 定比 Ratio Scale:计次, 排序, 加减, 乘除
李炜制作
B变量的统计描述:
分布 Distribution
集中趋势 Central tendency
离散趋势 Dispersion
李炜制作
A G E
8378747066625854504642383430262218
C
o
u
n
t
60
50
40
30
20
10
0
分布
平均数
中位数
众数
离散程度
李炜制作
C 分尺度的集中趋势和离散趋势
集中趋势 离散趋势 SPSS 命令
定类 众数 M ode
( 出现最多的数值 )
异众比
定序 中位数 M e d i a n
( 数值依序排列时居中的数值 )
级差 R a n g e
四分位数 Q u a r t i l e s
F r e q u e n c i e s
定距
及
定比
平均数 M ean 标准差 S t d, D e v i a t i o n
方差 v a r i a n c e
D e s c r i p t i v e s
n
x
X
i
?
?
n
xx
DS
i
2
?
?
?
?
?
?
?
?
??
李炜制作
2 SPSS的单变量描述统计命令
A Frequencies,频数统计
Statistics— Summarize— Frequencies
李炜制作
婚姻状况
149 1 1, 9 1 1, 9 1 1, 9
1026 8 1, 8 8 1, 8 9 3, 7
15 1, 2 1, 2 9 4, 9
4,3,3 9 5, 2
54 4, 3 4, 3 9 9, 5
6,5,5 1 0 0, 0
1254 1 0 0, 0 1 0 0, 0
未婚
已婚
离婚后未再婚
离婚后再婚
丧偶后未再婚
丧偶后再婚
T o t a l
F r e q u e n cy P e r ce n t
V a l i d
P e r ce n t
C u m u l a t i v e
P e r ce n t
变量值 频数 百分比 有效百分比
累计百分比
李炜制作
文化 程度
47 3, 7 3, 7 3, 7
69 5, 5 5, 5 9, 3
65 5, 2 5, 2 1 4, 4
3 0 7 2 4, 5 2 4, 5 3 8, 9
3 9 3 3 1, 3 3 1, 3 7 0, 3
1 8 2 1 4, 5 1 4, 5 8 4, 8
1 7 2 1 3, 7 1 3, 7 9 8, 5
16 1, 3 1, 3 9 9, 8
3,2,2 1 0 0, 0
1 2 5 4 1 0 0, 0 1 0 0, 0
不识字或识字很少
初小
高小
初中
高中中专或中技
大专
大学本科
研究生以上
未回答
T o t a l
V a l i d
F r e q u e n c y P e r c e n t V a l i d P e r c e n t
C u m u l a t i v e
P e r c e n t
中位数
李炜制作
文 化程 度
47 3, 7 3, 8 3, 8
69 5, 5 5, 5 9, 3
65 5, 2 5, 2 1 4, 5
307 2 4, 5 2 4, 5 3 9, 0
393 3 1, 3 3 1, 4 7 0, 4
182 1 4, 5 1 4, 5 8 5, 0
172 1 3, 7 1 3, 7 9 8, 7
16 1, 3 1, 3 1 0 0, 0
1251 9 9, 8 1 0 0, 0
3,2
1254 1 0 0, 0
不识字或识字很少
初小
高小
初中
高中中专或中技
大专
大学本科
研究生以上
T o t a l
V a l i d
S y s t e mM i s s i n g
T o t a l
F r e q u e n c y P e r c e n t V a l i d P e r c e n t
C u m u l a t i v e
P e r c e n t
百分比和有效百分比
李炜制作
B Descriptives,定距变量描述统计
Statistics— Summarize— Descriptives
李炜制作
D e s c r i p t i v e S t a t i s t i c s
1 2 5 4 18 88 4 4, 5 7 1 5, 0 0
1 2 5 4
A G E
V a li d N ( l i s t w i s e )
N M i n i m u m M a x i m u m M e a n
S t d,
D e v i a t i o n
变量名
平均数
标准差
最小值
最大值
李炜制作
第四讲 SPSS的双变量关系描述统计(一)
列联与方差分析
1、变量关系概述
寻找变量间的关系是科学研究的首要目的。变量
间的关系最简单的划分即是有关与无关。
在统计学上,我们通常这样判断变量之间是否有
关:如果一个变量的取值发生变化,另外一个变
量的取值也相应发生变化,则这两个变量有关。
如果一个变量的变化不引起另一个变量的变化则
二者无关。
李炜制作
1 通过考试 2 未通过考试
1 男性 40% 60%
2 女性 40% 60%
总计 40% 60%
性别与四级英语考试通过率的相关统计
表述:统计结果显示,当性别取值不同时,通过率
变量的取值并未发生变化,因此性别与考试通过率
无关。
自变量的不同取值在因变量上无差异,两变量无关。
自变量的不同取值在因变量上有差异,两变量有关。
因变量
自变量
李炜制作
每月工资平均数 N
1 男性 752,40 452
2 女性 601,97 409
总计 680,95 861
表述:统计结果显示,当性别取值不同时,收入变
量的取值发生了变化,因此性别与月收入有关。
自变量
因变量
李炜制作
2、双变量关系的统计类型
定类 定序 定距
定类 列联
c r o s s - t a b u l a t e
列联
c r o s s - t a b u l a t e
方差分析 (分组平均数)
c o m p a r e m e a n s
定序 列联
c r o s s - t a b u l a t e
积差相关
s p e a r m a n c o r r e l a t i o n
积差相关
s p e a r m a n c o r r e l a t i o n
积矩相关
p e a r s o n c o r r e l a t i o n
定距 积矩相关
p e a r s o n c o r r e l a t i o n
回归
r e g r e s s i o n
李炜制作
3、列联统计
3-1 列联表的格式
性别 * 文 化 程 度 C r o s s t a b u l a t i o n
71 1 6 3 2 0 2 1 9 4 6 3 0
1 1, 3 % 2 5, 9 % 3 2, 1 % 3 0, 8 % 1 0 0, 0 %
3 9, 2 % 5 3, 1 % 5 1, 4 % 5 2, 4 % 5 0, 4 %
5, 7 % 1 3, 0 % 1 6, 1 % 1 5, 5 % 5 0, 4 %
1 1 0 1 4 4 1 9 1 1 7 6 6 2 1
1 7, 7 % 2 3, 2 % 3 0, 8 % 2 8, 3 % 1 0 0, 0 %
6 0, 8 % 4 6, 9 % 4 8, 6 % 4 7, 6 % 4 9, 6 %
8, 8 % 1 1, 5 % 1 5, 3 % 1 4, 1 % 4 9, 6 %
1 8 1 3 0 7 3 9 3 3 7 0 1 2 5 1
1 4, 5 % 2 4, 5 % 3 1, 4 % 2 9, 6 % 1 0 0, 0 %
1 0 0, 0 % 1 0 0, 0 % 1 0 0, 0 % 1 0 0, 0 % 1 0 0, 0 %
1 4, 5 % 2 4, 5 % 3 1, 4 % 2 9, 6 % 1 0 0, 0 %
C o u n t
% w i t h i n 性别
% w i t h i n 文化 程度
% o f T o t a l
C o u n t
% w i t h i n 性别
% w i t h i n 文化 程度
% o f T o t a l
C o u n t
% w i t h i n 性别
% w i t h i n 文化 程度
% o f T o t a l
男
女
T o t a l
高小 以下 初中
高中 中专或
中技 大专 以上
文化 程度
T o t a l
自变量
因变量
人数
行百分比
列百分比
总百分比
边缘百分比
边缘百分比条件百分比
李炜制作
3-2 列联分析的原理:
自变量发生变化,因变量取值是否也发生变化。
比较边缘百分比和条件百分比的差别 。
李炜制作
4-1) 变量关系强度的含义,
指两个变量相关程度的高低。统计学中是以准实
验的思想来分析变量相关的。通常从以下的角度
分析:
A)两变量是否相互独立。
B)两变量是否有共变趋势。
C)一变量的变化多大程度上能由另一变量的变
化来解释。
4 列联变量的关系强度测量
李炜制作
4-2) 双变量关系强度测量的主要指标
定类 定序 定距
定类
卡方类测量 卡方类测量
E t a 系数
定序
? S p e a r m a n
相关系数
? 同序 - 异序
对测量
S p e a r m a n 相
关系数
定距
P e a r s o n 相关
系数
李炜制作
4-3)卡方测量的原理:
卡方测量用来考察两变量是否独立 (无关 )。
其原理是根据这一概率定理:若两变量无关,则
两变量中联合事件发生的概率应等于各自独立发
生的概率乘积。
jiij PPP,,??
在列联表中,这一定理就具体转化为,若两变量无
关,则两变量中条件概率应等于各自边缘的概率乘
积。反之,则两变量有关,或,两变量不独立。
李炜制作
示例
患肺癌 未患肺癌
吸烟 6 24 30%
不吸烟 14 56 70%
20% 80% 100%15 15
655
观察值
边缘概率
边缘概率
期望条件
概率
9
9-9
-9
残差
李炜制作
由此可见,期望值(独立模型)与观察值
的差距越大,说明两变量越不独立,也就
越有相关。 因此,卡方的表达式如下:
卡方的取值在 0~∞之间。卡方值越大,关
联性越强。在 SPSS中,有 Pearson X2和相
似比卡方( Likelihood Ratio X2 )两种。
? ? ??
j i ij
ijij
E
EOX 22 )(
李炜制作
4-4) 的改进标准化系数,
为使 值有一固定的区间,便于比较,
采用了以下几个修正:
2X
2X
A,φ系数( Phi),(0~1),适用于 2× 2表。
B,列联系数( Contingency Coefficient):
(0~1),适用任意表。
C,Cramer V系数,(0~1),适用任意表。
D,λ系数 (Lambda),(0~1),适用任意表。
E,Goodman & Kruskal-tau系数, (0~1),适用任
意表。
李炜制作
5 列联统计命令:
Statistics— Summarize— Crosstabs
李炜制作
第五讲 SPSS的双变量关系描述统计(二)
分组平均数比较(方差分析)
1、分组平均数比较的含义
当一个变量为定类变量,另一变量为定距变量时,
两变量间是否有关,通常以分组平均数比较的方
法来考察。即按照定类变量的不同水平来分组,
看每个分组的定距变量的平均数是否有差异。不
同组间的平均数差异越小,两个变量间的关系越
弱;相反,平均数差异越大,变量间关系越强。
李炜制作
2、分组平均数比较的格式
不同性别的分组平均数比较
现在每月工资
7 5 2, 4 0 4 5 2 5 7 3, 1 3
6 0 1, 9 7 4 0 9 4 1 3, 1 6
6 8 0, 9 5 8 6 1 5 0 8, 8 2
性别
男
女
T o t a l
M e a n N
S t d,
D e v i a t i o n
李炜制作
不 同 文 化 程 度 的 分 组 平 均 数 比 较
现在 每月 工资
3 0 2, 8 6 7 1 3 7, 9 3
4 6 0, 2 8 18 1 7 6, 6 4
7 7 3, 5 0 22 1 3 8 6, 8 2
5 4 6, 9 5 2 1 3 3 2 6, 5 8
6 7 6, 5 7 3 1 2 4 7 0, 1 8
7 9 3, 6 6 1 4 6 4 6 0, 9 1
8 2 8, 8 6 1 2 5 6 1 8, 1 9
6 6 6, 0 0 15 3 2 5, 0 0
6 0 3, 3 3 3 1 9 4, 4 4
6 8 0, 9 5 8 6 1 5 0 8, 8 2
文化 程度
不识 字或 识字 很少
初小
高小
初中
高中 中专 或中 技
大专
大学 本科
研究 生以 上
未回 答
T o t a l
M e a n N
S t d,
D e v i a t i o n
李炜制作
3、定类 — 定距变量的关系强度测量
定类变量和定距变量的关系强度测量采用 F统计的
方法,即方差分析。
3-1 F统计的原理
F统计的目的是分析分组的平均数是否相等。如果
相等,说明组间没有差别;如果不相等,说明组间
平均数有差异,这时分组是有效的。但 F统计独特
的地方是,它并不直接利用平均数来比较,而是利
用与方差有关的统计指标总变差( SST)、组间变
差( SSB)、组内变差( SSW)的关系来进行判别。
李炜制作
男
女收入
Y总 =800元 Y女 =800元 Y男 =800元
李炜制作
男
女收入
Y总 =800元 Y
女 =600元
Y男 =1000元
李炜制作
收
入
y
女y
男y
Yi y Yi 男y
男
女
男y y
女y y
2)( )(? ?? yyS S T ij总变差 2)( )(? ??? jij yyS S W 组内变差
2)( )(? ?? ? yyS S B j组间变差 SST=SSB+SSW
李炜制作
三者的关系是,
SST是总变差,即未分组的数据的变差,总方差的分子 。
SST= SSB+SSW
2)(? ?? yyS S T
ij
SSB是组间变差,各组平均数与总平均数的离差平方和
SSW是组内变差,每组数据和该组平均数的离差平方和。
2)(? ??
? yySSB j
2)(?
??? jij yyS S W
李炜制作
工业社区 商业社区 农业社区 组间 总计
国家1 4.3 5.1 12.5
国家2 2.8 6.2 3.1
国家3 12.3 1.8 1.6
国家4 16.3 9.8 6.2
国家5 5.9 4.1 3.8
国家6 7.7 3.6 7.1
国家7 9.1 11.2 11.4
国家8 10.2 3.3 1.9
平均数 8.58 5.64 5.95 6.72
方差
变差
样本量 8 8 8 24
凶杀率
李炜制作
工业社区 商业社区 农业社区 组间 总计
国家1 4.3 5.1 12.5
国家2 2.8 6.2 3.1
国家3 12.3 1.8 1.6
国家4 16.3 9.8 6.2
国家5 5.9 4.1 3.8
国家6 7.7 3.6 7.1
国家7 9.1 11.2 11.4
国家8 10.2 3.3 1.9
平均数 8.58 5.64 5.95 6.72
方差 19.43 10.80 17.44 16.32
变差 1 5 5, 4 5 8 6, 3 8 1 3 9, 5 0 10.30 391.62
样本量 8 8 8 24
组内变差和
SSW 381.32
组间变差和
SSB 10.3
凶杀率
李炜制作
由于方差和变差标志着每一数据对其平均数的偏离(即
异质性),因此,F值( F=SSB/SSW)含义就可理解为
组间异质性和组内异质性的比较。 F值的范围在 0到正无
穷大之间。当 F值 >1,则说明组与组间的差别大于组内
的差别,也就说明这时组间平均数的差异是存在的。
李炜制作
工业社区 商业社区 农业社区 组间 总计
国家1 4.3 5.1 12.5
国家2 2.8 6.2 3.1
国家3 12.3 1.8 1.6
国家4 16.3 9.8 6.2
国家5 5.9 4.1 3.8
国家6 7.7 3.6 7.1
国家7 9.1 11.2 11.4
国家8 10.2 3.3 1.9
平均数 8.58 5.64 5.95 6.72
方差 19.43 10.80 17.44 16.32
变差 1 5 5, 4 5 8 6, 3 8 1 3 9, 5 0 10.30 391.62
样本量 8 8 8 24
组内变差和
SSW 381.32
组间变差和
SSB 10.3
F 值= ( S S B /d f ) /( S S W /d f ) 3.53
凶杀率
李炜制作
3-2定类 — 定距变量的关系强度系数 Eta2
F值和列联统计中的 X2一样,取值范围在 0到正无
穷大之间。因此,也需要对 F值加以修正,形成一
个标准化的关系系数。 Eta2就是这样的一个系数。
Eta2=SSB/SST
即在总变差中,组间变差所占的比例。 Eta2的取值
范围在 0~+∞之间,越接近 1,就表明组间差异越大;
越接近 0,就表明组间平均数趋于一致。
李炜制作
工业社区 商业社区 农业社区 组间 总计
国家1 4.3 5.1 12.5
国家2 2.8 6.2 3.1
国家3 12.3 1.8 1.6
国家4 16.3 9.8 6.2
国家5 5.9 4.1 3.8
国家6 7.7 3.6 7.1
国家7 9.1 11.2 11.4
国家8 10.2 3.3 1.9
平均数 8.58 5.64 5.95 6.72
方差 19.43 10.80 17.44 16.32
变差 1 5 5, 4 5 8 6, 3 8 1 3 9, 5 0 10.30 391.62
样本量 8 8 8 24
组内变差和
SSW 381.32
组间变差和
SSB 10.3
F 值= ( S S B /d f ) /( S S W /d f ) 3.53
凶杀率
Eta2=0.026
李炜制作
不同性别的分组平均数比较
现在每月工资
7 5 2, 4 0 4 5 2 5 7 3, 1 3
6 0 1, 9 7 4 0 9 4 1 3, 1 6
6 8 0, 9 5 8 6 1 5 0 8, 8 2
性别
男
女
T o ta l
M e a n N
St d,
D e v i a t i o n
性 别 与 工 资 的 方 差 分 析 表 ( A N O V A )
a
4 8 5 8 8 9 6, 8 2 1 1 4 8 5 8 8 9 6, 8 1 9, 1 6 4
2 1 7 7 8 9 8 2 7, 6 859 2 5 3 5 3 8, 7 9 8
2 2 2 6 4 8 7 2 4, 4 860
B e t w e e n G r o u p s
W i t h i n G r o u p s
T o t a l
现在每月
工资 * 性
别
S u m o f
S q u a r e s df
M e a n
S q u a r e F
a,
李炜制作
关系强度的测量( M e a s u r e s o f A s s o c i a t i o n )
,1 4 8, 0 2 2
现在每月工资
* 性别
Et a Et a Sq u a r e d
李炜制作
4 SPSS中分组平均数和方差分析的统计命令
Statistics— Compare Means— Means
李炜制作
第六讲 SPSS的双变量关系描述统计(三)
相关
1 定距 — 定距尺度 ( Pearson Cor.)
1)相关的含义,
相关 (Correlation)是用来作两个定距变量关系的
统计分析,考察两变量是否存在共同变化的趋势。
如年龄与收入。
2 )积矩相关的统计原理:
两变量共同变化的趋势在统计中用 共变异数
( Covariance) 来表示。即 A变量的取值从低到
高(或从高到低)变化时,B变量是否也同样发
生变化。
李炜制作
当两变量在同一方向上变化,称为有正相关;相反
方向变化,称为负相关;无变化即无相关。相关系
数即用来表示相关的程度。
丈夫收入 妻子收入
600 580
750 600
770 620
810 750
810 650
如:
李炜制作
X(丈夫收入 ); Y(妻子收入 )
Y
X
P(xi,yi)Y=k
k
李炜制作
X
Y
P(xi,yi)
)( xxi ?
)( yyi ?
+
-
-
+
共变异数 (协方差 )= ))(( yyxx ii ??
李炜制作
X
Y
+
-
-
+
散点越集中于 1,3象限,共变异数的和正值约大;
散点越集中于 2,4象限,共变异数的和负值约大;
散点越均匀分布于各象限,共变异数的和越趋近于 0。
? ?? ))(( yyxx ii
李炜制作
3)相关系数的计算公式:
? ??? ?
?? ?
?
22
)()(
)()(
yyxx
yyxx
r
ii
ii
由此公式可看出:
1 相关就是共变异数的标准化。
2 相关系数 r的取值范围在( -1,+1)之间。
+1代表完全正相关; -1表示完全负相关; 0
表示无相关。
李炜制作
示例:通过此题来演算相关系数 。
丈夫收入
x
妻子收入
y
xx i ? yy
i
? )()( yyxx
i
i
???
2
)( xx
i
?
2
)( yy
i
?
1 600 580 - 1 4 8 -60 8880 21904 3600
2 750 600 2 -40 -80 4 1600 r = 0, 6 8 3
3 770 620 22 -20 -440 484 400
4 810 750 62 110 6820 3844 12100
5 810 650 62 10 620 3844 100
平均, 748 640 总计, 15800 30080 17800 23139.23
李炜制作
2 定序 — 定序尺度 ( Spearman Cor.)
积差相关的公式:
积差相关又称等级相关,用来考察两个定序变量间
的相关关系。它的公式是由积矩相关转变而来,
)1(
61
2
2
?
???
NN
Dr
其中,D是每一对因变量和自变量的序数的差值; N是总
的排序的序数。
李炜制作
示例:
丈夫文化
程度
妻子文化
程度
D D
2
6D
2
N ( N
2
- 1 )
r
第 1 对 1 2 1 1
第 2 对 2 1 1 1
第 3 对 3 3 0 0
第 4 对 4 4 0 0
第 5 对 5 5 0 0
第 6 对 6 6 0 0
总计 2 18 210 0,9 1
李炜制作
3 SPSS中的相关统计命令
Statistics--Correlate--Bivariate
李炜制作
4 相关统计的输出格式
C orr e l a t i o ns
1, 0 0 0 -, 0 7 9 *
., 0 2 0
1 2 5 4 8 6 1
-, 0 7 9 * 1, 0 0 0
,0 2 0,
8 6 1 8 6 1
P e a r s o n
C o r r e l a t i o n
S i g, ( 2 - t a i l e d )
N
P e a r s o n
C o r r e l a t i o n
S i g, ( 2 - t a i l e d )
N
A G E
现在每月工资
A G E 现在每月工资
C o r r e l a t i o n i s s i g n i f i c a n t a t t h e 0, 0 5 l e v e l ( 2 - t a i l e d ),*,
相关系数
人数
李炜制作
1 回归的含义:
回归( Regression,或 Linear Regression)和相
关同样都用来分析两个定距变量间的关系,但回
归有明确的因果关系假设。即要假设一个变量为
自变量,一个为因变量,自变量对因变量的影响
就用回归表示。如年龄对收入的影响。由于回归
构建了变量间因果关系的数学表达,它具有统计
预测功能。
第六讲 SPSS的双变量关系描述统计(四)
线性回归
李炜制作
2 回归的统计原理:
两个定距变量的回归是用函数
y= f( x)
来分析的。我们最常用的是一元回归方程
bxay ??
其中 x为自变量; y为因变量; a为截距,即常量; b
为回归系数,表明自变量对因变量的影响程度。
李炜制作
360
370
380
390
400
410
420
430
440
0 1 2 3 4 5
工龄
工资
Y=350+20x
李炜制作
在统计学中,这一方程中的系数是靠 x与 y变量的
大量数据拟合出来的。
X
Y Y=a+bx
( x,y)
李炜制作
由图中可以看出,回归直线应该是到所有数据点最
短距离的直线。该直线的求得即使用“最小二乘方
法”,使,
? ? 0? 2 ??? ii yy
在拟合的回归直线方程中,回归系数:
?
?
?
???
2)(
))((
xx
yyxx
i
iib
表示 x每变化一个单位时,x与 y共同变化的程度
(共变异数)。
xbya ??常数
李炜制作
上学年数
X
工资
Y )( xx
i
? )( xx
i
?
2
)( yy
i
? )( xx
i
? )( yy
i
?
6 4 8 0 - 5, 1 2 6, 0 1 - 1 5 7 8 0 0, 7
6 6 2 0 - 5, 1 2 6, 0 1 - 1 7 8 6, 7
9 6 0 0 - 2, 1 4, 4 1 - 3 7 7 7, 7
9 6 2 0 - 2, 1 4, 4 1 - 1 7 3 5, 7
9 6 3 0 - 2, 1 4, 4 1 -7 1 4, 7
12 6 0 0 0, 9 0, 8 1 - 3 7 - 3 3, 3
12 7 0 0 0, 9 0, 8 1 63 5 6, 7
16 6 5 0 4, 9 2 4, 0 1 13 6 3, 7
16 7 2 0 4, 9 2 4, 0 1 83 4 0 6, 7
16 7 5 0 4, 9 2 4, 0 1 1 1 3 5 5 3, 7
平均 1 1, 1 6 3 7
总计 1 3 8, 9 2 0 6 3
b 1 4, 8 5 2 4 1
a 4 7 2, 1 3 8 2
李炜制作
比如通过上学年数和工资的关系计算得出下列的
回归公式:
y=472+14.8x
就可知上学年数每增长 1年,工资会增加 14.8元;
也可推测,上学年数为 15年的人,工资收入应为
472 + 14.8 *15=694元。
李炜制作
3 SPSS线性回归的统计命令
Statistics— Regression— Linear
李炜制作
自变量
因变量
回归方式
李炜制作
4 SPSS线性回归的输出格式:
C o e ffi c i e n ts
a
8 2 3, 3 6 3, 5 4 0 1 2, 9 5 8, 0 0 0
-3, 4 8 7 1, 4 9 7 -,0 7 9 -2, 3 2 9, 0 2 0
(C o n s t a n t )
年龄
M o d e l
1
B
S t d,
E rro r
U n s t a n d a rd i z e d
C o e f f i c i e n t s
B e t a
S t a n d a rd i z e d
C o e f f i c i e n t s
t S i g,
D e p e n d e n t V a ri a b l e, 现在每月工资a,
常数
自变量
回归系数
标准化回归系数
每月工资 =823.3-3.487年龄
李炜制作
1 推断统计的一般概念
1.1 推断统计的含义及类型:
( 1)含义:推断统计是指用概率分布的方法,
由 样本的统计量 推断 总体参数 的统计方式。
第七讲,SPSS的推断统计(一)
参数估计和单变量的假设检验
李炜制作
样本统计量,样本中某个变量的统计值。如此次调
查中高中文化程度的人占 32%。
样本 32%
总体参数,与样本中某个变量的统计值相对应的
总体中的统计值。如全市人口中高中比例为 38%。
总体 38%
李炜制作
样本统计量有可能等于总体参数,也有可能不等
于总体参数,但二者之间有着某种概率关系。 推
断统计就是教会我们如何利用这种概率关系来由
样本统计量推估总体参数。
为了区别样本和总体的不同,样本的平均数用 x
来表示,标准差用 S表示;总体的平均数用 μ表
示,标准差用 σ表示。因此,推断统计往往
可以看作是由 x 推断 μ。
李炜制作
样本 32%
总体
μ=?
( 2)类型:推断统计分为 参数估计 和 假设检验
两大类。
参数估计,根据一个随机样本的统计值来估计总
体参数。即已知样本,估计总体。
x
李炜制作
假设检验,先假定总体参数为 μ,用一个随机样
总体
μ=38%样本 32%x
来检验总体参数为 μ的假设是否成立。本的统计量 x
李炜制作
1.2推断统计的原理:
参数估计和假设检验都是利用 正态分布 的概率特
征来进行的。
( 1) 正态分布 ( μ,σ),
正态分布是一种统计分布,它有如下几个特征:
A 单峰对称;
B 平均数、中位数、众数合一,都在峰点;
C μ ± 1.96σ包含了 95%的面积;
μ ± 1.65σ包含了 90%的面积; 即面积和标准
差之间有一个固定换算。
李炜制作
正态分布 N( μ,σ)
μ ± 1.96 σ
平均数 μ
李炜制作170 ± 1.96*10
( 170,10)
例:某校同学的身高为正态分布,平均值为 170cm,标准
差为 10cm。问:
1)高于平均数 1.5个标准差的同学身高是多少?
2) 162cm身高的同学距平均数有几个标准差?
3) 95%的同学身高会在什么范围内?
李炜制作
解 1,Xi=μ+Z*σ=170+1.5*10=185cm;
解 2,Z=(Xi - μ)/ σ=(162-170)/10=-0.8;
解 3,Xi = μ-Z *σ =170-1.96*10=150.4
Xi = μ+Z *σ =170+1.96*10=189.6 (150.4~189.6)
由上可得出,?
??? ixZ
其中 Xi为分布中任何一个值,μ是平均数; σ
是标准差。 Z是 Xi距离平均数 μ的标准差单位,
又称 Z分数,同时也表示 Xi与平均数 μ之间的面
积。
李炜制作
( 2) 标准正态分 ( Z分布),N( 0,1)
标准化了的正态分布。即平均数 =0,标准差 =1
的正态分布。
( 0,1)
σ=1
李炜制作
( 3) 总体分布, D( μ, σ )总体中某变量的几
何分布。有可能是正态分布,也可能不是正态分
布。
A G E
9383736353433323
A G E
Fr
eq
ue
nc
y
500
400
300
200
100
0
S t d, D e v = 1 5, 0 0
M e a n = 4 5
N = 1 2 5 4, 0 0
李炜制作
( 4) 样本分布, D( x, S)
样本中某变量的统计分布,和总体分布一样,
它有可能是正态分布,也可能不是正态分布。
A G E
9383736353433323
A G E
F
r
e
q
u
e
n
c
y
500
400
300
200
100
0
李炜制作
n
?
x
( 5)样本平均数的抽样分布,N( μ, )
从总体中多次重复抽取容量为 n的样本,每个样本平
均数的所形成的统计分布。是由多个 组成的。
总体分布样本平均数的
抽样分布
D( μ,σ )
N( μ,n
?
)
李炜制作
样本平均数的抽样分布的特点,
x
ix
n
?
B 正态分布。
C 它的平均数就等于总体的平均数 μ,标准差则是
A 是由多个 组成,
因此,我们所作的任何一次抽样的平均数
都可看作是样本平均数的抽样分布中的一个点。
它会有 95%的概率落在 μ ± 1.96
总体标准差 σ的 n1 倍。即
的范围内。
n
?, 又被称作
标准误( Standard Error,S, E)
李炜制作
总体分布 (μ, σ )
样本分布 (,s)x 样本平均数的抽样
分布 (μ,)n
?
三种分布的关系
李炜制作
推断统计的原理就是,
利用样本平均数的抽样分布的正态特征,以及
与 μ的包含关系,来从样本统计量推估总体参数
(即参数估计),或用样本统计量检验有关总体
参数的假设(假设检验)。
由此可见,参数估计和假设检验实际是相同的。
ix
在实际调查中,我们便是利用这一原理,用一次
调查的结果来推断总体的参数。我们把某一次调
查的结果看作是同样样本规模的无数次调查中的
一次,它是样本平均数的抽样分布中的一个点
,可用来估计总体参数 μ。 i
x
李炜制作
2 参数估计的步骤
1)求出样本的平均数、标准差;
2)求出总体的标准差(如未知,可用样本的
标准差代替)
3)设定参数估计的 置信区间 [即参数估计的把
握性 ]( 90%? 95%?)的 Z值( 1.65? 1.96?)
4)根据 ESZx
i,????
计算出 μ的所在范围。
李炜制作
例:已知某学校的学生每天课外活动时间的标准差为
15分钟。现从学生中随机抽取 25人,得知他们的课外
活动时间平均为 60分钟,问该校学生总体平均每天的
课外活动时间会是多少?(选择 95%的置信区间)
解,x =60
S.E=15 / 25 1/2
Z=1.96
ESZx i,????
=60± 5.88≈60± 6
54< μ< 66
李炜制作
例:在此次调查中,男性共 630人,平均年龄
为 45岁,标准差为 15;女性共 620人,平均年
龄为 44岁,标准差为 14。问:
1)男性与女性各自平均年龄的总体参数是多
少?( 95%的置信区间)
解:
男性 630
15*96.145,????? ESZx
i?
=45 ± 1.176 43.824< μ< 46.176
李炜制作
女性, 620
14*96.144,????? ESZx
i?
=44 ± 1.1 42.9< μ< 45.1
2) 从总体上看,男女年龄是否有差异?
解:比较男女平均年龄的总体参数的区间,
μ男 ( 43.8,46.1)
μ女 ( 42.9,45.1)
二者有交集,故总体年龄在 95%的置信度上
没有差异 。
李炜制作
答案,
1 611.2895.680861 82.50865.195.680 ???(652.339,709.561)
98.3395.680861 82.50896.195.680 ??? (646.97,714.93)
2 1036.094.51211 84.196.194.5 ??? (5.8364,6.0436)
096.067.61 2 2 473.196.167.6 ??? (6.574,6.766)
1 1 3.094.71 1 1 993.196.194.7 ??? (7.827,8.053)
李炜制作
3 比例数的参数估计:
当样本的统计量不是平均数,而是以比例的形式
出现时,比如,共青团员在调查中占 9.4%,也可
以用 μ=Xi± Z*S.E公式的变形:
P总 =Pi ± Z*S.E来推断总体参数。
其中,Pi为比例数形式的样本统计量,
n
ppES ii )1(,??
李炜制作
示例:
在此次抽样调查的 1254人中,共青团员的比例为 9.4%,求总
体中共青团员的比例参数(置信度为 95%)。
解,P总 =Pi ± Z*S.E
0 1 6.00 9 4.01 2 5 4 )0 9 4.01(0 9 4.096.10 9 4.0 ??????
(0.078,0.11)
总体中共青团员的比例有 95%的可能性在
7.8% ~ 11%的区间内。
李炜制作
4 假设检验的步骤:
示例,
纳税起征线的规定是根据当地居民的平均月收入
制定的。有关部门认为某地的起征线应为 800元,
因为根据经验当地居民平均月收入应不低于此数。
在当地进行的一次 400人的随机抽样表明,居民月
收入为 790元,标准差为 100元,请用此调查结果
在 95%的置信水平上检验居民月收入为 800元的说
法是否成立。
李炜制作
假设 m =800
800!1.96*5
m =800,样本容量为 400
时的样本平均数的抽样分
布,N( 800,5)
样本,X=790
李炜制作
4.1 假设检验的分布算法
1)确定有关总体参数 m的假设;如假设总体平均收入为
800元;
2)确定检验此假设的概率标准,即置信区间为 P=90%?
P=95%?( Z= 1.65? Z=1.96?)
x
(平均数、标准差、标准误,即样本平均数抽
样分布的标准差)。
4) 以 m为中心,作出样本平均数抽样分布的给定
概率区间。
3) 抽取一个随机样本,计算出, S,S.E
5)看在这一区间内是否包括了 x,如果包括,
就可以说,在给定的置信区间中(或在给定的概率条件下),验
证(接受)了原假设;如未包含,则说明原假设在给定的概率水
平上不成立(被否定),或说原假设在给定的显著度水平( 1-
给定概率)上被否定。
李炜制作
解:
1) 确定有关总体参数的假设
H0, m= 800; H1, m!800;
2) 确定检验此假设的概率标准:
置信度为 95%,显著度为 5%,即 Z= 1.96
3) 计算样本的有关统计量
= 790; S= 100; S.E= =100/20=5
4) 以 m为中心,作出样本平均数抽样分布的给定概率区
间。
( 800± 1.96× 5),即( 790.2~ 809.8)
5) 结论:此区间未包含样本统计量 790,因此在 5%的显
著水平上推翻原假设。当地居民的平均月收入小于 800
元。
x ns
李炜制作
4.2 假设检验的公式算法:
从上一算法中可以看出,Xi距 m的距离是检验假设的
关键指标:
Xi如果落在 m的 95%的置信区间之外,这时 |Zxi|〉
Z95%,即 |Zxi|〉 1.96。则原假设被否定的概率 〉 95%,
或者说,原假设成立的概率 〈 5%,我们称为在 5%
的显著水平上否定了原假设。
Xi如果落在 m的 95%的置信区间之内,这时 |Zxi|
〈 Z95%,即 |Zxi|〈 1.96。 我们称为在 5%的显著水平上
不能否定原假设。 因此,可以利用
n
s
xZ
i
m??
李炜制作
来直接计算出 |Zxi|是否大于 Z95%。
解:
1) 确定有关总体参数的假设
H0, m= 800; H1, m!800;
2) 确定检验此假设的概率标准:
置信度为 95%,显著度为 5%,即 Z= 1.96
3)计算 Zxi
25 8 0 07 9 0,?????? ESxz ixi ?
4)判定,Zxi=-2,绝对值大于 Z95%,因此在 5%的显
著水平上否定原假设 m= 800。
李炜制作
假设 m =800样本 1,X1= 795;S= 10
m!1.96S.
E
样本 2,X2=
790; S= 10
接受区 95%
拒绝区 5%
李炜制作
1 双变量统计关系假设检验概述
变量间关系的统计和变量关系强度的测量也同样存
在统计推断问题。即从样本中统计出的变量关系强
度系数(如 X2、各种相关系数)是否在总体上也有
效。
比如:根据我们的调查 1254人的统计结果得知性别)
与文化程度的卡方值为 27.89,W19.1与 W19.2的相
关系数 r=0.367,那么总体上这些变量之间是否也会
有同样的相关?
这就要依靠变量关系的假设检验。
第八讲,SPSS的推断统计(二)
双变量关系的假设检验
李炜制作
2 双变量统计关系假设检验的步骤
双变量的假设检验和单变量很相似,通常采用以下
的步骤:
1)确定双变量总体参数的假设:如假设总体中性别
与文化程度无关,即卡方值 =0; W19.1与 W19.2不相
关,即 r=0;
2)确定检验此假设的概率标准,即置信区间为 95%
或 90%(即显著度为 0.05或 0.1) ;
3)抽取一个随机样本,计算出样本中双变量关系的
统计量,如性别与文化程度的卡方值为 27.89,
W19.1与 W19.2的相关系数 r=0.367;
李炜制作
4)选择用来检验这些假设的概率分布,如标准正态
分布( Z分布)、卡方分布,t分布,F分布等,并根
据置信区间或显著度设立接受原假设的区间(接受
域)或拒绝区间(拒绝域);
5)观察样本的统计量的概率值是否落在接受区内,
从而判断是接受 /拒绝原假设。
一般而言,显著度(即拒绝域)一般都定在 0.05或
0.10。当检验的结果小于此,原假设就落在了拒绝域
中,因此就可以得出结论:变量间统计关系为 0的假
设在总体上是不成立的;而作出这一结论的显著性
(或者说,犯错误的概率) <5%或 10%;换言之,
样本中变量关系统计不为 0的结果在总体上是成立的,
而作出这一结论的显著性(或者说,犯错误的概率)
也同样 <5%或 10%;
李炜制作
3 变量关系的显著性检验类型
定类 定序 定距
定类 卡方类测量
( 卡方检验 )
卡方类测量
( 卡方检验 )
方差分析
(F 检验 )
定序
Spear m an 相
关系数
(Z 检验 )
Spear m an 相关
系数
(Z 检验 )
定距
Pears on 相关
(F 检验 )
回归系数
(T 检验 )
李炜制作
B 卡方计算公式,
4 SPSS中变量关系的显著性检验
1) 定类 — 定类尺度,X2检验
卡方检验是用来检验样本中两个定类变量的关系强度测量
结果(卡方值)是否能推断总体。
A X2检验的假设,H0,X2= 0; H1,X2≠0;
? ? ??
j i ij
ijij
E
EOX 22 )(
李炜制作
C 卡方分布形状
拒绝域
接受域
李炜制作
D SPSS中卡方检验示例(性别与文化程度)
步骤:
1)确定双变量总体参数的假设:
H0,X2= 0 ; H1,X2 ≠0;
2)确定检验此假设的概率标准:显著度为 0.05。
3)抽取一个样本容量为 1254的随机样本,计算出样本中
性别与文化程度的 X2= 27.89。
4)选择用来检验 H0 的分布,X2分布,并根据显著度
0.05设立接受域 (P>0.05)或拒绝域 (P<0.05);
5)观察样本的统计量的概率值是否落在接受域内,从而
判断是接受 /拒绝原假设。从下表看出,样本统计量 X2
= 27.89,概率值( Significance) =0.000<0.05,落在拒
绝域,因此,否定 H0;接受总体中 X2= 27.89的判断。
此判断犯错误的概率) =0.000<0.05。
李炜制作
性别 * 文化程度 C r o s s t a b u l a t i o n
7 34 30 1 6 3 2 0 2 89 97 8 6 3 0
1, 1 % 5, 4 % 4, 8 % 2 5, 9 % 3 2, 1 % 1 4, 1 % 1 5, 4 % 1, 3 % 1 0 0 %
1 4, 9 % 4 9, 3 % 4 6, 2 % 5 3, 1 % 5 1, 4 % 4 8, 9 % 5 6, 4 % 5 0, 0 % 5 0, 4 %
40 35 35 1 4 4 1 9 1 93 75 8 6 2 1
6, 4 % 5, 6 % 5, 6 % 2 3, 2 % 3 0, 8 % 1 5, 0 % 1 2, 1 % 1, 3 % 1 0 0 %
8 5, 1 % 5 0, 7 % 5 3, 8 % 4 6, 9 % 4 8, 6 % 5 1, 1 % 4 3, 6 % 5 0, 0 % 4 9, 6 %
47 69 65 3 0 7 3 9 3 1 8 2 1 7 2 16 1 2 5 1
3, 8 % 5, 5 % 5, 2 % 2 4, 5 % 3 1, 4 % 1 4, 5 % 1 3, 7 % 1, 3 % 1 0 0 %
1 0 0 % 1 0 0 % 1 0 0 % 1 0 0 % 1 0 0, 0 % 1 0 0 % 1 0 0, 0 % 1 0 0 % 1 0 0 %
男
女
T o t a l
不识字
或识字
很少 初小 高小 初中
高中中
专或中
技 大专
大学本
科
研究
生以
上
文化程度
T o t a l
C h i - S q u a r e T e s t s
2 7, 8 9 2
a
7, 0 0 0
3 0, 3 2 4 7, 0 0 0
9,7 0 6 1, 0 0 2
1 2 5 1
P e a r s o n C h i - S q u a r e
L i k e l i h o o d R a t i o
L i n e a r - b y - L i n e a r
A s s o c i a ti o n
N o f V a l i d C a s e s
V a l u e df
A s y m p,
S i g,
( 2 - s i d e d )
0 c e l l s (,0 % ) h a v e e x p e c t e d c o u n t l e s s t h a n 5, T h e
m i n i m u m e x p e c t e d c o u n t i s 7, 9 4,
a,
显著性检
验结果卡方值
李炜制作
2) 定类 — 定距尺度, F 检验
F检验是用来检验样本中一个定类变量和一个定距变量的关
系强度测量结果(分组平均数)是否能推断总体。如不同职
业的人在收入上是否有差异(即职业分组的平均收入是否不
同)。
A F 检验的假设:
H0,μ1= μ2 = μ3 =,..μk ;
H1,μ1 ≠μ2 ≠μ3≠,..μk ;
B F 值计算公式:
fdS S W
fdS S BF
./
./
组内方差
组间方差 =?
李炜制作
C F分布的形状
接受域
拒绝域
拒绝域
李炜制作
D SPSS中 F 检验示例(文化程度与收入)
步骤:
1)确定双变量总体参数的假设:
H0,μ1= μ2 = μ3 =,..μk ;
H1,μ1 ≠μ2 ≠μ3≠...μk ;
2)确定检验此假设的概率标准:显著度为 0.05。
3)抽取一个样本容量为 1254的随机样本,计算出样本中 文化程度与收入 的
F = 6.006。
4)选择用来检验 H0 的分布,F 分布,并根据显著度 0.05设立接受域 (P>0.05)
或拒绝域 (P<0.05);
5)观察样本的统计量的概率值是否落在接受域内,从而判断是接受 /拒绝原假
设。从下表看出,样本统计量 F = 6.006。 概率值( Significance) =0.000<0.05,
落在拒绝域,因此,否定 H0;拒绝总体中 H0,μ1= μ2 = μ3 =,..μk 的判断。
即由样本可以推断总体,不同的文化程度,收入有差别;文化程度与收入有
关。
李炜制作
R e p o r t
现 在每 月 工资
3 0 2, 8 6 7 1 3 7, 9 3
4 6 0, 2 8 18 1 7 6, 6 4
7 7 3, 5 0 22 1 3 8 6, 8 2
5 4 6, 9 5 2 1 3 3 2 6, 5 8
6 7 6, 5 7 3 1 2 4 7 0, 1 8
7 9 3, 6 6 1 4 6 4 6 0, 9 1
8 2 8, 8 6 1 2 5 6 1 8, 1 9
6 6 6, 0 0 15 3 2 5, 0 0
6 8 1, 2 2 8 5 8 5 0 9, 6 0
文 化程 度
不 识字 或 识字 很 少
初小
高小
初中
高 中中 专 或中 技
大专
大 学本 科
研 究生 以 上
T o t a l
M e a n N
S t d,
D e v ia t io n
A N O V A T a b l e
1 0 4 8 9 3 3 9, 4 7 1 4 9 8 4 7 7 6, 0 0 6, 0 0 0
2 1 2 0 6 5 6 3 4 8 5 0 2 4 9 4 8 9, 0
2 2 2 5 5 4 9 7 4 8 5 7
(C o m b i n e d )B e t w e e n
G ro u p sW i t h i n G r o u p s
T o t a l
现在每
月工资 *
文化程
度
S u m o f
S q u a re s df
M e a n
S q u a re F S i g,
F值
显著度
李炜制作
3) 定距 — 定距尺度相关系数 r的显著性检验,
Z 检验
Z检验也可用来检验样本中一对定距变量的相关系数 r在总
体上是否有效。其检验的方式与前面的假设检验大同小异。
在此我们只略述检验的原假设以及检验结果。
A 相关系数检验的原假设:
H0,r= 0 ; H1,r ≠0 ;
B 检验结果:检验结果的概率值若小于给定的显著度,
如 0.05,则推翻原假设,说明两变量总体上有相关。即样
本种的相关系数在总体中也有效。
李炜制作
C SPSS中相关系数 r 的 Z检验示例:
Correlate
Bivariate
李炜制作
显著性检验结果
李炜制作
C o r r e l a t i o n s
1, 0 0 0 -, 0 7 9 *
., 0 2 0
1 2 5 4 8 6 1
-, 0 7 9 * 1, 0 0 0
,0 2 0,
8 6 1 8 6 1
P e a r s o n C o r r e l a t i o n
S i g, ( 2 - t a i le d )
N
P e a r s o n C o r r e l a t i o n
S i g, ( 2 - t a i le d )
N
年龄
现在每月工资
年龄
现在每月工
资
C o r r e la t i o n i s s i g n i f i c a n t a t t h e 0, 0 5 l e v e l ( 2 - t a i l e d ),*,
相关系数
样本量
Z检验概率值
李炜制作
4) 回归系数 B的显著性检验,t 检验
样本中的回归公式中计算出的自变量回归系数 B在总
体中是否有效,需要用 t分布来检验。检验步骤同于
前述的假设检验。
A 原假设:
H0,B= 0 ; H1,B ≠0 ;
B 检验结果:检验结果的概率值若小于给定的显
著度,如 0.05,则推翻原假设,则样本中的回归公
式可用于说明总体。
李炜制作
C t分布形状,
拒绝域拒绝域
李炜制作
C o e f f i c i e n t s
a
8 2 3, 3 3 6 3, 5 4 0 1 2, 9 5 8, 0 0 0
- 3, 4 8 7 1, 4 9 7 -, 0 7 9 - 2, 3 2 9, 0 2 0
( C o n s t a n t )
年龄
1
B
S t d,
E r r o r
U n s t a n d a r d iz e d
C o e f f i c i e n t s
B e t a
S t a n d a r d i z e d
C o e f f i c i e n t s
t S i g,
D e p e n d e n t V a r i a b l e, 现在每月工资a,
回归系数 t 值
t 值的显著度
李炜制作
定类 定序 定距
定类
双变量的关系统计 列联 方差分析
关系强度系数 卡方值、列联系数
P h i, L a m d a
F
强度系数的检验 卡方检验 F 检验
SPSS 的命令 C r o s s t a b M e a n s
定序 同上
双变量的关系统计 积差相关 同左 / 同下
关系强度系数 S p e a r m a n r
K e n d a l l — t a u a / b
强度系数的检验 Z 检验
SPSS 的命令 C o r r e l a t e
定距
双变量的关系统计 积矩相关
关系强度系数 P e a r s o n r
强度系数的检验 Z 检验
SPSS 的命令 C o r r e l a t e
定距
双变量的关系统计 回归
关系强度系数 B 系数
强度系数的检验 T 检验
SPSS 的命令 R e g r e s s i o n
第三讲 SPSS的主要窗口和菜单
1 SPSS的 3个主要窗口
1-1 数据编辑器窗口( SPSS Data Editor):用来编辑和
显示数据;在此窗口中的文件名称为 *,sav。
1-2 程序语句编辑器窗口( SPSS Syntax Editor):用来
编写各种程序;在此窗口中的文件名称为 *,sps。
1-3 结果观看窗口( SPSS Viewer):显示统计运算结果;
在此窗口中的文件名称为 *,spo。
李炜制作
2 SPSS 数据编辑器的主要菜单
2-1 File 菜单:文件管理
New; Open; Save; Save as; Exit。
2-2 Edit 菜单:编辑
Undo; Cut; Copy; Paste; Clear; Find;
2-3 View菜单:视图
Fonts; Grid lines; Value labels。
李炜制作
2-4 Data菜单:数据整理
define variables; Insert variables; Insert case;
go to case; sort case; select case。
2-5 Transform菜单:数据转换
recode; compute; count。
2-6 Statistics菜单:统计
2-7 Graphs菜单:统计图
2-8 Utilities菜单:工具附件
2-9 Windows菜单:窗口
2-10 Help菜单:帮助
李炜制作
第四讲 SPSS的单变量描述统计
1 单变量描述统计介绍
A变量的尺度:
a 定类 Category Scale:只能计次
b 定序 Ordinal Scale:计次, 排序
c 定距 Interval Scale:计次, 排序, 加减
d 定比 Ratio Scale:计次, 排序, 加减, 乘除
李炜制作
B变量的统计描述:
分布 Distribution
集中趋势 Central tendency
离散趋势 Dispersion
李炜制作
A G E
8378747066625854504642383430262218
C
o
u
n
t
60
50
40
30
20
10
0
分布
平均数
中位数
众数
离散程度
李炜制作
C 分尺度的集中趋势和离散趋势
集中趋势 离散趋势 SPSS 命令
定类 众数 M ode
( 出现最多的数值 )
异众比
定序 中位数 M e d i a n
( 数值依序排列时居中的数值 )
级差 R a n g e
四分位数 Q u a r t i l e s
F r e q u e n c i e s
定距
及
定比
平均数 M ean 标准差 S t d, D e v i a t i o n
方差 v a r i a n c e
D e s c r i p t i v e s
n
x
X
i
?
?
n
xx
DS
i
2
?
?
?
?
?
?
?
?
??
李炜制作
2 SPSS的单变量描述统计命令
A Frequencies,频数统计
Statistics— Summarize— Frequencies
李炜制作
婚姻状况
149 1 1, 9 1 1, 9 1 1, 9
1026 8 1, 8 8 1, 8 9 3, 7
15 1, 2 1, 2 9 4, 9
4,3,3 9 5, 2
54 4, 3 4, 3 9 9, 5
6,5,5 1 0 0, 0
1254 1 0 0, 0 1 0 0, 0
未婚
已婚
离婚后未再婚
离婚后再婚
丧偶后未再婚
丧偶后再婚
T o t a l
F r e q u e n cy P e r ce n t
V a l i d
P e r ce n t
C u m u l a t i v e
P e r ce n t
变量值 频数 百分比 有效百分比
累计百分比
李炜制作
文化 程度
47 3, 7 3, 7 3, 7
69 5, 5 5, 5 9, 3
65 5, 2 5, 2 1 4, 4
3 0 7 2 4, 5 2 4, 5 3 8, 9
3 9 3 3 1, 3 3 1, 3 7 0, 3
1 8 2 1 4, 5 1 4, 5 8 4, 8
1 7 2 1 3, 7 1 3, 7 9 8, 5
16 1, 3 1, 3 9 9, 8
3,2,2 1 0 0, 0
1 2 5 4 1 0 0, 0 1 0 0, 0
不识字或识字很少
初小
高小
初中
高中中专或中技
大专
大学本科
研究生以上
未回答
T o t a l
V a l i d
F r e q u e n c y P e r c e n t V a l i d P e r c e n t
C u m u l a t i v e
P e r c e n t
中位数
李炜制作
文 化程 度
47 3, 7 3, 8 3, 8
69 5, 5 5, 5 9, 3
65 5, 2 5, 2 1 4, 5
307 2 4, 5 2 4, 5 3 9, 0
393 3 1, 3 3 1, 4 7 0, 4
182 1 4, 5 1 4, 5 8 5, 0
172 1 3, 7 1 3, 7 9 8, 7
16 1, 3 1, 3 1 0 0, 0
1251 9 9, 8 1 0 0, 0
3,2
1254 1 0 0, 0
不识字或识字很少
初小
高小
初中
高中中专或中技
大专
大学本科
研究生以上
T o t a l
V a l i d
S y s t e mM i s s i n g
T o t a l
F r e q u e n c y P e r c e n t V a l i d P e r c e n t
C u m u l a t i v e
P e r c e n t
百分比和有效百分比
李炜制作
B Descriptives,定距变量描述统计
Statistics— Summarize— Descriptives
李炜制作
D e s c r i p t i v e S t a t i s t i c s
1 2 5 4 18 88 4 4, 5 7 1 5, 0 0
1 2 5 4
A G E
V a li d N ( l i s t w i s e )
N M i n i m u m M a x i m u m M e a n
S t d,
D e v i a t i o n
变量名
平均数
标准差
最小值
最大值
李炜制作
第四讲 SPSS的双变量关系描述统计(一)
列联与方差分析
1、变量关系概述
寻找变量间的关系是科学研究的首要目的。变量
间的关系最简单的划分即是有关与无关。
在统计学上,我们通常这样判断变量之间是否有
关:如果一个变量的取值发生变化,另外一个变
量的取值也相应发生变化,则这两个变量有关。
如果一个变量的变化不引起另一个变量的变化则
二者无关。
李炜制作
1 通过考试 2 未通过考试
1 男性 40% 60%
2 女性 40% 60%
总计 40% 60%
性别与四级英语考试通过率的相关统计
表述:统计结果显示,当性别取值不同时,通过率
变量的取值并未发生变化,因此性别与考试通过率
无关。
自变量的不同取值在因变量上无差异,两变量无关。
自变量的不同取值在因变量上有差异,两变量有关。
因变量
自变量
李炜制作
每月工资平均数 N
1 男性 752,40 452
2 女性 601,97 409
总计 680,95 861
表述:统计结果显示,当性别取值不同时,收入变
量的取值发生了变化,因此性别与月收入有关。
自变量
因变量
李炜制作
2、双变量关系的统计类型
定类 定序 定距
定类 列联
c r o s s - t a b u l a t e
列联
c r o s s - t a b u l a t e
方差分析 (分组平均数)
c o m p a r e m e a n s
定序 列联
c r o s s - t a b u l a t e
积差相关
s p e a r m a n c o r r e l a t i o n
积差相关
s p e a r m a n c o r r e l a t i o n
积矩相关
p e a r s o n c o r r e l a t i o n
定距 积矩相关
p e a r s o n c o r r e l a t i o n
回归
r e g r e s s i o n
李炜制作
3、列联统计
3-1 列联表的格式
性别 * 文 化 程 度 C r o s s t a b u l a t i o n
71 1 6 3 2 0 2 1 9 4 6 3 0
1 1, 3 % 2 5, 9 % 3 2, 1 % 3 0, 8 % 1 0 0, 0 %
3 9, 2 % 5 3, 1 % 5 1, 4 % 5 2, 4 % 5 0, 4 %
5, 7 % 1 3, 0 % 1 6, 1 % 1 5, 5 % 5 0, 4 %
1 1 0 1 4 4 1 9 1 1 7 6 6 2 1
1 7, 7 % 2 3, 2 % 3 0, 8 % 2 8, 3 % 1 0 0, 0 %
6 0, 8 % 4 6, 9 % 4 8, 6 % 4 7, 6 % 4 9, 6 %
8, 8 % 1 1, 5 % 1 5, 3 % 1 4, 1 % 4 9, 6 %
1 8 1 3 0 7 3 9 3 3 7 0 1 2 5 1
1 4, 5 % 2 4, 5 % 3 1, 4 % 2 9, 6 % 1 0 0, 0 %
1 0 0, 0 % 1 0 0, 0 % 1 0 0, 0 % 1 0 0, 0 % 1 0 0, 0 %
1 4, 5 % 2 4, 5 % 3 1, 4 % 2 9, 6 % 1 0 0, 0 %
C o u n t
% w i t h i n 性别
% w i t h i n 文化 程度
% o f T o t a l
C o u n t
% w i t h i n 性别
% w i t h i n 文化 程度
% o f T o t a l
C o u n t
% w i t h i n 性别
% w i t h i n 文化 程度
% o f T o t a l
男
女
T o t a l
高小 以下 初中
高中 中专或
中技 大专 以上
文化 程度
T o t a l
自变量
因变量
人数
行百分比
列百分比
总百分比
边缘百分比
边缘百分比条件百分比
李炜制作
3-2 列联分析的原理:
自变量发生变化,因变量取值是否也发生变化。
比较边缘百分比和条件百分比的差别 。
李炜制作
4-1) 变量关系强度的含义,
指两个变量相关程度的高低。统计学中是以准实
验的思想来分析变量相关的。通常从以下的角度
分析:
A)两变量是否相互独立。
B)两变量是否有共变趋势。
C)一变量的变化多大程度上能由另一变量的变
化来解释。
4 列联变量的关系强度测量
李炜制作
4-2) 双变量关系强度测量的主要指标
定类 定序 定距
定类
卡方类测量 卡方类测量
E t a 系数
定序
? S p e a r m a n
相关系数
? 同序 - 异序
对测量
S p e a r m a n 相
关系数
定距
P e a r s o n 相关
系数
李炜制作
4-3)卡方测量的原理:
卡方测量用来考察两变量是否独立 (无关 )。
其原理是根据这一概率定理:若两变量无关,则
两变量中联合事件发生的概率应等于各自独立发
生的概率乘积。
jiij PPP,,??
在列联表中,这一定理就具体转化为,若两变量无
关,则两变量中条件概率应等于各自边缘的概率乘
积。反之,则两变量有关,或,两变量不独立。
李炜制作
示例
患肺癌 未患肺癌
吸烟 6 24 30%
不吸烟 14 56 70%
20% 80% 100%15 15
655
观察值
边缘概率
边缘概率
期望条件
概率
9
9-9
-9
残差
李炜制作
由此可见,期望值(独立模型)与观察值
的差距越大,说明两变量越不独立,也就
越有相关。 因此,卡方的表达式如下:
卡方的取值在 0~∞之间。卡方值越大,关
联性越强。在 SPSS中,有 Pearson X2和相
似比卡方( Likelihood Ratio X2 )两种。
? ? ??
j i ij
ijij
E
EOX 22 )(
李炜制作
4-4) 的改进标准化系数,
为使 值有一固定的区间,便于比较,
采用了以下几个修正:
2X
2X
A,φ系数( Phi),(0~1),适用于 2× 2表。
B,列联系数( Contingency Coefficient):
(0~1),适用任意表。
C,Cramer V系数,(0~1),适用任意表。
D,λ系数 (Lambda),(0~1),适用任意表。
E,Goodman & Kruskal-tau系数, (0~1),适用任
意表。
李炜制作
5 列联统计命令:
Statistics— Summarize— Crosstabs
李炜制作
第五讲 SPSS的双变量关系描述统计(二)
分组平均数比较(方差分析)
1、分组平均数比较的含义
当一个变量为定类变量,另一变量为定距变量时,
两变量间是否有关,通常以分组平均数比较的方
法来考察。即按照定类变量的不同水平来分组,
看每个分组的定距变量的平均数是否有差异。不
同组间的平均数差异越小,两个变量间的关系越
弱;相反,平均数差异越大,变量间关系越强。
李炜制作
2、分组平均数比较的格式
不同性别的分组平均数比较
现在每月工资
7 5 2, 4 0 4 5 2 5 7 3, 1 3
6 0 1, 9 7 4 0 9 4 1 3, 1 6
6 8 0, 9 5 8 6 1 5 0 8, 8 2
性别
男
女
T o t a l
M e a n N
S t d,
D e v i a t i o n
李炜制作
不 同 文 化 程 度 的 分 组 平 均 数 比 较
现在 每月 工资
3 0 2, 8 6 7 1 3 7, 9 3
4 6 0, 2 8 18 1 7 6, 6 4
7 7 3, 5 0 22 1 3 8 6, 8 2
5 4 6, 9 5 2 1 3 3 2 6, 5 8
6 7 6, 5 7 3 1 2 4 7 0, 1 8
7 9 3, 6 6 1 4 6 4 6 0, 9 1
8 2 8, 8 6 1 2 5 6 1 8, 1 9
6 6 6, 0 0 15 3 2 5, 0 0
6 0 3, 3 3 3 1 9 4, 4 4
6 8 0, 9 5 8 6 1 5 0 8, 8 2
文化 程度
不识 字或 识字 很少
初小
高小
初中
高中 中专 或中 技
大专
大学 本科
研究 生以 上
未回 答
T o t a l
M e a n N
S t d,
D e v i a t i o n
李炜制作
3、定类 — 定距变量的关系强度测量
定类变量和定距变量的关系强度测量采用 F统计的
方法,即方差分析。
3-1 F统计的原理
F统计的目的是分析分组的平均数是否相等。如果
相等,说明组间没有差别;如果不相等,说明组间
平均数有差异,这时分组是有效的。但 F统计独特
的地方是,它并不直接利用平均数来比较,而是利
用与方差有关的统计指标总变差( SST)、组间变
差( SSB)、组内变差( SSW)的关系来进行判别。
李炜制作
男
女收入
Y总 =800元 Y女 =800元 Y男 =800元
李炜制作
男
女收入
Y总 =800元 Y
女 =600元
Y男 =1000元
李炜制作
收
入
y
女y
男y
Yi y Yi 男y
男
女
男y y
女y y
2)( )(? ?? yyS S T ij总变差 2)( )(? ??? jij yyS S W 组内变差
2)( )(? ?? ? yyS S B j组间变差 SST=SSB+SSW
李炜制作
三者的关系是,
SST是总变差,即未分组的数据的变差,总方差的分子 。
SST= SSB+SSW
2)(? ?? yyS S T
ij
SSB是组间变差,各组平均数与总平均数的离差平方和
SSW是组内变差,每组数据和该组平均数的离差平方和。
2)(? ??
? yySSB j
2)(?
??? jij yyS S W
李炜制作
工业社区 商业社区 农业社区 组间 总计
国家1 4.3 5.1 12.5
国家2 2.8 6.2 3.1
国家3 12.3 1.8 1.6
国家4 16.3 9.8 6.2
国家5 5.9 4.1 3.8
国家6 7.7 3.6 7.1
国家7 9.1 11.2 11.4
国家8 10.2 3.3 1.9
平均数 8.58 5.64 5.95 6.72
方差
变差
样本量 8 8 8 24
凶杀率
李炜制作
工业社区 商业社区 农业社区 组间 总计
国家1 4.3 5.1 12.5
国家2 2.8 6.2 3.1
国家3 12.3 1.8 1.6
国家4 16.3 9.8 6.2
国家5 5.9 4.1 3.8
国家6 7.7 3.6 7.1
国家7 9.1 11.2 11.4
国家8 10.2 3.3 1.9
平均数 8.58 5.64 5.95 6.72
方差 19.43 10.80 17.44 16.32
变差 1 5 5, 4 5 8 6, 3 8 1 3 9, 5 0 10.30 391.62
样本量 8 8 8 24
组内变差和
SSW 381.32
组间变差和
SSB 10.3
凶杀率
李炜制作
由于方差和变差标志着每一数据对其平均数的偏离(即
异质性),因此,F值( F=SSB/SSW)含义就可理解为
组间异质性和组内异质性的比较。 F值的范围在 0到正无
穷大之间。当 F值 >1,则说明组与组间的差别大于组内
的差别,也就说明这时组间平均数的差异是存在的。
李炜制作
工业社区 商业社区 农业社区 组间 总计
国家1 4.3 5.1 12.5
国家2 2.8 6.2 3.1
国家3 12.3 1.8 1.6
国家4 16.3 9.8 6.2
国家5 5.9 4.1 3.8
国家6 7.7 3.6 7.1
国家7 9.1 11.2 11.4
国家8 10.2 3.3 1.9
平均数 8.58 5.64 5.95 6.72
方差 19.43 10.80 17.44 16.32
变差 1 5 5, 4 5 8 6, 3 8 1 3 9, 5 0 10.30 391.62
样本量 8 8 8 24
组内变差和
SSW 381.32
组间变差和
SSB 10.3
F 值= ( S S B /d f ) /( S S W /d f ) 3.53
凶杀率
李炜制作
3-2定类 — 定距变量的关系强度系数 Eta2
F值和列联统计中的 X2一样,取值范围在 0到正无
穷大之间。因此,也需要对 F值加以修正,形成一
个标准化的关系系数。 Eta2就是这样的一个系数。
Eta2=SSB/SST
即在总变差中,组间变差所占的比例。 Eta2的取值
范围在 0~+∞之间,越接近 1,就表明组间差异越大;
越接近 0,就表明组间平均数趋于一致。
李炜制作
工业社区 商业社区 农业社区 组间 总计
国家1 4.3 5.1 12.5
国家2 2.8 6.2 3.1
国家3 12.3 1.8 1.6
国家4 16.3 9.8 6.2
国家5 5.9 4.1 3.8
国家6 7.7 3.6 7.1
国家7 9.1 11.2 11.4
国家8 10.2 3.3 1.9
平均数 8.58 5.64 5.95 6.72
方差 19.43 10.80 17.44 16.32
变差 1 5 5, 4 5 8 6, 3 8 1 3 9, 5 0 10.30 391.62
样本量 8 8 8 24
组内变差和
SSW 381.32
组间变差和
SSB 10.3
F 值= ( S S B /d f ) /( S S W /d f ) 3.53
凶杀率
Eta2=0.026
李炜制作
不同性别的分组平均数比较
现在每月工资
7 5 2, 4 0 4 5 2 5 7 3, 1 3
6 0 1, 9 7 4 0 9 4 1 3, 1 6
6 8 0, 9 5 8 6 1 5 0 8, 8 2
性别
男
女
T o ta l
M e a n N
St d,
D e v i a t i o n
性 别 与 工 资 的 方 差 分 析 表 ( A N O V A )
a
4 8 5 8 8 9 6, 8 2 1 1 4 8 5 8 8 9 6, 8 1 9, 1 6 4
2 1 7 7 8 9 8 2 7, 6 859 2 5 3 5 3 8, 7 9 8
2 2 2 6 4 8 7 2 4, 4 860
B e t w e e n G r o u p s
W i t h i n G r o u p s
T o t a l
现在每月
工资 * 性
别
S u m o f
S q u a r e s df
M e a n
S q u a r e F
a,
李炜制作
关系强度的测量( M e a s u r e s o f A s s o c i a t i o n )
,1 4 8, 0 2 2
现在每月工资
* 性别
Et a Et a Sq u a r e d
李炜制作
4 SPSS中分组平均数和方差分析的统计命令
Statistics— Compare Means— Means
李炜制作
第六讲 SPSS的双变量关系描述统计(三)
相关
1 定距 — 定距尺度 ( Pearson Cor.)
1)相关的含义,
相关 (Correlation)是用来作两个定距变量关系的
统计分析,考察两变量是否存在共同变化的趋势。
如年龄与收入。
2 )积矩相关的统计原理:
两变量共同变化的趋势在统计中用 共变异数
( Covariance) 来表示。即 A变量的取值从低到
高(或从高到低)变化时,B变量是否也同样发
生变化。
李炜制作
当两变量在同一方向上变化,称为有正相关;相反
方向变化,称为负相关;无变化即无相关。相关系
数即用来表示相关的程度。
丈夫收入 妻子收入
600 580
750 600
770 620
810 750
810 650
如:
李炜制作
X(丈夫收入 ); Y(妻子收入 )
Y
X
P(xi,yi)Y=k
k
李炜制作
X
Y
P(xi,yi)
)( xxi ?
)( yyi ?
+
-
-
+
共变异数 (协方差 )= ))(( yyxx ii ??
李炜制作
X
Y
+
-
-
+
散点越集中于 1,3象限,共变异数的和正值约大;
散点越集中于 2,4象限,共变异数的和负值约大;
散点越均匀分布于各象限,共变异数的和越趋近于 0。
? ?? ))(( yyxx ii
李炜制作
3)相关系数的计算公式:
? ??? ?
?? ?
?
22
)()(
)()(
yyxx
yyxx
r
ii
ii
由此公式可看出:
1 相关就是共变异数的标准化。
2 相关系数 r的取值范围在( -1,+1)之间。
+1代表完全正相关; -1表示完全负相关; 0
表示无相关。
李炜制作
示例:通过此题来演算相关系数 。
丈夫收入
x
妻子收入
y
xx i ? yy
i
? )()( yyxx
i
i
???
2
)( xx
i
?
2
)( yy
i
?
1 600 580 - 1 4 8 -60 8880 21904 3600
2 750 600 2 -40 -80 4 1600 r = 0, 6 8 3
3 770 620 22 -20 -440 484 400
4 810 750 62 110 6820 3844 12100
5 810 650 62 10 620 3844 100
平均, 748 640 总计, 15800 30080 17800 23139.23
李炜制作
2 定序 — 定序尺度 ( Spearman Cor.)
积差相关的公式:
积差相关又称等级相关,用来考察两个定序变量间
的相关关系。它的公式是由积矩相关转变而来,
)1(
61
2
2
?
???
NN
Dr
其中,D是每一对因变量和自变量的序数的差值; N是总
的排序的序数。
李炜制作
示例:
丈夫文化
程度
妻子文化
程度
D D
2
6D
2
N ( N
2
- 1 )
r
第 1 对 1 2 1 1
第 2 对 2 1 1 1
第 3 对 3 3 0 0
第 4 对 4 4 0 0
第 5 对 5 5 0 0
第 6 对 6 6 0 0
总计 2 18 210 0,9 1
李炜制作
3 SPSS中的相关统计命令
Statistics--Correlate--Bivariate
李炜制作
4 相关统计的输出格式
C orr e l a t i o ns
1, 0 0 0 -, 0 7 9 *
., 0 2 0
1 2 5 4 8 6 1
-, 0 7 9 * 1, 0 0 0
,0 2 0,
8 6 1 8 6 1
P e a r s o n
C o r r e l a t i o n
S i g, ( 2 - t a i l e d )
N
P e a r s o n
C o r r e l a t i o n
S i g, ( 2 - t a i l e d )
N
A G E
现在每月工资
A G E 现在每月工资
C o r r e l a t i o n i s s i g n i f i c a n t a t t h e 0, 0 5 l e v e l ( 2 - t a i l e d ),*,
相关系数
人数
李炜制作
1 回归的含义:
回归( Regression,或 Linear Regression)和相
关同样都用来分析两个定距变量间的关系,但回
归有明确的因果关系假设。即要假设一个变量为
自变量,一个为因变量,自变量对因变量的影响
就用回归表示。如年龄对收入的影响。由于回归
构建了变量间因果关系的数学表达,它具有统计
预测功能。
第六讲 SPSS的双变量关系描述统计(四)
线性回归
李炜制作
2 回归的统计原理:
两个定距变量的回归是用函数
y= f( x)
来分析的。我们最常用的是一元回归方程
bxay ??
其中 x为自变量; y为因变量; a为截距,即常量; b
为回归系数,表明自变量对因变量的影响程度。
李炜制作
360
370
380
390
400
410
420
430
440
0 1 2 3 4 5
工龄
工资
Y=350+20x
李炜制作
在统计学中,这一方程中的系数是靠 x与 y变量的
大量数据拟合出来的。
X
Y Y=a+bx
( x,y)
李炜制作
由图中可以看出,回归直线应该是到所有数据点最
短距离的直线。该直线的求得即使用“最小二乘方
法”,使,
? ? 0? 2 ??? ii yy
在拟合的回归直线方程中,回归系数:
?
?
?
???
2)(
))((
xx
yyxx
i
iib
表示 x每变化一个单位时,x与 y共同变化的程度
(共变异数)。
xbya ??常数
李炜制作
上学年数
X
工资
Y )( xx
i
? )( xx
i
?
2
)( yy
i
? )( xx
i
? )( yy
i
?
6 4 8 0 - 5, 1 2 6, 0 1 - 1 5 7 8 0 0, 7
6 6 2 0 - 5, 1 2 6, 0 1 - 1 7 8 6, 7
9 6 0 0 - 2, 1 4, 4 1 - 3 7 7 7, 7
9 6 2 0 - 2, 1 4, 4 1 - 1 7 3 5, 7
9 6 3 0 - 2, 1 4, 4 1 -7 1 4, 7
12 6 0 0 0, 9 0, 8 1 - 3 7 - 3 3, 3
12 7 0 0 0, 9 0, 8 1 63 5 6, 7
16 6 5 0 4, 9 2 4, 0 1 13 6 3, 7
16 7 2 0 4, 9 2 4, 0 1 83 4 0 6, 7
16 7 5 0 4, 9 2 4, 0 1 1 1 3 5 5 3, 7
平均 1 1, 1 6 3 7
总计 1 3 8, 9 2 0 6 3
b 1 4, 8 5 2 4 1
a 4 7 2, 1 3 8 2
李炜制作
比如通过上学年数和工资的关系计算得出下列的
回归公式:
y=472+14.8x
就可知上学年数每增长 1年,工资会增加 14.8元;
也可推测,上学年数为 15年的人,工资收入应为
472 + 14.8 *15=694元。
李炜制作
3 SPSS线性回归的统计命令
Statistics— Regression— Linear
李炜制作
自变量
因变量
回归方式
李炜制作
4 SPSS线性回归的输出格式:
C o e ffi c i e n ts
a
8 2 3, 3 6 3, 5 4 0 1 2, 9 5 8, 0 0 0
-3, 4 8 7 1, 4 9 7 -,0 7 9 -2, 3 2 9, 0 2 0
(C o n s t a n t )
年龄
M o d e l
1
B
S t d,
E rro r
U n s t a n d a rd i z e d
C o e f f i c i e n t s
B e t a
S t a n d a rd i z e d
C o e f f i c i e n t s
t S i g,
D e p e n d e n t V a ri a b l e, 现在每月工资a,
常数
自变量
回归系数
标准化回归系数
每月工资 =823.3-3.487年龄
李炜制作
1 推断统计的一般概念
1.1 推断统计的含义及类型:
( 1)含义:推断统计是指用概率分布的方法,
由 样本的统计量 推断 总体参数 的统计方式。
第七讲,SPSS的推断统计(一)
参数估计和单变量的假设检验
李炜制作
样本统计量,样本中某个变量的统计值。如此次调
查中高中文化程度的人占 32%。
样本 32%
总体参数,与样本中某个变量的统计值相对应的
总体中的统计值。如全市人口中高中比例为 38%。
总体 38%
李炜制作
样本统计量有可能等于总体参数,也有可能不等
于总体参数,但二者之间有着某种概率关系。 推
断统计就是教会我们如何利用这种概率关系来由
样本统计量推估总体参数。
为了区别样本和总体的不同,样本的平均数用 x
来表示,标准差用 S表示;总体的平均数用 μ表
示,标准差用 σ表示。因此,推断统计往往
可以看作是由 x 推断 μ。
李炜制作
样本 32%
总体
μ=?
( 2)类型:推断统计分为 参数估计 和 假设检验
两大类。
参数估计,根据一个随机样本的统计值来估计总
体参数。即已知样本,估计总体。
x
李炜制作
假设检验,先假定总体参数为 μ,用一个随机样
总体
μ=38%样本 32%x
来检验总体参数为 μ的假设是否成立。本的统计量 x
李炜制作
1.2推断统计的原理:
参数估计和假设检验都是利用 正态分布 的概率特
征来进行的。
( 1) 正态分布 ( μ,σ),
正态分布是一种统计分布,它有如下几个特征:
A 单峰对称;
B 平均数、中位数、众数合一,都在峰点;
C μ ± 1.96σ包含了 95%的面积;
μ ± 1.65σ包含了 90%的面积; 即面积和标准
差之间有一个固定换算。
李炜制作
正态分布 N( μ,σ)
μ ± 1.96 σ
平均数 μ
李炜制作170 ± 1.96*10
( 170,10)
例:某校同学的身高为正态分布,平均值为 170cm,标准
差为 10cm。问:
1)高于平均数 1.5个标准差的同学身高是多少?
2) 162cm身高的同学距平均数有几个标准差?
3) 95%的同学身高会在什么范围内?
李炜制作
解 1,Xi=μ+Z*σ=170+1.5*10=185cm;
解 2,Z=(Xi - μ)/ σ=(162-170)/10=-0.8;
解 3,Xi = μ-Z *σ =170-1.96*10=150.4
Xi = μ+Z *σ =170+1.96*10=189.6 (150.4~189.6)
由上可得出,?
??? ixZ
其中 Xi为分布中任何一个值,μ是平均数; σ
是标准差。 Z是 Xi距离平均数 μ的标准差单位,
又称 Z分数,同时也表示 Xi与平均数 μ之间的面
积。
李炜制作
( 2) 标准正态分 ( Z分布),N( 0,1)
标准化了的正态分布。即平均数 =0,标准差 =1
的正态分布。
( 0,1)
σ=1
李炜制作
( 3) 总体分布, D( μ, σ )总体中某变量的几
何分布。有可能是正态分布,也可能不是正态分
布。
A G E
9383736353433323
A G E
Fr
eq
ue
nc
y
500
400
300
200
100
0
S t d, D e v = 1 5, 0 0
M e a n = 4 5
N = 1 2 5 4, 0 0
李炜制作
( 4) 样本分布, D( x, S)
样本中某变量的统计分布,和总体分布一样,
它有可能是正态分布,也可能不是正态分布。
A G E
9383736353433323
A G E
F
r
e
q
u
e
n
c
y
500
400
300
200
100
0
李炜制作
n
?
x
( 5)样本平均数的抽样分布,N( μ, )
从总体中多次重复抽取容量为 n的样本,每个样本平
均数的所形成的统计分布。是由多个 组成的。
总体分布样本平均数的
抽样分布
D( μ,σ )
N( μ,n
?
)
李炜制作
样本平均数的抽样分布的特点,
x
ix
n
?
B 正态分布。
C 它的平均数就等于总体的平均数 μ,标准差则是
A 是由多个 组成,
因此,我们所作的任何一次抽样的平均数
都可看作是样本平均数的抽样分布中的一个点。
它会有 95%的概率落在 μ ± 1.96
总体标准差 σ的 n1 倍。即
的范围内。
n
?, 又被称作
标准误( Standard Error,S, E)
李炜制作
总体分布 (μ, σ )
样本分布 (,s)x 样本平均数的抽样
分布 (μ,)n
?
三种分布的关系
李炜制作
推断统计的原理就是,
利用样本平均数的抽样分布的正态特征,以及
与 μ的包含关系,来从样本统计量推估总体参数
(即参数估计),或用样本统计量检验有关总体
参数的假设(假设检验)。
由此可见,参数估计和假设检验实际是相同的。
ix
在实际调查中,我们便是利用这一原理,用一次
调查的结果来推断总体的参数。我们把某一次调
查的结果看作是同样样本规模的无数次调查中的
一次,它是样本平均数的抽样分布中的一个点
,可用来估计总体参数 μ。 i
x
李炜制作
2 参数估计的步骤
1)求出样本的平均数、标准差;
2)求出总体的标准差(如未知,可用样本的
标准差代替)
3)设定参数估计的 置信区间 [即参数估计的把
握性 ]( 90%? 95%?)的 Z值( 1.65? 1.96?)
4)根据 ESZx
i,????
计算出 μ的所在范围。
李炜制作
例:已知某学校的学生每天课外活动时间的标准差为
15分钟。现从学生中随机抽取 25人,得知他们的课外
活动时间平均为 60分钟,问该校学生总体平均每天的
课外活动时间会是多少?(选择 95%的置信区间)
解,x =60
S.E=15 / 25 1/2
Z=1.96
ESZx i,????
=60± 5.88≈60± 6
54< μ< 66
李炜制作
例:在此次调查中,男性共 630人,平均年龄
为 45岁,标准差为 15;女性共 620人,平均年
龄为 44岁,标准差为 14。问:
1)男性与女性各自平均年龄的总体参数是多
少?( 95%的置信区间)
解:
男性 630
15*96.145,????? ESZx
i?
=45 ± 1.176 43.824< μ< 46.176
李炜制作
女性, 620
14*96.144,????? ESZx
i?
=44 ± 1.1 42.9< μ< 45.1
2) 从总体上看,男女年龄是否有差异?
解:比较男女平均年龄的总体参数的区间,
μ男 ( 43.8,46.1)
μ女 ( 42.9,45.1)
二者有交集,故总体年龄在 95%的置信度上
没有差异 。
李炜制作
答案,
1 611.2895.680861 82.50865.195.680 ???(652.339,709.561)
98.3395.680861 82.50896.195.680 ??? (646.97,714.93)
2 1036.094.51211 84.196.194.5 ??? (5.8364,6.0436)
096.067.61 2 2 473.196.167.6 ??? (6.574,6.766)
1 1 3.094.71 1 1 993.196.194.7 ??? (7.827,8.053)
李炜制作
3 比例数的参数估计:
当样本的统计量不是平均数,而是以比例的形式
出现时,比如,共青团员在调查中占 9.4%,也可
以用 μ=Xi± Z*S.E公式的变形:
P总 =Pi ± Z*S.E来推断总体参数。
其中,Pi为比例数形式的样本统计量,
n
ppES ii )1(,??
李炜制作
示例:
在此次抽样调查的 1254人中,共青团员的比例为 9.4%,求总
体中共青团员的比例参数(置信度为 95%)。
解,P总 =Pi ± Z*S.E
0 1 6.00 9 4.01 2 5 4 )0 9 4.01(0 9 4.096.10 9 4.0 ??????
(0.078,0.11)
总体中共青团员的比例有 95%的可能性在
7.8% ~ 11%的区间内。
李炜制作
4 假设检验的步骤:
示例,
纳税起征线的规定是根据当地居民的平均月收入
制定的。有关部门认为某地的起征线应为 800元,
因为根据经验当地居民平均月收入应不低于此数。
在当地进行的一次 400人的随机抽样表明,居民月
收入为 790元,标准差为 100元,请用此调查结果
在 95%的置信水平上检验居民月收入为 800元的说
法是否成立。
李炜制作
假设 m =800
800!1.96*5
m =800,样本容量为 400
时的样本平均数的抽样分
布,N( 800,5)
样本,X=790
李炜制作
4.1 假设检验的分布算法
1)确定有关总体参数 m的假设;如假设总体平均收入为
800元;
2)确定检验此假设的概率标准,即置信区间为 P=90%?
P=95%?( Z= 1.65? Z=1.96?)
x
(平均数、标准差、标准误,即样本平均数抽
样分布的标准差)。
4) 以 m为中心,作出样本平均数抽样分布的给定
概率区间。
3) 抽取一个随机样本,计算出, S,S.E
5)看在这一区间内是否包括了 x,如果包括,
就可以说,在给定的置信区间中(或在给定的概率条件下),验
证(接受)了原假设;如未包含,则说明原假设在给定的概率水
平上不成立(被否定),或说原假设在给定的显著度水平( 1-
给定概率)上被否定。
李炜制作
解:
1) 确定有关总体参数的假设
H0, m= 800; H1, m!800;
2) 确定检验此假设的概率标准:
置信度为 95%,显著度为 5%,即 Z= 1.96
3) 计算样本的有关统计量
= 790; S= 100; S.E= =100/20=5
4) 以 m为中心,作出样本平均数抽样分布的给定概率区
间。
( 800± 1.96× 5),即( 790.2~ 809.8)
5) 结论:此区间未包含样本统计量 790,因此在 5%的显
著水平上推翻原假设。当地居民的平均月收入小于 800
元。
x ns
李炜制作
4.2 假设检验的公式算法:
从上一算法中可以看出,Xi距 m的距离是检验假设的
关键指标:
Xi如果落在 m的 95%的置信区间之外,这时 |Zxi|〉
Z95%,即 |Zxi|〉 1.96。则原假设被否定的概率 〉 95%,
或者说,原假设成立的概率 〈 5%,我们称为在 5%
的显著水平上否定了原假设。
Xi如果落在 m的 95%的置信区间之内,这时 |Zxi|
〈 Z95%,即 |Zxi|〈 1.96。 我们称为在 5%的显著水平上
不能否定原假设。 因此,可以利用
n
s
xZ
i
m??
李炜制作
来直接计算出 |Zxi|是否大于 Z95%。
解:
1) 确定有关总体参数的假设
H0, m= 800; H1, m!800;
2) 确定检验此假设的概率标准:
置信度为 95%,显著度为 5%,即 Z= 1.96
3)计算 Zxi
25 8 0 07 9 0,?????? ESxz ixi ?
4)判定,Zxi=-2,绝对值大于 Z95%,因此在 5%的显
著水平上否定原假设 m= 800。
李炜制作
假设 m =800样本 1,X1= 795;S= 10
m!1.96S.
E
样本 2,X2=
790; S= 10
接受区 95%
拒绝区 5%
李炜制作
1 双变量统计关系假设检验概述
变量间关系的统计和变量关系强度的测量也同样存
在统计推断问题。即从样本中统计出的变量关系强
度系数(如 X2、各种相关系数)是否在总体上也有
效。
比如:根据我们的调查 1254人的统计结果得知性别)
与文化程度的卡方值为 27.89,W19.1与 W19.2的相
关系数 r=0.367,那么总体上这些变量之间是否也会
有同样的相关?
这就要依靠变量关系的假设检验。
第八讲,SPSS的推断统计(二)
双变量关系的假设检验
李炜制作
2 双变量统计关系假设检验的步骤
双变量的假设检验和单变量很相似,通常采用以下
的步骤:
1)确定双变量总体参数的假设:如假设总体中性别
与文化程度无关,即卡方值 =0; W19.1与 W19.2不相
关,即 r=0;
2)确定检验此假设的概率标准,即置信区间为 95%
或 90%(即显著度为 0.05或 0.1) ;
3)抽取一个随机样本,计算出样本中双变量关系的
统计量,如性别与文化程度的卡方值为 27.89,
W19.1与 W19.2的相关系数 r=0.367;
李炜制作
4)选择用来检验这些假设的概率分布,如标准正态
分布( Z分布)、卡方分布,t分布,F分布等,并根
据置信区间或显著度设立接受原假设的区间(接受
域)或拒绝区间(拒绝域);
5)观察样本的统计量的概率值是否落在接受区内,
从而判断是接受 /拒绝原假设。
一般而言,显著度(即拒绝域)一般都定在 0.05或
0.10。当检验的结果小于此,原假设就落在了拒绝域
中,因此就可以得出结论:变量间统计关系为 0的假
设在总体上是不成立的;而作出这一结论的显著性
(或者说,犯错误的概率) <5%或 10%;换言之,
样本中变量关系统计不为 0的结果在总体上是成立的,
而作出这一结论的显著性(或者说,犯错误的概率)
也同样 <5%或 10%;
李炜制作
3 变量关系的显著性检验类型
定类 定序 定距
定类 卡方类测量
( 卡方检验 )
卡方类测量
( 卡方检验 )
方差分析
(F 检验 )
定序
Spear m an 相
关系数
(Z 检验 )
Spear m an 相关
系数
(Z 检验 )
定距
Pears on 相关
(F 检验 )
回归系数
(T 检验 )
李炜制作
B 卡方计算公式,
4 SPSS中变量关系的显著性检验
1) 定类 — 定类尺度,X2检验
卡方检验是用来检验样本中两个定类变量的关系强度测量
结果(卡方值)是否能推断总体。
A X2检验的假设,H0,X2= 0; H1,X2≠0;
? ? ??
j i ij
ijij
E
EOX 22 )(
李炜制作
C 卡方分布形状
拒绝域
接受域
李炜制作
D SPSS中卡方检验示例(性别与文化程度)
步骤:
1)确定双变量总体参数的假设:
H0,X2= 0 ; H1,X2 ≠0;
2)确定检验此假设的概率标准:显著度为 0.05。
3)抽取一个样本容量为 1254的随机样本,计算出样本中
性别与文化程度的 X2= 27.89。
4)选择用来检验 H0 的分布,X2分布,并根据显著度
0.05设立接受域 (P>0.05)或拒绝域 (P<0.05);
5)观察样本的统计量的概率值是否落在接受域内,从而
判断是接受 /拒绝原假设。从下表看出,样本统计量 X2
= 27.89,概率值( Significance) =0.000<0.05,落在拒
绝域,因此,否定 H0;接受总体中 X2= 27.89的判断。
此判断犯错误的概率) =0.000<0.05。
李炜制作
性别 * 文化程度 C r o s s t a b u l a t i o n
7 34 30 1 6 3 2 0 2 89 97 8 6 3 0
1, 1 % 5, 4 % 4, 8 % 2 5, 9 % 3 2, 1 % 1 4, 1 % 1 5, 4 % 1, 3 % 1 0 0 %
1 4, 9 % 4 9, 3 % 4 6, 2 % 5 3, 1 % 5 1, 4 % 4 8, 9 % 5 6, 4 % 5 0, 0 % 5 0, 4 %
40 35 35 1 4 4 1 9 1 93 75 8 6 2 1
6, 4 % 5, 6 % 5, 6 % 2 3, 2 % 3 0, 8 % 1 5, 0 % 1 2, 1 % 1, 3 % 1 0 0 %
8 5, 1 % 5 0, 7 % 5 3, 8 % 4 6, 9 % 4 8, 6 % 5 1, 1 % 4 3, 6 % 5 0, 0 % 4 9, 6 %
47 69 65 3 0 7 3 9 3 1 8 2 1 7 2 16 1 2 5 1
3, 8 % 5, 5 % 5, 2 % 2 4, 5 % 3 1, 4 % 1 4, 5 % 1 3, 7 % 1, 3 % 1 0 0 %
1 0 0 % 1 0 0 % 1 0 0 % 1 0 0 % 1 0 0, 0 % 1 0 0 % 1 0 0, 0 % 1 0 0 % 1 0 0 %
男
女
T o t a l
不识字
或识字
很少 初小 高小 初中
高中中
专或中
技 大专
大学本
科
研究
生以
上
文化程度
T o t a l
C h i - S q u a r e T e s t s
2 7, 8 9 2
a
7, 0 0 0
3 0, 3 2 4 7, 0 0 0
9,7 0 6 1, 0 0 2
1 2 5 1
P e a r s o n C h i - S q u a r e
L i k e l i h o o d R a t i o
L i n e a r - b y - L i n e a r
A s s o c i a ti o n
N o f V a l i d C a s e s
V a l u e df
A s y m p,
S i g,
( 2 - s i d e d )
0 c e l l s (,0 % ) h a v e e x p e c t e d c o u n t l e s s t h a n 5, T h e
m i n i m u m e x p e c t e d c o u n t i s 7, 9 4,
a,
显著性检
验结果卡方值
李炜制作
2) 定类 — 定距尺度, F 检验
F检验是用来检验样本中一个定类变量和一个定距变量的关
系强度测量结果(分组平均数)是否能推断总体。如不同职
业的人在收入上是否有差异(即职业分组的平均收入是否不
同)。
A F 检验的假设:
H0,μ1= μ2 = μ3 =,..μk ;
H1,μ1 ≠μ2 ≠μ3≠,..μk ;
B F 值计算公式:
fdS S W
fdS S BF
./
./
组内方差
组间方差 =?
李炜制作
C F分布的形状
接受域
拒绝域
拒绝域
李炜制作
D SPSS中 F 检验示例(文化程度与收入)
步骤:
1)确定双变量总体参数的假设:
H0,μ1= μ2 = μ3 =,..μk ;
H1,μ1 ≠μ2 ≠μ3≠...μk ;
2)确定检验此假设的概率标准:显著度为 0.05。
3)抽取一个样本容量为 1254的随机样本,计算出样本中 文化程度与收入 的
F = 6.006。
4)选择用来检验 H0 的分布,F 分布,并根据显著度 0.05设立接受域 (P>0.05)
或拒绝域 (P<0.05);
5)观察样本的统计量的概率值是否落在接受域内,从而判断是接受 /拒绝原假
设。从下表看出,样本统计量 F = 6.006。 概率值( Significance) =0.000<0.05,
落在拒绝域,因此,否定 H0;拒绝总体中 H0,μ1= μ2 = μ3 =,..μk 的判断。
即由样本可以推断总体,不同的文化程度,收入有差别;文化程度与收入有
关。
李炜制作
R e p o r t
现 在每 月 工资
3 0 2, 8 6 7 1 3 7, 9 3
4 6 0, 2 8 18 1 7 6, 6 4
7 7 3, 5 0 22 1 3 8 6, 8 2
5 4 6, 9 5 2 1 3 3 2 6, 5 8
6 7 6, 5 7 3 1 2 4 7 0, 1 8
7 9 3, 6 6 1 4 6 4 6 0, 9 1
8 2 8, 8 6 1 2 5 6 1 8, 1 9
6 6 6, 0 0 15 3 2 5, 0 0
6 8 1, 2 2 8 5 8 5 0 9, 6 0
文 化程 度
不 识字 或 识字 很 少
初小
高小
初中
高 中中 专 或中 技
大专
大 学本 科
研 究生 以 上
T o t a l
M e a n N
S t d,
D e v ia t io n
A N O V A T a b l e
1 0 4 8 9 3 3 9, 4 7 1 4 9 8 4 7 7 6, 0 0 6, 0 0 0
2 1 2 0 6 5 6 3 4 8 5 0 2 4 9 4 8 9, 0
2 2 2 5 5 4 9 7 4 8 5 7
(C o m b i n e d )B e t w e e n
G ro u p sW i t h i n G r o u p s
T o t a l
现在每
月工资 *
文化程
度
S u m o f
S q u a re s df
M e a n
S q u a re F S i g,
F值
显著度
李炜制作
3) 定距 — 定距尺度相关系数 r的显著性检验,
Z 检验
Z检验也可用来检验样本中一对定距变量的相关系数 r在总
体上是否有效。其检验的方式与前面的假设检验大同小异。
在此我们只略述检验的原假设以及检验结果。
A 相关系数检验的原假设:
H0,r= 0 ; H1,r ≠0 ;
B 检验结果:检验结果的概率值若小于给定的显著度,
如 0.05,则推翻原假设,说明两变量总体上有相关。即样
本种的相关系数在总体中也有效。
李炜制作
C SPSS中相关系数 r 的 Z检验示例:
Correlate
Bivariate
李炜制作
显著性检验结果
李炜制作
C o r r e l a t i o n s
1, 0 0 0 -, 0 7 9 *
., 0 2 0
1 2 5 4 8 6 1
-, 0 7 9 * 1, 0 0 0
,0 2 0,
8 6 1 8 6 1
P e a r s o n C o r r e l a t i o n
S i g, ( 2 - t a i le d )
N
P e a r s o n C o r r e l a t i o n
S i g, ( 2 - t a i le d )
N
年龄
现在每月工资
年龄
现在每月工
资
C o r r e la t i o n i s s i g n i f i c a n t a t t h e 0, 0 5 l e v e l ( 2 - t a i l e d ),*,
相关系数
样本量
Z检验概率值
李炜制作
4) 回归系数 B的显著性检验,t 检验
样本中的回归公式中计算出的自变量回归系数 B在总
体中是否有效,需要用 t分布来检验。检验步骤同于
前述的假设检验。
A 原假设:
H0,B= 0 ; H1,B ≠0 ;
B 检验结果:检验结果的概率值若小于给定的显
著度,如 0.05,则推翻原假设,则样本中的回归公
式可用于说明总体。
李炜制作
C t分布形状,
拒绝域拒绝域
李炜制作
C o e f f i c i e n t s
a
8 2 3, 3 3 6 3, 5 4 0 1 2, 9 5 8, 0 0 0
- 3, 4 8 7 1, 4 9 7 -, 0 7 9 - 2, 3 2 9, 0 2 0
( C o n s t a n t )
年龄
1
B
S t d,
E r r o r
U n s t a n d a r d iz e d
C o e f f i c i e n t s
B e t a
S t a n d a r d i z e d
C o e f f i c i e n t s
t S i g,
D e p e n d e n t V a r i a b l e, 现在每月工资a,
回归系数 t 值
t 值的显著度
李炜制作
定类 定序 定距
定类
双变量的关系统计 列联 方差分析
关系强度系数 卡方值、列联系数
P h i, L a m d a
F
强度系数的检验 卡方检验 F 检验
SPSS 的命令 C r o s s t a b M e a n s
定序 同上
双变量的关系统计 积差相关 同左 / 同下
关系强度系数 S p e a r m a n r
K e n d a l l — t a u a / b
强度系数的检验 Z 检验
SPSS 的命令 C o r r e l a t e
定距
双变量的关系统计 积矩相关
关系强度系数 P e a r s o n r
强度系数的检验 Z 检验
SPSS 的命令 C o r r e l a t e
定距
双变量的关系统计 回归
关系强度系数 B 系数
强度系数的检验 T 检验
SPSS 的命令 R e g r e s s i o n