第 10章 非参数统计非参数统计亦称非参数检验,是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。
非参数检验与参数检验的比较检验类别 假定条件 目的 适用范围 优点 缺点参数检验 总体呈正 态分布 参数估计假设检验 定距资料定比资料 充分利用 信息 使用范围 有限非参数检验 无限制 假设检验定性、定序、定距、
定比资料方法直观,
运算简单信息少,检验功效低
χ2检验
含义运用 χ2分布作为理论工具,在非参数统计中可用于对总体的分布或随机变量的独立性进行的检验 。
χ2检验的原理在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以判断 实际结果 与 理论 是否一致。
设有 k个观察值,f0为它们的实际频数,fe为理论频数。构造一个统计量
)1(/)( 2
1
2 为自由度
kfff eeok
i
数理统计证明在大量试验中,若 f0与 fe相一致时,χ2服从 χ2分布。
( f0-fe)比较小时,χ2值也较小;( f0-fe)比较大时,χ2也较大。当 χ2值大到按 χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。
χ2检验的应用拟合优度检验:
独立性检验:
利用随机样本资料对总体是否服从某种理论分布的检验。
利用样本资料对总体的两个变量的数据是否彼此关联的检验,如果不关联即为独立 。
1、拟合优度检验
( 1)对总体分布建立假设
H0:总体服从某种理论分布
H1:总体不服从该理论分布
( 2)抽样并对样本资料编成频数分布( f0)
( 3)以“原假设 H0为真”
导出一组期望频数( fe)
( 5) χ2=∑(f0-fe)2/fe 给定的
α查 χ2表,得到临界值
( 6)比较 χ2值与临界值作出检验判断
( 4)计算检验统计量
χ2=∑(f0-fe)2/fe
检验步骤注意事项
( 1)各组理论频数 fe不得小于 5,如不足 5可合并组;
( 2)为使组数不致太少,总频数 n> 50;
( 3)根据具体情况确定自由度。
例 题假定总体为均匀分布的检验假定总体为正态分布的检验假定总体为泊松分布的检验
2、独立性检验检验步骤 ( 1)对总体的两个变量建立假设 H0:两变量独立
H1:两变量关联
( 2)将样本资料编成 r× c列联表,并列出实际频数 Oij
( 4)计算检验统计量 ( 5) χ2=∑(f0-fe)2/fe
给定的 α查 χ2表,得到临界值
( 6)比较 χ2值与临界值作出检验判断
2
11
2 )(
ij
ijijc
j
r
i E
EO
n
nnE ji
ij?
( 3)计算理论频数
理论频数 Eij的计算先求理论频率(作为概率的近似)。概率论中关于概率独立的基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,P
( A·B) =P( A) ·P ( B)。因此,某一行某一列的联合概率:
n
n
n
njiP ji),( 的概率第
n
nn
n
n
n
nnEn jiji
ij )(,理论频数总频数为?
自由度为,df=(r-1)(c-1)
例,r·c=3× 4
√
√ √ √
√√
○ ○ ○ ○
○
○
CT1 CT2 CT3 CT4
RT1
RT2
RT3
总行数总列数
r1
r2
r3
Df=(3-1)(4-1)=6
c1 c2 c3 c4
r·c=2× 2的列联表资料,χ2值简算公式
x
y 1 2
1
2
a b
c d
a+c b+d
a+b
c+d
合计合计
n
))()()((
)( 22
dcbadbca
bcadnx
成对比较检验
符号检验
1 含义略去两组样本数据之差的数值,只用其差的正、负符号进行判断的检验方法,亦称正负号检验。
2 检验内容检验的两组数据是否有显著差异或两总体的位置特征
(均值、中位数)是否相同。
3 适用条件关联样本资料、定性变量若两组数据没有显著差异,它们之差的,+”、,-”号的个数应大致相等。出现,+”(或,-”)的概率为 0.5。如果一次抽样的随机样本的配对数据中,,+”号出现过多或过少,在一定显著性水平 α条件下属于小概率事件,就说明两组数据的平均水平或相对次数分布并不相同。可见,
配对符号检验是二项检验的一种应用。
§ 由于 P=0.5的二项分布呈对称型,所以,只要 n> 25,
即可按正态分布近似处理。
4 方法思想设有关联样本的两组成对的数据 xi与 yi,比较各对的大小。
若 xi> yi,记作,+”;若 xi< yi,记作,-”;
若 xi=yi,删去,并相应减少 n对数据检验步骤
( 1)抽样。将样本资料配对比较,计算( +)、( -)号个数
( 2)建立假设,H0,P=0.5
H1,P≠0.05(双侧)
H1,P(+)> P(-)或 P(+)< P(-)(单侧 )
( 3)计算检验统计量
n≤25时;,+”个数
n> 25时:
( 4)设定显著性水平 α,
查表确定临界值或否定域
( 5)比较并作出判断n
PZ
5.05.0
5.0?
Wilcoxon带符号的等级检验这种方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。因此是一种更为有效的检验方法。
1 应用条件和检验内容,同符号检验
2 思想方法若关联样本的两组数据没有显著差异,则不仅其差异的正负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)
后,它们的正号( +)的秩和(记为 T+)与负号( -)的秩和(记为 T-)
也应该大致相等。其中之较小者也应趋近于总秩和的平均数
( )。若 T+与 T-相差太大,其中较小者偏离 较远,以致超过给定显著性水平 α所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。
4 )1( nnT T
检验步骤
( 1)将样本数据配对并计算各对正负差值
( 2)按差值绝对数大小排序 (等级 ),并按原正负号计算正秩和 (T+)与负秩和 (T-)
( 3)建立假设,H0,T+=T-
H1,T+≠T-(双侧 )
H1,T+> T-或 T+< T-(单侧 )
( 4)计算检验统计量当 n≤25时,取 T+,T-中之小者
24/)12)(1(
4/)1(
nnn
nnTZ当 n>25时
( 5)设定 α,并查表确定临界值 Tα(或 Zα/2)
( 6)比较统计量与临界值作出判断,对于 n≤25,T≤Tα,拒绝 H0; T> Tα不能拒绝 H0
曼 — 惠特尼 U检验
适用范围适用于从两个总体中分别独立抽取两个样本,检验其总体均值或总体的相对次数分布是否相同。
思想方法基本与威尔科克森秩和检验相同。但是 Wilcoxon检验依据差数的绝对值排序,而 曼 — 惠特尼 U检验 依据样本值本身排序,且无正负号差别。
优点,对样本信息利用更充分,检验效率更强。
检验步骤
( 3)建立假设
H0:两总体相 对次数分布相同
H1:两总体相对次数 分布不同
( 1)从总体 A,B中分别独立抽取样本 nA和 nB,将( nA+nB)个观察值从小到大编序
( 2〕 分别计算两个样本,的秩和 TA和 TB
( 4)计算检验统计量
① nA,nB< 10时,取 UA,UB中小者
UA= nAnB+ nA( nA +1) /2-TA
UB= nAnB+ nB( nB +1) /2-TB
② nA,nB> 10时
12/)1(
)2/(
BABA
BA
nnnn
nnUZ
( 5)设定显著性水平 α,
查 U表或 Z表得到临界值
( 6)比较统计量与临界值
U≤Uα,拒绝 H0,
U> Uα,不能拒绝 H0
游程检验
定义亦称连贯检验,是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。
例,(i) 男,男,女,女,女,男,女,女,男,男,男,男
(ii) 男,男,男,男,男,男,男,女,女,女,女,女
(iii) 男,女,男,女,男,女,男,女,男,女,男,男连续出现的区段称为 游程 。 每个区段包含的样本观测值的个数为游程长度。 以 r表示序列中游程的个数:
(i) r=5,(ii) r=2,(iii) r=11
( i)是随机性序列;( ii)( iii)是非随机性序列,所以,可以用游程的个数来检验样本的随机性或总体的分布特征。
游程检验方法
1 检验总体分布是否相同将从两个总体中独立抽取的两个样本的观察值混合后,
观察游程个数,进行比较。
2 检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列,
找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。
3 检验规则(小样本 n< 20)
应用表 La和 Lb,( α=0.05,r为临界值)
4 大样本( n1或 n2大于 20),游程个数 r近似正态分布检验统计量
)1()(
)2(2 12)(
21
2
21
212121
21
21 nnnn nnnnnnnn nnrE r?
其中:
( 1)单侧检验:
观察到的游程个数 ro≤临界值( La表)或 ro≥临界值( Lb表)
拒绝 H0; 反之不能拒绝 Ho。
( 2)双侧检验:
观察到的游程个数 ror(La)< ro< r(Lb) 不能拒绝 Ho,反之拒绝 Ho
下限 上限
r
rErz
)(
等级相关检验将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。
Spearman相关系数其中 di为两变量每一对样本的等级之差,n为样本容量。
等级相关系数与相关系数一样,取值 -1到 +1之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。
等级相关检验的应用
检验的基本原理
)1(1 2
2
nn
dbr i
s
小样本( n<30)查 r的临界指标大样本:作正态分布处理
非参数检验与参数检验的比较检验类别 假定条件 目的 适用范围 优点 缺点参数检验 总体呈正 态分布 参数估计假设检验 定距资料定比资料 充分利用 信息 使用范围 有限非参数检验 无限制 假设检验定性、定序、定距、
定比资料方法直观,
运算简单信息少,检验功效低
χ2检验
含义运用 χ2分布作为理论工具,在非参数统计中可用于对总体的分布或随机变量的独立性进行的检验 。
χ2检验的原理在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以判断 实际结果 与 理论 是否一致。
设有 k个观察值,f0为它们的实际频数,fe为理论频数。构造一个统计量
)1(/)( 2
1
2 为自由度
kfff eeok
i
数理统计证明在大量试验中,若 f0与 fe相一致时,χ2服从 χ2分布。
( f0-fe)比较小时,χ2值也较小;( f0-fe)比较大时,χ2也较大。当 χ2值大到按 χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。
χ2检验的应用拟合优度检验:
独立性检验:
利用随机样本资料对总体是否服从某种理论分布的检验。
利用样本资料对总体的两个变量的数据是否彼此关联的检验,如果不关联即为独立 。
1、拟合优度检验
( 1)对总体分布建立假设
H0:总体服从某种理论分布
H1:总体不服从该理论分布
( 2)抽样并对样本资料编成频数分布( f0)
( 3)以“原假设 H0为真”
导出一组期望频数( fe)
( 5) χ2=∑(f0-fe)2/fe 给定的
α查 χ2表,得到临界值
( 6)比较 χ2值与临界值作出检验判断
( 4)计算检验统计量
χ2=∑(f0-fe)2/fe
检验步骤注意事项
( 1)各组理论频数 fe不得小于 5,如不足 5可合并组;
( 2)为使组数不致太少,总频数 n> 50;
( 3)根据具体情况确定自由度。
例 题假定总体为均匀分布的检验假定总体为正态分布的检验假定总体为泊松分布的检验
2、独立性检验检验步骤 ( 1)对总体的两个变量建立假设 H0:两变量独立
H1:两变量关联
( 2)将样本资料编成 r× c列联表,并列出实际频数 Oij
( 4)计算检验统计量 ( 5) χ2=∑(f0-fe)2/fe
给定的 α查 χ2表,得到临界值
( 6)比较 χ2值与临界值作出检验判断
2
11
2 )(
ij
ijijc
j
r
i E
EO
n
nnE ji
ij?
( 3)计算理论频数
理论频数 Eij的计算先求理论频率(作为概率的近似)。概率论中关于概率独立的基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,P
( A·B) =P( A) ·P ( B)。因此,某一行某一列的联合概率:
n
n
n
njiP ji),( 的概率第
n
nn
n
n
n
nnEn jiji
ij )(,理论频数总频数为?
自由度为,df=(r-1)(c-1)
例,r·c=3× 4
√
√ √ √
√√
○ ○ ○ ○
○
○
CT1 CT2 CT3 CT4
RT1
RT2
RT3
总行数总列数
r1
r2
r3
Df=(3-1)(4-1)=6
c1 c2 c3 c4
r·c=2× 2的列联表资料,χ2值简算公式
x
y 1 2
1
2
a b
c d
a+c b+d
a+b
c+d
合计合计
n
))()()((
)( 22
dcbadbca
bcadnx
成对比较检验
符号检验
1 含义略去两组样本数据之差的数值,只用其差的正、负符号进行判断的检验方法,亦称正负号检验。
2 检验内容检验的两组数据是否有显著差异或两总体的位置特征
(均值、中位数)是否相同。
3 适用条件关联样本资料、定性变量若两组数据没有显著差异,它们之差的,+”、,-”号的个数应大致相等。出现,+”(或,-”)的概率为 0.5。如果一次抽样的随机样本的配对数据中,,+”号出现过多或过少,在一定显著性水平 α条件下属于小概率事件,就说明两组数据的平均水平或相对次数分布并不相同。可见,
配对符号检验是二项检验的一种应用。
§ 由于 P=0.5的二项分布呈对称型,所以,只要 n> 25,
即可按正态分布近似处理。
4 方法思想设有关联样本的两组成对的数据 xi与 yi,比较各对的大小。
若 xi> yi,记作,+”;若 xi< yi,记作,-”;
若 xi=yi,删去,并相应减少 n对数据检验步骤
( 1)抽样。将样本资料配对比较,计算( +)、( -)号个数
( 2)建立假设,H0,P=0.5
H1,P≠0.05(双侧)
H1,P(+)> P(-)或 P(+)< P(-)(单侧 )
( 3)计算检验统计量
n≤25时;,+”个数
n> 25时:
( 4)设定显著性水平 α,
查表确定临界值或否定域
( 5)比较并作出判断n
PZ
5.05.0
5.0?
Wilcoxon带符号的等级检验这种方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。因此是一种更为有效的检验方法。
1 应用条件和检验内容,同符号检验
2 思想方法若关联样本的两组数据没有显著差异,则不仅其差异的正负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)
后,它们的正号( +)的秩和(记为 T+)与负号( -)的秩和(记为 T-)
也应该大致相等。其中之较小者也应趋近于总秩和的平均数
( )。若 T+与 T-相差太大,其中较小者偏离 较远,以致超过给定显著性水平 α所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。
4 )1( nnT T
检验步骤
( 1)将样本数据配对并计算各对正负差值
( 2)按差值绝对数大小排序 (等级 ),并按原正负号计算正秩和 (T+)与负秩和 (T-)
( 3)建立假设,H0,T+=T-
H1,T+≠T-(双侧 )
H1,T+> T-或 T+< T-(单侧 )
( 4)计算检验统计量当 n≤25时,取 T+,T-中之小者
24/)12)(1(
4/)1(
nnn
nnTZ当 n>25时
( 5)设定 α,并查表确定临界值 Tα(或 Zα/2)
( 6)比较统计量与临界值作出判断,对于 n≤25,T≤Tα,拒绝 H0; T> Tα不能拒绝 H0
曼 — 惠特尼 U检验
适用范围适用于从两个总体中分别独立抽取两个样本,检验其总体均值或总体的相对次数分布是否相同。
思想方法基本与威尔科克森秩和检验相同。但是 Wilcoxon检验依据差数的绝对值排序,而 曼 — 惠特尼 U检验 依据样本值本身排序,且无正负号差别。
优点,对样本信息利用更充分,检验效率更强。
检验步骤
( 3)建立假设
H0:两总体相 对次数分布相同
H1:两总体相对次数 分布不同
( 1)从总体 A,B中分别独立抽取样本 nA和 nB,将( nA+nB)个观察值从小到大编序
( 2〕 分别计算两个样本,的秩和 TA和 TB
( 4)计算检验统计量
① nA,nB< 10时,取 UA,UB中小者
UA= nAnB+ nA( nA +1) /2-TA
UB= nAnB+ nB( nB +1) /2-TB
② nA,nB> 10时
12/)1(
)2/(
BABA
BA
nnnn
nnUZ
( 5)设定显著性水平 α,
查 U表或 Z表得到临界值
( 6)比较统计量与临界值
U≤Uα,拒绝 H0,
U> Uα,不能拒绝 H0
游程检验
定义亦称连贯检验,是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。
例,(i) 男,男,女,女,女,男,女,女,男,男,男,男
(ii) 男,男,男,男,男,男,男,女,女,女,女,女
(iii) 男,女,男,女,男,女,男,女,男,女,男,男连续出现的区段称为 游程 。 每个区段包含的样本观测值的个数为游程长度。 以 r表示序列中游程的个数:
(i) r=5,(ii) r=2,(iii) r=11
( i)是随机性序列;( ii)( iii)是非随机性序列,所以,可以用游程的个数来检验样本的随机性或总体的分布特征。
游程检验方法
1 检验总体分布是否相同将从两个总体中独立抽取的两个样本的观察值混合后,
观察游程个数,进行比较。
2 检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列,
找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。
3 检验规则(小样本 n< 20)
应用表 La和 Lb,( α=0.05,r为临界值)
4 大样本( n1或 n2大于 20),游程个数 r近似正态分布检验统计量
)1()(
)2(2 12)(
21
2
21
212121
21
21 nnnn nnnnnnnn nnrE r?
其中:
( 1)单侧检验:
观察到的游程个数 ro≤临界值( La表)或 ro≥临界值( Lb表)
拒绝 H0; 反之不能拒绝 Ho。
( 2)双侧检验:
观察到的游程个数 ror(La)< ro< r(Lb) 不能拒绝 Ho,反之拒绝 Ho
下限 上限
r
rErz
)(
等级相关检验将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。
Spearman相关系数其中 di为两变量每一对样本的等级之差,n为样本容量。
等级相关系数与相关系数一样,取值 -1到 +1之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。
等级相关检验的应用
检验的基本原理
)1(1 2
2
nn
dbr i
s
小样本( n<30)查 r的临界指标大样本:作正态分布处理