第三章 抽样分布样本统计量抽样误差=总体参数-样本统计量估计值表现现象:在同一总体中的不同抽样,其样本统计量之间存在差异。
样本量和样本个数的概念例3.1,已知某地高中三年级男生的平均身高为168.15厘米,这里,将该地高中三年级男生的身高视为一个总体,其总体均数,总体标准差。现从该总体中重复随机抽样5次,每次抽取一个样本含量n=10的样本,得到的5个样本的数据及各样本均数如下:
表3.1 在N(168.15,62)总体中随机抽5个样本的资料,样本含量n=10
样本号
样本观测值(n=10)
样本均数()
抽样误差
1
161.1
173.7
173.7
167.3
162.2
162.2
166.6
166.6
157.4
157.4
164.82
-3.33
2
166.8
159.1
159.1
166.1
173.3
173.3
169.1
169.1
165.2
165.2
166.63
-1.52
3
157.4
174
172.3
175.8
166.6
182.1
163.1
159.4
159.4
177.3
168.74
0.59
4
174.5
182.1
168.5
171.3
174.1
165.6
173.7
171.9
167.5
164.1
171.33
3.18
5
164.1
166.6
169.6
169.6
173.8
173.2
164.3
166.6
182.1
165.4
169.53
1.38
抽样误差是随机的、但在概率意义下是有规律的,在大量重复抽样的情况下,可以展示其规律性:抽样分布,并且抽样分布与样本分布有一定的关系。因此只要了解抽样分布的规律性以及与样本之间的关系,这样即使只有一个样本,也能了解抽样分布情况。
正态分布样本的样本均数分布样本含量n=4
样本含量n=16
样本含量n=36



的平均数=168.198
的标准差=2.9995
的平均数=168.185
的标准差=1.4868
的平均数=168.135
的标准差=0.9997
图3.1 从正态分布总体N(168.15,62)中随机抽样的结果曲线是正态总体N(168.15,62)的分布密度曲线直方图为正态分布总体N(168.15,62)的样本均数的频数图
表3.2 从正态总体N(168.15,62)随机抽样,样本含量分别为4,16和36
分别对应的前10个样本的样本均数
n=4
n=16
n=36
样本号
均数
样本号
均数
样本号
均数
样本号
均数
样本号
均数
样本号
均数
1
169.22
11
166.82
1
167.91
11
168.10
1
168.37
11
166.71
2
169.61
12
162.47
2
170.19
12
166.45
2
167.47
12
167.76
3
165.73
13
170.02
3
168.60
13
168.85
3
170.36
13
169.46
4
166.60
14
171.53
4
165.48
14
169.72
4
167.16
14
168.31
5
169.99
15
168.16
5
168.95
15
168.74
5
168.68
15
167.90
6
166.43
16
164.25
6
168.54
16
172.50
6
168.78
16
168.43
7
171.77
17
164.63
7
167.87
17
168.52
7
169.54
17
167.60
8
166.65
18
164.72
8
168.66
18
167.15
8
168.77
18
167.17
9
170.71
19
165.83
9
170.01
19
166.19
9
167.61
19
168.94
10
170.84
20
169.83
10
167.19
20
166.15
10
168.95
20
169.29
大多数的样本均数相互之间存在差异,绝大多数的样本均数不等于总体均数,但都离总体均数比较近。
无论样本含量n多大,在每个抽样试验中,的均数都接近于X的总体均数,即样本均数的集中趋势位置与个体资料X的集中趋势位置较为接近,样本均数的频数图(图3.1)均呈现出中间多、两边少且基本对称的正态分布特征。随着样本含量的增大,样本均数的频数图范围越来越窄。
图3.1所给出的3种样本含量的10000个样本均数的频数图及其统计描述可以发现:每种样本量的10000个样本均数值所计算出的标准差都非常接近((为个体资料X的总体标准差)。
理论上可以证明:从正态分布N((,(2)的总体中随机抽取样本含量为n的一个样本X1,X2,…,Xn,其样本均数有如下性质:
1)样本均数服从正态分布N((,(2/n)。
2)样本均数的总体标准差=。称为标准误为了区分样本所在总体的标准差,通常称样本均数的标准差为样本均数的标准误(简称标准误),记为。故样本均数与个体资料所在的总体变异程度有如下规律:
 (3.1)
由于在实际研究中,我们往往只有一个样本,不能利用样本均数直接估计标准误,但可以用样本标准差S估计总体标准差(,利用公式(3.1)得到标准误的估计式
 (3.2)
为了叙述方便,常称为标准误,称为理论标准误。
非正态总体的样本均数分布
无论正态总体抽样还是非正态总体抽样,样本均数都是随机的,同样在概率意义下是有一定规律的。
随机模拟非正态分布的样本均数分布总体均数(=1(可以证明:总体标准差(=1)
在(=1的指数分布总体随机抽取一个样本


a:指数分布(密度曲线)图
b:个体观察值频数图(样本含量n=1000)。
,S= 0.9672,中位数M=0.7417
图3.2 指数分布的密度曲线和个体观察值频数图
n=4
n=9
n=100



(a)的均数=0.9903
的标准差=0.4891
的中位数=0.9087
(b)的均数=1.0068
的标准差=0.3313
的中位数=0.9696
(c)的均数=0.9995
的标准差=0.1002
的中位数=0.9976
图3.3 从总体均数为1的指数分布总体中随机抽10000个样本的样本均数频数图
事实上,无论样本来自什么总体,理论上可以证明:
1,样本均数的总体标准差是个体资料X的总体标准差的(,即样本均数的理论标准误),理论标准误的样本估计式为。
2.样本均数与个体资料X的总体均数相同。
3.若个体资料所属总体X呈正态分布,则由前面所述可知,样本均数的分布规律仍为正态分布;作下列U变换
 (3.3)
则U服从标准正态分布。也就是说,若资料服从正态分布N((,(2),样本含量为n的样本均数出现在的概率为0.95,由此可见样本含量越大,这个范围就越小。
4.若被抽样总体X呈偏态分布且样本量n较大时(如n>40),由上述结果可知样本均数近似地服从正态分布,作变换,则可以证明:U近似服从标准正态分布。
例3.2 已知7岁正常发育男孩的身高服从正态分布,在某地的正常7岁男孩中随机抽一个样本,样本含量为110,得到样本均数为121.92,样本标准差为4.527,则相应的标准误为。
例3.3 已知在某地7岁正常发育男孩的身高服从正态分布N(121,52),正常发育7岁男孩身高的95%范围为=(111.2,130.8),若在该地正常7岁男孩中随机抽一个样本,样本含量为100,则样本均数的95%范围为=(120.2,121.98),样本含量为100的样本均数的变异范围要比个体的变异范围小的多。
t分布
标准正态分布与t统计量
X~N((,(2),其样本均数服从正态分布,并且变换服从标准正态分布
在实际研究时,(往往是未知的,因此只能用样本的标准差S作为(的一个近似值(估计值)代替(,得到变换后的统计量并记为 。 由于样本标准差S是一个样本统计量,也就是说,对于U而言,正态总体确定后,(就已经确定了,但是对于统计量t,则不同的样本有不同的样本标准差S,即样本标准差S也存在抽样误差。因此统计量t变异成分要大于U,故t不再服从标准正态分布。
在正态总体N(168.18,62)中随机抽样,样本量分别取n =5,n =100,均抽10000个样本,分别计算t值和U值(表3.3)并作相应t的频数图。
表3.3 来自N(168.18,62)的10000样本的u统计量和t统计量的统计描述样本量
统计量
平均值
P2.5
P97.5
n=5
u
0.0149031
-1.950067
1.969157
t
0.0319309
-2.654214
2.838163
n=100
u
0.0033231
-1.950886
1.971245
t
0.0034704
-1.981183
2.000407
样本含量n=5
样本含量n=100


(a)
(b)
图3.4 t统计量的频数图(10000个样本),轮廓曲线为标准正态分布曲线
上述10000个样本所计算出的u值和t值的平均值非常接近,对于U值而言,无论n=5和n=100,U值的P2.5和P97.5都在标准正态分布95%的双侧分位点()附近;但对于t值而言,样本量n=5时,t值的P2.5和P97.5明显远离(说明t的变异大于U的变异),而样本量n=100时,t值的P2.5和P97.5相对比较靠近。这些结果说明:小样本时,t统计量和U统计量的分布是有明显差别的,但在大样本时,t统计量和U统计量的分布非常接近。从频数图(图3.4)也可以看出,当样本量较大时,同样可以发现统计量t的频数图与标准正态分布曲线非常接近,而当样本含量较小时,统计量t的分布与标准正态分布则有所区别:即t统计量的峰值比标准正态分布的峰值略小,双侧尾部的值则较标准正态分布略大。
综合上述可知,t统计量的分布与标准正态分布有些相似之处,但样本标准差S存在变异,故小样本时t统计量的分布与标准正态分布有较大的差异。英国统计学家W,S,Gosset(1908)给出了统计量t的分布规律,并称统计量
  (3.4)
的分布规律为t分布,自由度为v,记为t(v)分布。由于每个自由度v对应一个分布,因此t分布是一簇分布,图3.5给出了时的三条t分布曲线。由于t分布仅与总体均数有关,与总体标准差无关,因此在统计检验中得到广泛应用。
图3.5 时的三条t分布密度曲线二,t分布的图形特征和t界值
1)分布特征 由图3.5可知,t分布曲线是单峰的,且关于t = 0对称。
2) t分布与正态分布的关系 从图3.5还可以看出,自由度v较小时,t分布与标准正态分布相差较大,并且在t分布曲线的尾部面积大于在标准正态分布曲线的尾部面积。当自由度时,t分布逼近于标准正态分布。
3)t分布的界值 本书附表2是给定自由度v,t分布曲线的双侧尾部面积为(时对应的t值,记为并称为t的双侧界值(如图3.6所示)。如,其统计意义为在总体N((,(2)中随机抽一个样本含量为5的样本并按照公式(3.4)计算t统计量值(相应的自由度为4),这个t统计量值在(-2.776,2.776)范围内的概率为0.95。附表2也给出了右单侧尾部面积为(时的右单侧界值。如,其统计意义为在总体N((,(2)中随机抽一个样本含量为5的样本,其t统计量值>2.312的概率为0.05或者说t统计量值<2.312的概率为0.95。由于t分布曲线在t=0为中心左右两侧对称,所以左单侧尾部面积为(的界值为-。如t(4)分布曲线,其左单侧尾部面积为0.05的界值为-2.312。应注意的是单双侧界值关系为:界值表示双侧的尾部面积为(,但作为单侧界值的尾部面积为(/2。如,作为双侧界值的尾部面积(=0.05,而作为单侧界值的尾部面积(=0.025。
比较t分布的界值与标准正态分布的界值可以发现,同样的尾部面积,t分布的界值要大于标准正态分布的界值(如双侧尾部面积为0.05的界值是1.96),当自由度时,t分布的界值逼近标准正态分布界值。
图3.6 t分布界值示意图,(表示阴影的面积
第五节 样本率的分布☆
在医学研究中,研究人群的某些检查指标的阳性率、某疾病的患病率、某疾病的治愈率等总体率常常是医学研究者非常关心的统计指标,但这些总体率在实际情况中往往是未知的,需要利用样本资料(个体观察值)计算相应的样本率p来估计总体率(。例如,设样本的个体数(即样本含量)为n,若x为样本的某指标阳性个体数,则可用样本阳性率估计研究人群的阳性率 (总体阳性率);若x为样本中的患病人数,则可用样本患病率估计研究人群的患病率;若x为样本中的某疾病治愈人数,则可用样本治愈率估计研究人群的治愈率等。这些样本率与总体率(研究人群的率)的差异称为样本率的抽样误差。例如某地正常成人HbsAg的阳性率为15%。显然,这里的15%就是总体阳性率。如果我们从该总体中随机抽取20名正常成人,测得HbsAg指标呈阳性的人数有4人,则样本阳性率为。而该样本阳性率的抽样误差为0.2-0.15=0.05。由于样本率在随机抽样前是无法确定的,在同一总体中的任意两次随机抽样所得的样本率往往是不同的,因此样本率是随机的,但在概率意义下也是有规律的……样本率的分布。
为了给读者关于样本率的直观认识,我们做4个随机抽样试验,分别在总体率(=0.4,0.5,0.01的总体中随机抽样,并在(=0.4的总体中的随机抽样的样本含量分别为n=20和n=100,每种情况分别随机抽10000个样本,每个样本计算其样本率,把同一种情况的10000个样本率视为一个新的样本资料作频数图(见图3.11),并且表3.5给出总体率(为0.4,样本含量n=20的样本率频数表。




n=20,(=0.4
n=100,(=0.4
n=10,(=0.5
n=100,(=0.01
a,p的均数为0.3998
p的标准差为0.1083

b,p的均数为0.4000
p的标准差为0.4904

c,p的均数为0.5010
p的标准差为0.1593

d,p的均数为0.0100
p的标准差为0.0099

图3.12 每种样本含量各抽10000个样本的样本率频数图
表3.5 总体率为0.4,样本量n=20的10000个样本治愈率的频数表治愈率p
频数
频率(100%)
累计频率(100%)
0.10
13
0.13
0.13
0.15
125
1.25
1.38
0.20
350
3.50
4.88
0.25
727
7.27
12.15
0.30
1284
12.84
24.99
0.35
1710
17.10
42.09
0.40
1805
18.05
60.14
0.45
1555
15.55
75.69
0.50
1169
11.69
87.38
0.55
716
7.16
94.54
0.60
330
3.30
97.84
0.65
147
1.47
99.31
0.70
54
0.54
99.85
0.75
13
0.13
99.98
0.80
1
0.01
99.99
0.85
1
0.01
100
合计
10000
100.00
10000个样本治愈率p的均数
10000个样本治愈率
读者不难发现样本率有如下特点:
同一总体率(,样本含量越大,样本率的分布越趋向对称。
同样样本含量,(越偏离0.5,样本率的分布越偏态分布。
(=0.5,任意样本含量的样本率都呈对称分布。
同一情况的10000个样本率的样本标准差。
理论上可以证明,
若样本中的个体个数(即样本含量)为n,总体率为(,样本率为p,则
1,样本率的总体均数等于总体率:
 (3.7)
2,样本率的总体标准差(即率的标准误)
 (3.8)
在实际工作中,由于总体率通常是未知的,因而用样本率p来估计,故率的标准误的估计值常表示为
 (3.9)
3,对于大量重复随机抽样而言,样本率p围绕着总体率波动,样本含量n的值越大,这种波动就越小,当n的值充分大时,p的分布就近似于均数为,标准差为的正态分布。这里,对样本含量n,充分大”的要求通常为:、且n>40。
4,当总体率(=0.5时,则样本率p的分布为对称分布。
5,当样本含量n为定值时,总体率(越接近0.5,样本率p近似正态分布的程度就越好。
小结任何随机变异在概率意义下都有其相应的规律――概率分布,但只有在大量重复观察情况下,随机变异的这种规律才能呈现。虽然在绝大多数的实际工作中,只有一次抽样,相应得到一个样本统计量的结果,故难以揭示样本统计量的分布规律,但这种分布规律是客观存在的,并可以通过大量重复抽样,计算各样本统计量并作样本统计量的频数图便可揭示样本统计量的分布规律——抽样分布,并且可以得到样本统计量的变异规律与样本资料(个体观察值)的变异规律之间的关系。
设变量X的总体均数为(,总体标准差为(。在X所在总体中随机抽一个样本含量为n的样本,则样本均数也呈某种随机变异。
的总体均数=个体资料X的总体均数,的总体标准差=。
若X~N((,(2),则~。
即使个体资料X不服从正态分布,当n较大时,也近似服从。
设S为个体资料X的样本标准差,则的标准差估计SE=,并称为样本均数的标准误。
若X~N((,(2),服从标准正态分布N(0,1)。
若X~N((,(2),当未知时,可用S代替,得到统计量。由于S存在抽样误差,因此t服从自由度为n-1的t分布。
n充分大时,S的变异非常小且与(的误差非常小,故t分布近似于标准正态分布N(0,1)。
样本含量为n的样本率p的标准误为。
总体率为(,样本量n很大时,样本率p近似服从正态分布。