§ 4 随机抽样与抽样分布与概率论一样,数理统计也是研究随机现象统计规律性的一门数学学科。概率论研究的基本内容是:在已知随机变量分布的情况下,着重讨论了随机变量的性质及其所确定的数字特征。但是对一个具体的随机变量来说,如何判断它服从某种分布。如果知道它服从某种分布又该如何确定它的各个参数。对于这些问题在概率论中都没有涉及到,它们都是数理统计所要研究的内容,
并且这些问题的研究都直接或间接建立在试验的基础上。
数理统计学是利用概率论的理论对所要研究的随机现象进行多次的观察或试验,研究 如何合理地获得数据,如何对所获得的数据进行整理、分析,如何对所关心的问题作出估计或判断 的一门数学学科,其内容非常丰富。
一般可分为两大类:一类是试验的设计与研究,一类是统计推断。我们着重讨论统计推断。
本章首先介绍数理统计的基本概念,然后介绍有关抽样分布的几个定理,为以后各章作必要的准备。
§ 4.1 基本概念与经验函数本节要求掌握简单随机样本、统计量与经验函数等基本概念。
§ 4.1.1 基本概念总体、个体、样本是统计学中三个最基本的概念。我们称研究象的全体为 总体 或 母体 。称组成总体的每个单元为 个体 。从总体中随机抽取 n个个体,称这 n个个体为容量是 n的样本。
例如,为了研究某厂生产的一批灯泡质量的好坏,规定使用寿命低于 1000小时的为次品。则该批灯泡的全体就为总体,每个灯泡就是个体。实际上,数理统计学中总体是指与总体相联系的某个(或几个)数量指标 X取值的全体 。比如,该批灯泡的使用寿命 X的取值全体就是研究对象的总体。由于对不同的个体,X取不同的值,且事先无法准确预言,所以 X是随机变量,这时,我们就称 X的概率分布或更简单地就称 X为总体。为了判断该批灯泡的次品率,最精确的办法是把每个灯泡的寿命都测出来。然而,寿命试验是破坏性试验(即使试验是非破坏性的,由于试验要花费人力、物力和时间),我们只能从总体中抽取一部分,比如说,n个个体进行试验。试验结果可得一组数值( x1,x2,┄,xn),其中每个 是一次抽样观察的结果。由于我们要 ix
根据这些观察结果对总体进行推断,所以对每次抽取就有一定的要求,
要求每次抽取必须是随机的、独立的,这样才能较好地反映总体的情况。 所谓随机的是指每个个体被抽到的机会是均等的,这样抽到的个体才有代表性。 所谓独立的是指每次抽取之后不能改变总体的成分 。这就要求:如果试验是非破坏性的且总体是有限的,抽取应该是有放回的;如果试验是破坏性的总体应该是无限的或是很大的,
基于上述思想的抽样方法称为 简单随机抽样 。用简单随机抽样方法抽取 n个个体进行试验,其结果是确定的一组数值( x1,x2,┄,xn),
但是这组数值( x1,x2,┄,xn) 是随着每次抽样而改变的。因此
( x1,x2,┄,xn) 实际上是一个 n维随机向量 (X1,X2,┄,Xn) 的一次观察值。即在试验之前,( x1,x2,┄,xn)实际上是随机向量 (X1,X2,┄,Xn) 。
又因抽样是随机的、独立的,所以 X1,X2,┄,Xn 是相互独立的 n个随机变量,且每个都与总体 X同分布。我们称 (X1,X2,┄,Xn)或
X1,X2,┄,Xn 为总体 X的容量为 n的简单随机样本,简称为样本。
由于对总体进行统计推断的依据是样本提供的信息,然而样本是 n维随机变量或 n个随机变量,讨论起来很不方便。人们自然会想到能否用样本的函数代替样本对总体进行统计推断。当然,这个函数不能太任意了,最好是一个随机变量,这样使用起来才方便; 同时这个函数中不能含有任何未知参数。由此,我们引入如下定义。
定义 设 X1,X2,┄,Xn 为总体 X的一份样本,
g (X1,X2,┄,Xn) 为一个连续函数,如果 g中不包含未知参数,则称 g (X1,X2,┄,Xn) 为一个统计量。
因为 X1,X2,┄,Xn 都是随机变量,而统计量 g
(X1,X2,┄,Xn) 是随机变量的函数,因此统计量是一随机变量。设 x1,x2,┄,xn 是相应于样本
X1,X2,┄,Xn 的样本值,则称 g(x1,x2,┄,xn)是
g (X1,X2,┄,Xn)的观察值。
下面列出几个常用的统计量。设 X1,X2,┄,Xn
为总体 X的一份样本,x1,x2,┄,xn 是这一样本的观察值。定义样本均值
n
i
iXnX
1
1
样本方差样本标准差样本 k阶原点矩样本 k阶中心矩



n
i
i
n
i
i XnXnXXnS
1
22
1
22 )(
1
1)(
1
1
2
1
2 )(
1
1 XX
n
SS i
n
i

,2,11
1

kX
n
A
n
i
k
ik
,3,2)(1
1

kXX
n
B k
n
i
ik
它们的观察值分别为这些观察值仍分别称为样本均值、样本方差、样本标准差、样本 k阶原点矩以及样本 k阶中心矩。
n
i
ixnx
1
1



n
i
i
n
i
i xnxnxxns
1
22
1
22 )(
1
1)(
1
1

n
i
i xxns
1
2)(1
,2,11
1

kx
n
a
n
i
k
ik
3,2)(1
1

kxxnb
n
i
k
ik
§ 4.1.2 经验分布函数下面讨论与总体分布函数 F(x)相应的统计量 — 经验分布函数。它的作法如下,设 X1,X2,┄,Xn为总体 X的一份样本,用 S(x),-∞<x<∞表示 X1,X2,┄,Xn中不大于 x的随机变量的个数。定义经验分布函数 Fn(x)为对于一个样本值,那么经验分布函数 Fn(x)的观察值是很容易得到的( Fn(x)的观察值仍以 Fn(x)表示)。
例如 ( 1)设总体 F具有样本值 1,2,3,则经验分布函数 F3(x) 的观察值为
xxSnxF n ),(1)(


31
323/2
213/1
10
)(
3
x
x
x
x
xF
( 2)设总体 F具有一个样本 1,1,2,则经验分布函数
F3(x) 的观察值为一般,设 x1,x2,┄,xn 是总体 F的一个容量为 n的样本值,
先将 x1,x2,┄,xn按自小到大的次序排列,并重新编号。设为 则经验分布函数 Fn(x)的观察值为显然,Fn(x)是 x的单调不减、右连续函数,且所以 Fn(x)是分布函数 。

21
213/2
10
)(3
x
x
x
xF
)()2()1( nxxx



)(
)1()(
)1(
1
0
)(
n
kkn
xx
xxx
n
k
xx
xF
1)(,0)(,1)(0 nnn FFxF
对于经验分布函数 Fn(x),格列汶科( Glivenko)在 1933年证明了以下的结果,对于任一实数 x,当 n→∞ 时 Fn(x)以概率 1一致收敛于分布函数 F(x)。即因此,对于任一实数 x当 n充分大时,经验分布函数的任一个观察值
Fn(x)与总体分布函数 F(x)只有微小的差别(如下图所示),从而在实际上可当作 F(x)来使用。
1}0)()(s u pli m{

xFxFP n
xn
§ 4.2 抽样分布本节要求掌握 分布,t分布,F分布的定义,了解它们的概率密度函数图形的轮廓,会查分位点。掌握样本均值,样本方差 S2
的一些基本分布。
统计量是我们对总体 X的分布或数字特征进行估计与推断的重要的基本概念。求出统计量的分布函数是数理统计学的基本问题之一。 统计量的分布称为抽样分布 。
设总体 X的分布函数已知,如果对任意容量为 n的样本 X1,X2,┄,
Xn 能求出给定的统计量 T(X1,X2,┄,Xn )的分布函数,则称这个分布函数为 T(X1,X2,┄,Xn )的 精确分布 。求出统计量的精确分布,对于数理统计学中的所谓 小样问题 (即在样本容量 n较小的情况下所讨论的各种问题)的研究是很重要的。但是,一般来说要确定一个统计量的分布是比较困难的。本节只对正态总体,求出了其样本的几个函数的精确分布。如果统计量的分布函数求不出来,或者虽能求出来但是其表达式很复杂不便于应用,如果这时能求出当 n→∞ 时的统计量极限分布,这个统计量的 极限分布 对于数理统计学中的所谓 大样问题 (即在样本容量 n比较大的情况下所讨论的各种问题)的研究是非常有用的。不过何为大样何为小样却没有一定的标准,这要由具体问题来确定。
2?
X
§ 4.2.1 统计学三大分布
1 分布 设 X1,X2,┄,Xn 是来自总体 N(0,1)的样本,则称统计量服从自由度为 n的 分布,记为 。
这里,自由度是指统计量中所包含的独立的随机变量的个数 。
分布的概率密度为
)(2 n?



00
0
)2/(2
1
)(
2/12/
2/
y
yey
nyf
yn
n
2?
2? )(~ 22 n
222212 nXXX
分布的性质
( 1) 服从 分布的两个随机变量的和也服从 分布,其自由度为它们的自由度之和,即,Q1 与 Q2 相互独立,则 。
( 2)若,并且 Q2 是非负的,则 。
分布的分位点 对于给定的正数 α,0<α<1,称满足条件的点 为 分布的上 α分位点,如图所示。上 α
分位点的值可以直接查附表 5。
当 n较大时,近似地有其中 是标准正态分布的上 α分位点(附表 4)。
2?
)(~),(~ 222121 nQnQ
)21221 (~ nnQQ
)(~),(~,121221 nQnQQQQ
)(~ 122 nnQ




)(
22
2 )()}({ n dyyfnP
)(2 n )(2 n?
2?
2?
22 )12(
2
1)( nun

u
2?
2 t分布 设 X~N(0,1),,且 X,Y
独立,则称随机变量服从自由度为 n的 t分布(又称学生氏分布)。记为 t ~ t(n)。
t(n)分布的概率密度函数为附表 7是 t分布的双侧临界值当 n>45时,用正态近似:
)(~ 2 nY?
nY
Xt
/?



t
n
t
nn
nth n,1
)2/(
]2/)1[()( 2/)1(2
}{ 2/ttP
2/2/ )( unt?
3 F分布,设随机变量,且 U
与 V相互独立,则称随机变量服从自由度为( n1,n2)的 F分布,记为
F~F(n1,n2) 。
F(n1,n2)分布的概率密度函数为附表 6
左侧临界值
)(~),(~ 2212 nVnU
2
1
/
/
nV
nUF?




00
0
)]/(1)[2/()2/(
)/](2/)[(
)( 2/)(
2121
1)2/(2/
2121
21
11
y
y
nynnn
ynnnn
y nn
nn
),(
1),(
12
211 nnFnnF

§ 4.2.2 正态总体的样本均值与样本方差的分布我们先不加证明地给出正态分布的几条结论。
( 1)设随机变量 X~N(μ,σ2),其线性函数 Y=aX+b仍服从正态分布,且 Y~N(aμ+b,a2σ2),这里 a,b为常数。
( 2) 设随机变量 X1,X2,┄,Xn 相互独立,且 Xi~N(μi,σi2),
i=1,2,…,n,则线性组合 仍服从正态分布,且这里 为不全为零的常数。
特别,若 X1,X2 均服从 N(μ,σ2),且相互独立,则
X1+X2~N(2μ,2σ2),X1-X2~N(0,2σ2)
例 设 X1~N(1,4),X2~N(3,1),且 X1和 X2相互独立,则
Z=2X1-3~N(-1,16)
)4116,21(~212 21 NXXW
ic
n
i
ii XcX
1



n
i
ii
n
i
ii ccNX
1
22
1
,~
下面介绍在以后各章中要用到的几个重要的抽样分布定理 。
定理 1 设 X1,X2,┄,Xn 是来自正态总体 N(μ,σ2) 的样本,是样本均值,则有定理 2 设 X1,X2,┄,Xn 是来自正态总体 N(μ,σ2) 的样本,分别是样本均值和样本方差,则有
( 1)
( 2) 与 独立 。
X )/,(~ 2 nNX
2,SX
)1(~)1( 22
2
nSn
2SX
定理 3 设 X1,X2,┄,Xn 是来自正态总体 N(μ,σ2) 的样本,分别是样本均值和样本方差,则有证 由定理 1、定理 2有且两者独立。由 t分布的定义知即
)1(~
/
nt
nS
X?
)1(~)1(,)1,0(~
/
2
2
2
nSnN
n
X?

)1(~)1()1(/ 2
2
ntnSnnX
)1(~/ ntnSX?
2,SX
对于两个正态总体的样本均值和样本方差有以下的定理。
定理 4 设 X1,X2,┄,Xn1 与 Y1,Y2,┄,Yn2 分别是来自正态总体和 的样本,且这两个样本相互独立。设分别是这两个样本的均值;
分别是这两个样本的方差,则有
( 1)
( 2)当 时其中
),( 211N ),( 222N



21
1211
1,1 n
i
i
n
i
i YnYXnX



21
1
2
2
2
2
1
2
1
2
1 )(1
1,)(
1
1 n
i
i
n
i
i YYnSXXnS
)1,1(~// 212
2
2
2
2
1
2
1 nnF
S
S
22221
)2(~
11
)()(
21
21
21

nnt
nn
S
YX
2
21
2
22
2
112,
2
)1()1( SS
nn
SnSnS?


例 1:设 X1,X2,…,X 6 是来自正态总体的一个样本,,求随机变量 Y
的分布
),0(~ 2?NX
2
6
2
4
2
2
531
XXX
XXXY


本节所介绍的几个分布以及四个定理,
在下面各章中起着重要的作用。应注意,
它们都是在总体为正态分布这一基本假设下得到的。