应用统计电子教案第一章 数理统计的基本概念与抽样分布数学学院应用数学系 王国富
2005年 8月数理统计的基本概念与抽样分布例,某钢筋厂每天可以生产某型号钢筋 10000根,
钢筋厂每天需要对生产过程进行控制,对产品的质量进行检验。如果把钢筋的强度作为钢筋质量的重有指标,于是质量管理人员需要做如下方面的工作第一,对生产出来的钢筋的强度进行检测,获得必要的数据。
第二,对通过抽样获取的部分数据进行整理、
分析并推断出这 10000根钢筋的质量是否合乎要求。
§ 1.2 总体、个体、样本
1.2.1 总体与个体我们把所研究对象的全体称为总体或母体。
组成总体的每个单元称为个体总体 X可看作一个随机变量,称 X的概率分布为总体分布,称 X的数字特征为总体的数字特征,对总体进行研究就是对总体的分布或对总体的数字特征进行研究,
1.2.2 样本从总体中抽取的一部分个体称为样本或者子样,其中所含个体的个数称为样本容量,
样本具有二重性:随机性和确定性
定义 1.1 设总体 X的样本满足
⑴ 独立性:每次观测结果既不影响其它结果,也不受其它结果的影响;即相互独立;
⑵ 代表性:样本中每一个个体都与总体 X有相同分布。
则称此样本为简单随机样本。
进行有放回抽样就是简单随机样本,无放回抽样就不是简单随机样本。但 N很大,n相对较小时无放回抽样得到的样本可以近似看作简单随机样本,
称样本的分布为样本分布。如果 为简单随机样本,为总体 X的分布函数,则样本分布有比较简单的形式
12(,,,)nX X X
()Fx
它完全由总体 X的分布函数确定
),,,(),,,221121 nnn xXxXxXPxxxF(
1 1 2 2( ) ( ) ( )nnP X x P X x P X x
1
()
n
ii Fx
)(),,,( 121 inin xfxxxf
i
n
inn pxXxXxXP 12211 ),,,(
两种形式例 1.1 设有一批产品,其次品率为 p,如果记,”
表示抽取一件产品是次品;,” 表示抽取一件产品是正品;那么,产品的质量就可以用 X的分布来衡量。
X服从 0-1分布,参数就是次品率 p。如果为简单随机样本,求样本分布,
解:总体 X的概率分布为
,)1()( 1 xx ppxXP
0?X
1X?
12(,,,)nX X X所 以 的 概 率 分 布 为
ii xx
n
inn ppxXxXxXP

1
12211 )1(),,,(?

n
i
i
n
i
i xnx
pp 11 )1(
1( ) ( 1 ),xxP X x p p
例 1.2 设总体 X服从参数为 的正态分布,
求样本 的分布密度。
解:总体 X的分布密度为所以 的概率分布为
2,
12(,,,)nX X X
2
2
)(
2
1
,2
1)(


x
exf x
12(,,,)nX X X
2
12 2
11(,,,) ( ) e x p ( ( ) )
22
n
nif x x x x
统计量
统计量的定义定义 1.2 设 为总体 X的一个样本,
为 的连续函数,
且不含有任何未知参数,则称 T为一个统计量。
注,1.统计量是完全由样本确定的一个量,即样本有一个观测值时,统计量就有一个唯一确定的值 ;
2.统计量是一个随机变量,它将高维随机变量问题转化为一维随机变量来处理,但不会损失所讨论问题的信息量,
12(,,,)nX X X
12(,,,)nT T X X X? nXXX?,,21
常见的统计量
1.样本均值
2.样本方差
3.k 阶原点矩
4.k 阶中心矩
5.顺序统计量
6.样本极差 与中位数
(1)
(n)
(k)
最 大 顺 序 统 计 量,X
最 小 顺 序 统 计 量,X
第 K 顺 序 统 计 量,X
例 1.3 设总体 X为连续型的,求最大顺序统计量与最小顺序统计量的分布密度,
解,最大顺序统计量 的分布函数为
)(nX
),,()()( 21)()( xXxXxXPxXPxF nnn
n
i
n
i
xFxXP )]([)(
1

最小顺序统计量 的分布函数为
)(1)()( )1()1()1( xXPxXPxF
121 (,,,)nP X x X x X x
n
i
n
i
xFxXP )](1[1)(1
1

如果总体中服从均匀分布则
()
00
( ) 0
1
n
n n
x
x
F x x
x



( 1 )
00
()
( ) 1 0
1
n
n
x
x
F x x
x




其分布密度为


其它0
0)(
1
)(
x
nx
xf n
n
n


其它0
0
)(
)(
1
)1(
x
xn
xf n
n
充分统计量
例:某厂要了解其产品的不合格率 p,检验员检查了 10件产品,检查结果是,除前二件是不合格品(记为 )外,其它都是合格品(记为 )。当厂长问及检查结果时检验员可作如下两种回答:
(1) 10件中有两件不合格;
(2) 前两件不合格。
这两种回答反映了检验员对样本的两种不同的加工方法。其所用的统计量分别为
1,1 21 XX
niX i,,4,3,0
显然,第二种回答是不能令人满意的,因为统计量不包含样本中有关 p的全部信息。而第一种回答是综合了样本中有关 p的全部信息。因为样本 提供了两种信息:
(1) 10次检验中不合格品出现了几次;
(2) 不合格品出现在哪几次试验上。
10
1
1 ;
I
iXT
212 XXT
),,( 1021 XXX?
第二种信息(试验编号信息)对了解不合格品率 p是没有什么帮助的,
充分统计量就是能把含在样本中有关总体或者参数的信息一点都不损失地提取出来。或者说充分统计量包含了有关总体或有关参数的全部信息,
考虑样本的分布
),,( 1021 XXX?
11
1 1 2 2 10 10
10 10
1
11
10
10
(,,)
( ) ( 1 )
( 1 )
( 1 )
ii
ii
xx
ii
ii
xx
TT
P X x X x X x
P X x p p
pp
pp







由于且 是服从二项分布故
11
1 1 2 2 10 10 1 1
10 10
1
11
10
10
(,,,)
( ) ( 1 )
( 1 )
( 1 )
ii
ii
xx
ii
ii
xx
tt
P X x X x X x T t
P X x p p
pp
pp







1T
1 1 1101 1 10( ) ( 1 )t t tP T t C p p
它与 无关p
1 1 1
1 1 1 1 1
1
1 1 2 2 10 10 1 1
10 10
10
10 10
10
10
(,,| )
( 1 ) / ( 1 )
( 1 ) / ( 1 )
1
ii
xx t t t
t t t t t
t
P X x X x X x T t
p p C p p
p p C p p
C






定义 1.3 设总体 X的分布为一个含未知参数的分布族,是 X的一个样本 。
是一个统计量,对给定的 t,样本 在的条件 下的条件分布与参数 无关,则称统计量 T是参数的充分统计量 。
,F ),,( 21 nXXX?
),,( 21 nXXXTT
),,( 21 nXXX? tT?
上例的一般情况是设 是来自 0-1分布的一个简单随机样本,其中,则是 参数的充分统计量。
12(,,,)nX X X
xxxXP 1)1()( 1,0?x
01

n
i
iXT
1
由定义可得定理 1.1 设 是参数 的充分统计量,是单值可逆函数,则也是参数 的充分统计量。
),,( 21 nXXXTT
)(ts )(Ts
当总体为连续型总体时,充分统计量要用条件分布密度来描述。奈曼( J.Neyman)和哈尔斯( P.R.Halmos)在 20世纪 40年代提出并严格证明了一个判别充分统计量的方法:因子分解定理。
定理 1.2 (因子分解定理)设样本的联合分布为一个含未知参数的分布族,
则 是一个充分统计量当且仅当存在这样的两个函数:
(1)与 无关的非负函数 ;
(2)与 有关,且仅与统计量 T的值有关的非负函数 使得其中 在离散总体的情况下表示样本的分布列,在连续总体的情况下表示样本的分布密度。
,),(,21 nxxxf?
),,( 21 nXXXTT
),,,( 21 nxxxh
)),,,(( 21 nxxxTg
)),,,((),,,(),,,( 212121 nnn xxxTgxxxhxxxf
),,,( 21 nxxxf
例 设 是来自 分布,即它的分布密度为的一个简单随机样本,其中则 分别是参数的充分统计量
),,( 21 nXXX? ),( 2N
2
2
1 ()
2
,
1()
2
x
f x e


,0x
,0
2
12
11
,( )
nn
ii
ii
T X T X X


2,
解,样本 的联合分布密度为如果令由因子分解定理知 是 的充分统计量。
),,( 21 nXXX?
2
2
2 22
12 22,
()(,,,) ( 2 ) e x p ( )
22
n
n
T nXf x x x




1),,,( 21?nxxxh?
12( (,,,) )ng T x x x?
2
2 22
22
()( 2 ) e xp ( )
22
n T nX?

),( 21 TT ),( 2
例 设总体 X的分布密度为是 X的一个简单随机样本,试证明最小顺序统计量 的充分统计量。
),,( 21 nXXX?
2);( xxf
x?0
(1 )X?是证,样本 的联合分布密度为如果令由因子分解定理知 是 的充分统计量。
12(,,,)nX X X
1 2 1 22
12
(,,,),0,,,()
n
nn
n
f x x x x x xx x x
12 2
12
1(,,,)
(,,,)n n
h x x x
x x x
12( (,,,) )ng T x x x?
( 1 ),0n x
(1)X
§ 1.4抽样分布我们称统计量的分布为抽样分布,不同的统计量其分布不一定相同,
常见的分布类型有,
正态分布伽玛分布卡方分布
t 分布
F分布
伽玛分布定义 1.4 如果连续型随机变量 X的密度函数为其中为 函数,则称 X为服从参数是 的伽玛分布,
记为
,
0,0
0,
)()(
1


x
xe
x
xf
x?

0,0


0
1)( dxex x
,
),(~X
伽玛分布的性质
(1)
由此可得
1
0
()()
( ) ( )
k k x
k
xkE X x e d x




2( ),( )E X D X


(2)
如果,并且 X和 Y相互独立,容易求得这个性质称为可加性,即伽玛分布具有可加性,
12~ (,),~ (,)XY
),(~ 21 YX
卡方分布用构造性的方式定义是定义 1.5 设 为相互独立的随机变量,且均服从,则它们的平方和也是一个随机变量,它所服从的分布称为自由度为 n的 分布,记为
12,,,nX X X
)1,0(N
22
2
2
12 nXXX
)(~ 22 n2?
它的密度函数为其密度函数与参数 n有关,它的图形也有一定差异.

0,0
0,
)2
1
)(
2
1
2
2
(
2
x
xex
xf
xn
n
n
卡方分布的性质若,则即卡方分布是一种伽玛分布,因此具有伽玛分布的性质
(1)
(2) 如果,并且 X和 Y
相互独立,有卡方分布也具有可加性
)(~ 22 n
)
2
1,
2
(~2 n
2()En nD 2)( 2
2212~ ( ),~ ( )X n Y n
)(~ 212 nnYX
例是来自参数为 的指数分布X总体,试证明,12
(,,,)nX X X?
)2(~2 2 nXn
总体X的密度为当 时,我们有密度为说明
,0( ),0
0,0
xex
fx
x






2
0
21)
2
()2(
x x
t edtexXPxXP
0x?
,
0,0
0,
2
1
)(
2


x
xexf
x
2 X?
)2(~2 2 X
假定子样是简单随机子样,则且它们之间相互独立,故有
22 ~ ( 2 )
iX
2
1
2 2 ~ ( 2 )
n
i
i
n X X n

t 分布构造性的方式定义定义 1.6 设,,且 X
与 Y相互独立,记则T也是一个随机变量,它所服从的分布称为自由度为 n的 t分布,记为
)1,0(~ NX )(~ 2 nY?
nY
XT?
)(~ ntT
它的密度函数为与参数 n有关,不同的 n其图形也有差异.
12
2
1
()
2( ) ( 1 ),
()
2
n
n
x
f x x
n n
n?

性质若 则
(1)当 时,t分布是柯西分布,柯西分布不存在数学期望和方差.参数为 2的 t分布也不存在数学期望和方差.
(2) 时,
)(~ ntT
1?n
2n?
( ) 0,( )
2
nT D T
n

(3)可以证明这是标准正态分布的分布密度,即当 n充分大时,T近似服从标准正态分布
2
2
1
l i m ( )
2
x
n
f x e

F分布构造性的方式定义定义 1.7 设,,且 X
与 Y相互独立,记则F也是一个随机变量,它所服从的分布称为自由度为 (m,n)的 F分布,记为
2~ ( )Xm? )(~ 2 nY?
XmF
Yn
~ (,)F F m n
它的密度函数为它与 m,n有关,其图形也有一定差异.



0,0
0,)1()(
)
2
()
2
(
)
2
(
)(
2
1
22
x
xx
n
m
x
n
m
nm
nm
xf
nmmm
容易得到若,则
),(~ nmFF
1 ~ (,)F n m
F
例 设 试证明:
证明:由 t分布的构造性定义知,存在相互独立的变量X和Y,使得于是,
仍相互独立,由F分布的定义知结论成立.
~ ( ),T t n 2 ~ (1,)T F n
nY
XT?
22
2 1XXT
Y n Y n

2XY与
分位数:
定义 1.6 设 X为连续型随机变量,其分布函数为,对,如果存在数 满足则称 为此分布的 分位数分位数的几何意义 可用图形表示,它的值可查表得到,不同的分布有不同的分位数,有不同的表可查.
)(xf 10


x
dxxfxXP )()(
x

x
常见的分位数有它们的值可以通过附表 1、附表 2、附表 3、附表 4
查得
2,( ),( ),(,)Z n t n F m n

分位数具有性质
(1)
(2)
(3)当 n 足够大时(一般 n > 45)有近似公式
)()(,11 ntntZZ
),(
1),(
1 mnFnmF

2( ),2t n Z n n Z

例,查表求下列分位数的值
0,0 5 0,9 7 5
2 2 2
0,0 5 0,9 9 0,0 5
0,0 5 0,9 9 0,0 5
0,0 5 0,9 9
,
( 1 0 ),( 1 0 ),( 5 0 )
( 1 0 ),( 1 0 ),( 1 0 0 )
( 9,1 0 ),( 9,1 0 ),
ZZ
t t t
FF

抽样分布定理定理 1.1 设总体,
为 X的一个简单随机样本,为样本均值与样本方差,则有:
(1)
(2)
),(~ 2NX 12(,,,)nX X X
2,SX
),(~
2
n
NX
);1(~)1( 22
2
nsn?
(3) 相互独立;
(4)
2XS与
)1(~ nt
nS
X?
定理 1.2 设有两个总体X与Y,
,从两个总体X与Y中分别独立抽取容量为 m,n的简单随机样本记 为样本的样本均值与方差,为样本的样本均值与方差,则
(1)
),(~ 211NX
),(~ 222NY
),,( 21 mXXX?
),,( 21 nYYY? 2,XSX ),,( 21 mXXX?
),,( 21 nYYY?2,YSY
)1,0(~
)()(
2
2
2
1
21 N
nm
YX



(2)
(3)若 则其中
)1,1(~2
2
2
2
1
2
nmFSS YX

21
)2(~
11
)()( 21


nmt
nm
S
YX
w

2
)1()1( 222


nm
SnSmS YX
w
定理 1.3 设总体 X为任意总体,存在有限的数学期望与方差,
为 X的一个样本,当 n充分大时(称之为大样本),有
(1)
(2)
2)(,)( XDXE ),,( 21 nXXX?
)1,0(~
/
N
n
X 近似

)1,0(~
/
N
nS
X 近似
例 1.8 设总体,分别从 X中抽取容量为 10与 15的两个独立样本,求它们的均值之差的绝对值大于 0.3的概率
)3,20(~ NX
例 1.9 设总体,
是从总体中抽取的简单随机样本,选取常数 c,d
使得并求出 n.
~ ( 0,1 )XN ),,,( 521 XXX?
)(~)()( 22542321 nXXdXXXc