1
概率论与数理统计第 20讲本文件可从网址
http://math.vip.sina.com
上下载
(单击 ppt讲义后选择 '概率论 '子目录 )
2
第七章 样本分布
3
总体总体是指的一个随机变量 X.
样本样本是指的与总体 X的分布完全一样的 n个相互独立的一组随机变量 X1,X2,...,Xn,其中 n称为样本容量而对样本做一次观察得到的具体的试验数据,
称作样本值,用小写字母 x1,x2,...,xn表示,
4
例如假设总体 X~N(m,s2),
则 10个样本相互独立,Xi~N(m,s2),i=1,2,...,10.
对这 10个样本进行一次试验 (当然是由 10次试验拼成的一次试验,得到 10个实数为
10.5,11.23,8.4,9.94,13.22,5.08,7.62,12.33,
10.02,9.97
这 10个实数就叫做样本值,
因此样本值是实数,而样本则是随机变量,
样本值是对样本的观察结果,
5
数理统计的任务在概率论的各个题目中,随机变量的分布往往是知道的,是通过某些已知的信息计算另一些信息,
而在实际中,经常是有一个我们关心的总体 X,
我们即不知道它的分布,也不知道它的数学期望和方差,但是,我们可以对其进行反复地试验,则试验 n次,得到 n个样本值,这 n个样本值可以看作是对 n个与总体分布相同的样本进行观察而获得的,
6
例如,
有一个我们对之一无所知的随机变量 X,我们对其进行 100次试验得到了 100个观察值如下,
10.5,11.23,8.4,9.94,13.22,5.08,7.62,12.33,10.02,9.97
13.1,14.02,11.4,10.88,6.2,11.9,10.33,5.01,12.02,13.1
5.5,7.23,12.4,9.23,10.15,7.77,9.34,10.3,12.73,12.00
12.6,11.23,8.4,9.94,13.22,5.08,7.62,12.33,10.02,9.97
13.1,14.02,11.4,10.88,6.2,11.9,10.33,5.01,12.02,13.1
10.02,7.53,12.4,9.23,10.15,7.77,9.34,10.3,12.73,12.00
10.5,21.23,8.4,9.94,13.22,5.08,7.55,12.33,10.02,9.97
13.1,14.02,11.4,10.88,6.2,11.9,10.33,5.01,12.02,13.1
7.5,7.43,12.4,9.23,11.45,7.66,9.34,10.3,12.73,12.00
12.5,11.2,10.4,9.94,13.22,5.08,7.62,12.33,10.02,9.97
7
当然,实际得到的数据可能更多,
有时候为了获得对总体的较深的认识,需要几千个甚至几万个样本值,
数理统计的问题是,怎样在获得了这些试验数据之后,能够对总体 X的某些信息获得一些估计?获得一些知识?
这又分为两类,一类是对总体的分布进行一些统计,
而另一类则是对总体的一些特征值,经常是数学期望和方差进行一些统计,
8
对分布进行统计通常就是用的直方图进行统计,下面是书上习题七第二题数据的直方图,
用 excel工具进行统计的直方图
±·? í?
0
5
10
15
20
25
30
70 80 90
100 110 120 130 140 150 160
ó ê?
μ
ê
μ?ê
9
而本书则更侧重于假设已知总体 X为正态分布的情况下,对它的两个参数,期望和方差的估计进行讨论,这种情况叫做正态总体,
定义 7.3 样本 (X1,X2,...,Xn)的函数 f(X1,X2,...,Xn)
称为统计量,其中 f(X1,X2,...,Xn)不含参数,
10
对于正态总体,统计量通常是用来估计总体的期望和方差,因此下面两个用来估计期望和方差的统计量必须记住,
.,
1
,,
1
1
1
称作样本均值的样本值作的一个具体的观测值写但它这是随机变量被称作样本均值
n
i
i
n
i
i
x
n
x
X
n
X
11
样本方差的定义称作样本标准差写作而样本方差也有样本值称为样本方差
n
i
i
n
i
i
XX
n
S
s
XX
n
S
1
2
2
1
22
)(
1
1
.,
.
)(
1
1
12
定理 7.1 设 X1,X2,...,Xn相互独立,Xi~N(mi,si),
i=1,2,...,n,则它们的线性函数
n
i
ii
n
i
ii
i
n
i
ii
aaN
aXa
1
22
1
1
,~
,),(
sm?
也服从正态分布不全为零
13
另类证法按中心极限定理,大量的任何分布的随机变量之和趋近于正态分布,或者说任何正态分布的随机变量可被认为是大量的随机变量的和,则任何正态分布的各个随机变量之和相当于更多的随机变量的和,当然也只能服从正态分布,
否则的话,如果正态分布的随机变量之和不是正态分布,必导致中心极限定理不成立,
14
推论 设 (X1,X2,...,Xn)是取自正态总体 N(m,s2)
的样本,则有
)1,0(~
/
)2(
,~)1(
,
1
2
1
N
n
X
n
NX
X
n
X
n
i
i
s
m
s
m
则
15
这个定理是为的解决这样的问题
)1,0(~
/
,
.
.
,,
,
,
N
n
X
X
X
X
X
s
m?
即转换成标准正态分布而这需要将落在各个区间里的概率分布表来确定因此可查正态也近似服从正态分布根据中心极限定理体是任意分布时甚至当总也服从正态分布样本均值态分布时我们知道当总体服从正
16
定理 7.2 设 X1,X2,...,Xn相互独立,Xi~N(0,1),
i=1,2,...,n,则
)(~ 2
1
222
2
2
1 nXXXX
n
i
in
即 n个相互独立的标准正态分布的随机变量的平方和服从 n个自由度的?2(n)分布
17
定理 7.3设 X1,X2,...,Xn相互独立,Xi~N(0,1),
i=1,2,...,n,则
)1(~
,
1
)(
1
2
1
2
11
2
1
n
X
X
n
XXX
X
n
X
n
i
n
i
ii
n
i
i
n
i
i
相互独立与则
18
证明这个定理需要较深的线性代数的知识
.
1
)()()(
,
,,,
22
2
2
1
21
的随机变量的平方和正态分布个相互独立的服从标准为恰好相当于可用线性代数理论证明的和个它们的平方因此相互之间并不独立一般说来
n
XXXXXX
n
XXXXXX
n
n
19
推论 设 (X1,X2,...,Xn)是取自正态总体 N(m,s2)
的样本,则有相互独立与即相互独立与即
2
1
2
2
2
2
2
1
2
2
)()2(
)1(~
)1(
)1(~)(
1
)1(
SX
XXX
n
Sn
nXX
n
i
i
n
i
i
s
s
20
证 因为 Xi~N(m,s2)
相互独立与相互独立可知与由而则令
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
iii
XXX
YYY
nXXYY
XX
n
Y
n
Y
NYXY
1
2
1
2
2
1
2
2
1
2
11
)(
)(
)1(~)(
1
)(
1
/)(
11
)1,0(~,/)(
s
s
m
s
sm
sm
21
此定理的用处在于
.
)1(~
)1(
,
22
2
2
2
22
些区域的概率落在某分布表求就有可能通过查而既然知道了来估计总体的方差通常都用
S
n
Sn
S
s
s
22
定理 7.4 设两个随机变量 x与?相互独立,并且
x~N(0,1),?~?2(n),则
)(~
/
/
nt
n
T
tn
n
T
x
x
或记作分布个自由度的服从具有
23
推论 1 设 (X1,X2,...,Xn)是取自正态总体 N(m,s2)
的样本,
)1(~
/
)(
1
1
,
1
1
2
1
nt
nS
X
T
XX
n
SX
n
X
n
i
i
n
i
i
m
则
24
此推论的意义在于
.
),1(~
/
,
,.
/
),/,(~
,),(
2
2
落在一些区域内的概率来确定分布表这时候可以查这时代替上式中的只好用统计量因此未知但在实际情况中正态分布表分布后查的公式将其转换为正态这样我们希望用时总体我们知道当总体为正态
T
tnt
nS
X
T
S
n
X
nNX
N
m
s
s
s
m
sm
sm
25
推论 2 设 X1,X2,...,Xn和 Y1,Y2,...,Ym分别来自两个相互独立的正态总体 N(m1,s2)和 N(m2,s2),则
.
,,,,
)2(~
11
2
)1()1(
)(
2
2
2
1
21
2
2
2
1
21
的平均数和方差分别是两个样本各自其中 SSYX
mnt
nnmn
SmSn
YX
T
mm
26
定理 7.5 设两个随机变量 x1和 x2相互独立,且
x1~?2(n1),x2~?2(n2),则有
.
,),(
),(~
/
/
2
121
21
22
11
分布的二个自由度是第为第一个自由度是其中
Fn
nnnF
nnF
n
n
F
x
x
27
推论 设设 X1,X2,...,Xn和 Y1,Y2,...,Ym分别来自两个相互独立的正态总体
.,,
)1,1(~
/
/
),,(),(
2
2
2
1
212
2
2
2
2
1
2
1
2
22
2
11
方差分别为两个样本各自的其中则和
SS
nnF
S
S
F
NN
s
s
smsm
28
Excel软件的几个常用的统计函数
everage(数据 )
计算样本均值,字符不计在内
everagea(数据 )
同样是计算样本均值,但字符单元算作 0
var和 vara计算样本方差
varp和 varpa也是计算样本方差,但除以 n
stdev和 stdeva计算样本标准差
stdevp和 stdevpa同样计算样本标准差,但也是由 varp开方得来,
29
关于分布的函数
normsdist(x) 标准正态分布函数 F0(x)
normsinv(x) 标准正态分布函数的反函数
normdist(x,m,s,c)
返回均值为 m,标准差为 s的正态分布函数值或者正态概率密度函数值 (如果 c为 true则返回分布函数,否则返回概率密度函数值 )
norminv(x,m,s)
返回均值为 m,标准差为 s的正态分布函数的逆函数值,
30
关于分布的函数 (续 )
chidist(x,n) 返回自由度为 n的?2分布在 x点处的单尾概率,即概率 P(?2>x)
chiinv(p,n) 返回自由度为 n的?2分布的单尾概率函数的逆函数,
tdist(x,n,tails) 返回自由度为 n的 t分布在 x点处的单尾或者双尾概率,如果 tails为 1,返回单尾概率,否则返回双尾概率,
tinv(p,n) 返回自由度为 n的 t分布的双尾概率分布函数的反函数,
31
关于分布的函数
fdist(x,n1,n2) 返回第一个自由度为 n1,第二个自由度为 n2的 F分布的分布函数
finv(p,n1,n2) 返回第一个自由度为 n1,第二个自由度为 n2的 F分布的分布函数的反函数,
32
作业第 235页 第 57,58题试用 excel做 149页第 5题
33
请提问
概率论与数理统计第 20讲本文件可从网址
http://math.vip.sina.com
上下载
(单击 ppt讲义后选择 '概率论 '子目录 )
2
第七章 样本分布
3
总体总体是指的一个随机变量 X.
样本样本是指的与总体 X的分布完全一样的 n个相互独立的一组随机变量 X1,X2,...,Xn,其中 n称为样本容量而对样本做一次观察得到的具体的试验数据,
称作样本值,用小写字母 x1,x2,...,xn表示,
4
例如假设总体 X~N(m,s2),
则 10个样本相互独立,Xi~N(m,s2),i=1,2,...,10.
对这 10个样本进行一次试验 (当然是由 10次试验拼成的一次试验,得到 10个实数为
10.5,11.23,8.4,9.94,13.22,5.08,7.62,12.33,
10.02,9.97
这 10个实数就叫做样本值,
因此样本值是实数,而样本则是随机变量,
样本值是对样本的观察结果,
5
数理统计的任务在概率论的各个题目中,随机变量的分布往往是知道的,是通过某些已知的信息计算另一些信息,
而在实际中,经常是有一个我们关心的总体 X,
我们即不知道它的分布,也不知道它的数学期望和方差,但是,我们可以对其进行反复地试验,则试验 n次,得到 n个样本值,这 n个样本值可以看作是对 n个与总体分布相同的样本进行观察而获得的,
6
例如,
有一个我们对之一无所知的随机变量 X,我们对其进行 100次试验得到了 100个观察值如下,
10.5,11.23,8.4,9.94,13.22,5.08,7.62,12.33,10.02,9.97
13.1,14.02,11.4,10.88,6.2,11.9,10.33,5.01,12.02,13.1
5.5,7.23,12.4,9.23,10.15,7.77,9.34,10.3,12.73,12.00
12.6,11.23,8.4,9.94,13.22,5.08,7.62,12.33,10.02,9.97
13.1,14.02,11.4,10.88,6.2,11.9,10.33,5.01,12.02,13.1
10.02,7.53,12.4,9.23,10.15,7.77,9.34,10.3,12.73,12.00
10.5,21.23,8.4,9.94,13.22,5.08,7.55,12.33,10.02,9.97
13.1,14.02,11.4,10.88,6.2,11.9,10.33,5.01,12.02,13.1
7.5,7.43,12.4,9.23,11.45,7.66,9.34,10.3,12.73,12.00
12.5,11.2,10.4,9.94,13.22,5.08,7.62,12.33,10.02,9.97
7
当然,实际得到的数据可能更多,
有时候为了获得对总体的较深的认识,需要几千个甚至几万个样本值,
数理统计的问题是,怎样在获得了这些试验数据之后,能够对总体 X的某些信息获得一些估计?获得一些知识?
这又分为两类,一类是对总体的分布进行一些统计,
而另一类则是对总体的一些特征值,经常是数学期望和方差进行一些统计,
8
对分布进行统计通常就是用的直方图进行统计,下面是书上习题七第二题数据的直方图,
用 excel工具进行统计的直方图
±·? í?
0
5
10
15
20
25
30
70 80 90
100 110 120 130 140 150 160
ó ê?
μ
ê
μ?ê
9
而本书则更侧重于假设已知总体 X为正态分布的情况下,对它的两个参数,期望和方差的估计进行讨论,这种情况叫做正态总体,
定义 7.3 样本 (X1,X2,...,Xn)的函数 f(X1,X2,...,Xn)
称为统计量,其中 f(X1,X2,...,Xn)不含参数,
10
对于正态总体,统计量通常是用来估计总体的期望和方差,因此下面两个用来估计期望和方差的统计量必须记住,
.,
1
,,
1
1
1
称作样本均值的样本值作的一个具体的观测值写但它这是随机变量被称作样本均值
n
i
i
n
i
i
x
n
x
X
n
X
11
样本方差的定义称作样本标准差写作而样本方差也有样本值称为样本方差
n
i
i
n
i
i
XX
n
S
s
XX
n
S
1
2
2
1
22
)(
1
1
.,
.
)(
1
1
12
定理 7.1 设 X1,X2,...,Xn相互独立,Xi~N(mi,si),
i=1,2,...,n,则它们的线性函数
n
i
ii
n
i
ii
i
n
i
ii
aaN
aXa
1
22
1
1
,~
,),(
sm?
也服从正态分布不全为零
13
另类证法按中心极限定理,大量的任何分布的随机变量之和趋近于正态分布,或者说任何正态分布的随机变量可被认为是大量的随机变量的和,则任何正态分布的各个随机变量之和相当于更多的随机变量的和,当然也只能服从正态分布,
否则的话,如果正态分布的随机变量之和不是正态分布,必导致中心极限定理不成立,
14
推论 设 (X1,X2,...,Xn)是取自正态总体 N(m,s2)
的样本,则有
)1,0(~
/
)2(
,~)1(
,
1
2
1
N
n
X
n
NX
X
n
X
n
i
i
s
m
s
m
则
15
这个定理是为的解决这样的问题
)1,0(~
/
,
.
.
,,
,
,
N
n
X
X
X
X
X
s
m?
即转换成标准正态分布而这需要将落在各个区间里的概率分布表来确定因此可查正态也近似服从正态分布根据中心极限定理体是任意分布时甚至当总也服从正态分布样本均值态分布时我们知道当总体服从正
16
定理 7.2 设 X1,X2,...,Xn相互独立,Xi~N(0,1),
i=1,2,...,n,则
)(~ 2
1
222
2
2
1 nXXXX
n
i
in
即 n个相互独立的标准正态分布的随机变量的平方和服从 n个自由度的?2(n)分布
17
定理 7.3设 X1,X2,...,Xn相互独立,Xi~N(0,1),
i=1,2,...,n,则
)1(~
,
1
)(
1
2
1
2
11
2
1
n
X
X
n
XXX
X
n
X
n
i
n
i
ii
n
i
i
n
i
i
相互独立与则
18
证明这个定理需要较深的线性代数的知识
.
1
)()()(
,
,,,
22
2
2
1
21
的随机变量的平方和正态分布个相互独立的服从标准为恰好相当于可用线性代数理论证明的和个它们的平方因此相互之间并不独立一般说来
n
XXXXXX
n
XXXXXX
n
n
19
推论 设 (X1,X2,...,Xn)是取自正态总体 N(m,s2)
的样本,则有相互独立与即相互独立与即
2
1
2
2
2
2
2
1
2
2
)()2(
)1(~
)1(
)1(~)(
1
)1(
SX
XXX
n
Sn
nXX
n
i
i
n
i
i
s
s
20
证 因为 Xi~N(m,s2)
相互独立与相互独立可知与由而则令
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
iii
XXX
YYY
nXXYY
XX
n
Y
n
Y
NYXY
1
2
1
2
2
1
2
2
1
2
11
)(
)(
)1(~)(
1
)(
1
/)(
11
)1,0(~,/)(
s
s
m
s
sm
sm
21
此定理的用处在于
.
)1(~
)1(
,
22
2
2
2
22
些区域的概率落在某分布表求就有可能通过查而既然知道了来估计总体的方差通常都用
S
n
Sn
S
s
s
22
定理 7.4 设两个随机变量 x与?相互独立,并且
x~N(0,1),?~?2(n),则
)(~
/
/
nt
n
T
tn
n
T
x
x
或记作分布个自由度的服从具有
23
推论 1 设 (X1,X2,...,Xn)是取自正态总体 N(m,s2)
的样本,
)1(~
/
)(
1
1
,
1
1
2
1
nt
nS
X
T
XX
n
SX
n
X
n
i
i
n
i
i
m
则
24
此推论的意义在于
.
),1(~
/
,
,.
/
),/,(~
,),(
2
2
落在一些区域内的概率来确定分布表这时候可以查这时代替上式中的只好用统计量因此未知但在实际情况中正态分布表分布后查的公式将其转换为正态这样我们希望用时总体我们知道当总体为正态
T
tnt
nS
X
T
S
n
X
nNX
N
m
s
s
s
m
sm
sm
25
推论 2 设 X1,X2,...,Xn和 Y1,Y2,...,Ym分别来自两个相互独立的正态总体 N(m1,s2)和 N(m2,s2),则
.
,,,,
)2(~
11
2
)1()1(
)(
2
2
2
1
21
2
2
2
1
21
的平均数和方差分别是两个样本各自其中 SSYX
mnt
nnmn
SmSn
YX
T
mm
26
定理 7.5 设两个随机变量 x1和 x2相互独立,且
x1~?2(n1),x2~?2(n2),则有
.
,),(
),(~
/
/
2
121
21
22
11
分布的二个自由度是第为第一个自由度是其中
Fn
nnnF
nnF
n
n
F
x
x
27
推论 设设 X1,X2,...,Xn和 Y1,Y2,...,Ym分别来自两个相互独立的正态总体
.,,
)1,1(~
/
/
),,(),(
2
2
2
1
212
2
2
2
2
1
2
1
2
22
2
11
方差分别为两个样本各自的其中则和
SS
nnF
S
S
F
NN
s
s
smsm
28
Excel软件的几个常用的统计函数
everage(数据 )
计算样本均值,字符不计在内
everagea(数据 )
同样是计算样本均值,但字符单元算作 0
var和 vara计算样本方差
varp和 varpa也是计算样本方差,但除以 n
stdev和 stdeva计算样本标准差
stdevp和 stdevpa同样计算样本标准差,但也是由 varp开方得来,
29
关于分布的函数
normsdist(x) 标准正态分布函数 F0(x)
normsinv(x) 标准正态分布函数的反函数
normdist(x,m,s,c)
返回均值为 m,标准差为 s的正态分布函数值或者正态概率密度函数值 (如果 c为 true则返回分布函数,否则返回概率密度函数值 )
norminv(x,m,s)
返回均值为 m,标准差为 s的正态分布函数的逆函数值,
30
关于分布的函数 (续 )
chidist(x,n) 返回自由度为 n的?2分布在 x点处的单尾概率,即概率 P(?2>x)
chiinv(p,n) 返回自由度为 n的?2分布的单尾概率函数的逆函数,
tdist(x,n,tails) 返回自由度为 n的 t分布在 x点处的单尾或者双尾概率,如果 tails为 1,返回单尾概率,否则返回双尾概率,
tinv(p,n) 返回自由度为 n的 t分布的双尾概率分布函数的反函数,
31
关于分布的函数
fdist(x,n1,n2) 返回第一个自由度为 n1,第二个自由度为 n2的 F分布的分布函数
finv(p,n1,n2) 返回第一个自由度为 n1,第二个自由度为 n2的 F分布的分布函数的反函数,
32
作业第 235页 第 57,58题试用 excel做 149页第 5题
33
请提问