第六章 数理统计的基本概念绪言数理统计包括两大内容:
一,试验的设计和研究 -----研究更合理、更有效、更精确地获取观察资料的方法。
二,统计推断 ------研究如何利用一定的资料对所关心的问题作出尽可能精确、可靠的结论。
例 为了解南京市民 2002年收入情况,现抽样调查 10000人的收入。
问题,
1,怎样从 10000人的收入情况去估计全体南京市民的平均收入?
怎样估计所有南京市民的收入与平均收入的偏离程度?
2,若市政府提出了全体南京市民平均收入应达到的标准,从抽查得到的 10000人收入数据,如何判断全体南京市民的平均收入与收入标准有无差异?差异是否显著?
3,抽查得到的 10000人的收入有多有少,若这 10000人来自不同的行业,那么,收入的差异是由于行业不同引起的,还是仅由随机因素造成的?
4,假设收入与年龄有关,从抽查得到的 10000人收入和年龄的对应数据,如何表述全体南京市民的收入 与年龄之间的关系?
问题 1实质:从 10000人的收入出发,估计全体南京市民收入分布的某些数字特征 (此处是期望和方差 )。
-----在数理统计中,解决这类问题的方法称为 参数估计 。
问题 2实质:根据抽查得到的数据,去检验总体收入的某个数字特征 (此处是期望 )与给定值的差异。
-----在数理统计中,解决这类问题的方法称为 假设检验 。
问题 3实质:分析数据误差的原因 (此处是行业 )。当有多个因素起作用时,还要分析哪些因素起主要作用。
-----在数理统计中,解决这类问题的方法称为 方差分析 。
问题 4实质:根据观察数据研究变量间 (此处是收入与年龄间 )
的关系。
-----在数理统计中,解决这类问题的方法称为 回归分析 。
第一节 随机样本一、总体在数理统计中,将所研究的对象的某项指标值的全体称为总体 (或母体 ),而将构成总体的每个单位称为一个 个体 。
当总体中包含的个体总数是有限的,就称总体为 有限总体,
否则称总体为 无限总体 。
设待研究的指标为 X,由于 X的取值是对随机抽取的个体观察得到的,因而可将 X视为随机变量,并设其分布函数为 F(x)。
定义 6.1 一个随机变量 X(或其分布函数 F(x))叫做一个总体,X
的每个可能值叫做一个个体。
二、样本从总体 X中,随机地抽取 n个个体进行观察,可得到 n个观察值,将其依抽取的顺序记为
。,,,)( 21 nxxx?
若将总体在进行第 i 次抽样时对应的随机变量记为,
则 就是 的观察值。 iX
ix iX
我们提出以下 要求,
1,与 X同分布;
2,相互独立。
iX
nXXX,,,?21
抽样方式为重复抽样实际应用中,一般当有限总体中包含个体数目 N>10n 时,即使采用不重复抽样,也认为要求满足。
定义 6.2 若 相互独立,且均与总体 X有相同分布,则称随机向量 ( )为总体 X的一个容量为 n 的简单随机样本 (简称 样本 ),称 n 为 样本容量 。
设 的观察值为,称 ( )为 X的一个 样本观察值 (样本点 ),称?={( )}为 样本空间 。
niX i?,,,21?
nXXX,,,?21
iX ix nxxx,,,?21
nxxx,,,?21
说明,1,?是 样本观察值全体所成集合,是 n 维空间上的点集,
它不是总体 X的样本空间。
2,在一次抽样之前,我们只知道样本 ( )(n 维随机变量 ),而在抽样之后,则得到一个具体的 n 维实向量
( ),它是?中的一个点,故称其为样本点。
nXXX,,,?21
nxxx,,,?21
注意,对任何总体 X,其容量为 n 的样本是 唯一 的,而每次抽样得到的样本观察值一般说来是不同的。
设 X的分布函数为 F(x),由定义 6.2,X的容量为 n 的样本的第 i 个分量 的分布函数为)( 21 nXXX,,,?
iX
.21)( nixF i,,,,
因 相互独立,故 分布函数为
)( 21 nXXX,,,?nXXX,,,?21
).()(
1
21?

n
i
in xFxxxF,,,?
若 X是离散型随机变量,其分布律为 P(X= ),i=1,2,….
则 的分布律为
ix
)( 21 nXXX,,,?
).()(
1
2211 i
n
i
inn xXPxXxXxXP
,,,?
若 X 是连续型随机变量,其密度函数为 f(x),则的密度函数为 )(
21 nXXX,,,?
).()(
1
21?

n
i
in xfxxxf,,,?
三、样本分布函数问题,用样本观察值推断总体,其结论可靠吗?
解决问题的 途径,根据抽样得到的样本观察值构造一个函数 ----
样本分布函数,再证明当 n很大时,样本分布函数近似于总体的分布函数。
定义 6.3 设总体 X的一组样本观察值为,将这组值依大小顺序重排成 。构造函数
)( 21 nxxx,,,?
nxxx?21


.1
121
0
)( 1
1
n
kkn
xx
nkxxx
n
k
xx
xF
当,
,,,,当,
,当,
称 为 样本分布函数 (或称 经验分布函数 )。)(xF
n
说明,1,在定义 6.3中,k/n 是不大于 x的样本观察值出现的频率。
2,对总体进行两次抽样,会得到两组不同的 样本观察值,
因而就会产生两个不同的样本分布函数。
3,样本分布函数是一个阶梯函数:设
, lklkkkk xxxxx 111?
则当,有
kk xxx 1
,nkxF n 1)(
当,有?

lkk xxx,
n
lkxF
n
1)(
即,在 处有 的跃度。)(xF
n kxx nl /
5,当 n 越大,的图形与总体分布函数 F(x) 的图形越近似。 )(xFn
6,由贝努利大数定律或 W,格列汶科定理 (1953) 可从理论上证明:当 n 很大时,有
).()( xFxF n?
4,容易证明,确是某随机变量 的分布函数,且有)(xF
n n?
.)(1)(?1)(
1
2
1



n
i
in
n
i
in xxnDxxnE,
第二节 抽样分布一、统计量定义 6.4
设 是总体 X 的一个样本,
是 不含任何未知参数 的连续函数,则称 是一个统计量。
)( 21 nXXX,,,? )( 21 nyyyg,,,?
)( 21 nXXXg,,,?
若 是一个统计量,是一组样本观察值,则称 是 的一个观察值。
)( 21 nXXXg,,,?
)( 21 nXXXg,,,?)( 21 nxxxg,,,?
)( 21 nxxx,,,?
二、样本数字特征定义 6.5
设 是总体 X 的一个样本,称以下统计量为样本数字特征:
)( 21 nXXX,,,?
为样本均值; 1
1
n
i
iXnX
为样本方差; )(
1
1
1
22?
n
i
i XXnS
为样本标准差; )(
1
1
1
2?
n
i
i XXnS
当 k 为正整数,称阶原点矩,为样本 k 1
1
n
i
k
ik XnA
阶中心矩。为样本 k )(1
1

n
i
k
ik XXnB
设 为来自总体 X的样本,
为来自总体 Y的样本,称
)( 21 nXXX,,,? )( 21 nYYY,,,?
为样本协方差,))((1
1

n
i
ii YYXXnk
为样本相关系数。
)()(
))((
1
2
1
2
1




n
i
i
n
i
i
n
i
ii
YYXX
YYXX
r
说明,1,样本原点矩反映样本的平均特征,样本中心矩反映样本的离散特征,样本协方差反映两个样本的相关程度。
2,样本数字特征是随机变量,但对一组样本观察值,得到的样本数字特征观察值是一个具体的数,我们通常把这个数也称为样本均值、样本方差、样本相关系数等。
3,使用最多的样本数字特征是样本均值、样本标准差和样本相关系数。
三、顺序统计量说明,1.对两次抽样,尽管观察值由小到大的排列顺序可能改变,但对顺序统计量来说,改变的仅是其取值,其形式不变。
2,顺序统计量是样本的函数,因而是随机变量。
问题,顺序统计量的表达式是什么?
定义 6.6 设 ( ) 是样本 ( ) 的一组观察值,将 按由小到大的顺序排列成
。设,记
k=1,2,…,n.称 ( )
为 ( )的顺序统计量。
nxxx,,,?21 nXXX,,,?21
nxxx,,,?21
)()2()1( nxxx knk xx?)( }{ )()( kk xX
)()2()1( nXXX,,,?
nXXX,,,?21
}{ kk nn xX?
}m a x { }m i n { 21)(21)1( nnn XXXXXXXX,,,,,,,
.132
}}{ m i n {m a x
121
121 )(
)(



nk
XXXX
kn
kn
iii
iii
k
,,,
,,,
,,,
结论 1,是统计量。 nkX
k,,,,?21)(?
定义 6.7 设 为 的顺序统计量,称 )( )()2()1( nXXX,,,?
)( 21 nXXX,,,?
为偶数。当,
为奇数,当,
nXX
nX
m
nn
n
][
2
1
)1
2
()
2
(
)
2
1
(
为 样本中位数 。
称 为 样本极差 。
)1()( XXR n
引入样本矩的 意义,
称 为总体 X 的 k阶原点矩对样本,因 与 X 同分布,有)( 21 nXXX,,,?
iX
,,,,,mkXE kk?21)(
.2121)( mkniXE kki,,,;,,,,
由辛钦大数定律,对样本 k阶原点矩,有
.21 mkA kk,,,,
kA
P
利用依概率收敛的性质,对任何连续函数有
,,,,)( 21 mxxxg?
).()( 2121 mm gAAAg,,,,,,
P
结论 2,只要总体的 k阶矩存在,则样本 k阶矩的任何连续函数依概率收敛于总体 k阶矩的同一函数。
说明,结论 2 正是我们进行参数估计的理论基础。
四,的分布X
1,设,是 X的一个样本,则)( 2,~ NX )(
21 nXXX,,,?
)(
2
n
NX,~
2,若 X的分布类型未知,仅知 E(X)=?,D(X)=,则2?
)(
2
n
NX,~
.
五,分布
2?定义 6.8 设总体 X~ N(0,1),
是总体的一个样本,则称服从自由度为 n的 分布,记为 。
n
i
iX
1
22?
2? )(22 n ~
)( 21 nXXX,,,?
注,1,;,)212()(2 nn
2,的密度函数表达式和曲线见教材 p163(不用掌握 )。)(2 n?
性质 1,设 X~ N(0,1),则 ).1(22?~X
性质 2,设,是 X的一个样本,

)( 2,~ NX )( 21 nXXX,,,?
n
i
i nX
1
22
2 ).()(
1

性质 3,设,则)(22 nX?~,2)( )( 22 nDnE,
定理 6.1,
),
)(~ )(~
21
22
2
2
1
2
2
2
12
22
21
22
1
n(n~ χχχ
nn
则相互独立,和且,,设
推论,
).(~
21)(~
1 1
22
222


k
i
k
i
ii
iii
n
kin


则相互独立,,且诸,,,,设?
定理 6.2,设,则对任何 x,有)(~ 22 n
.
2
1)
2
(lim 2
2 2



x t
n
dtex
n
nP
说明,定理 6.2保证了当 n 很大时,可近似地用正态分布代替,即,其中 X~N(0,1)。
2?
nXn 22?
).10(~
2
2
,即 NX
n
n
L
分布的用途,分布在正态总体方差的估计和检验问题和非参数检验中起重要作用。
22?
六,t-分布定义 6.9,设 X~N(0,1),,且 X与 Y相互独立,则称服从自由度为 n 的 t-分布,nY
XT
/
)(~ 2 nY?
记为 T~ t(n)。
注,1,t-分布的密度函数表达式 (不用掌握 );
2,t-分布的密度函数曲线,曲线关于 x=0对称,和标准正态分布的密度函数曲线图形类似,但当 n 较小时,t-分布与标准正态分布的差异较大。 t-分布在尾部比标准正态分布在尾部有较大的概率。
定理 6.3 设,且 X与 Y相互独立,则 )(~/ )(~
222 nYNX,,
).(~
/
nt
nY
X
定理 6.4 设 T~t(n),则当 n>1,E(T)=0;当 n>2,D(T)=n/(n-2)。
定理 6.5 设 T~t(n),t(n; x) 为 T的密度函数,则
,)(
2
1
)(lim 2
2
xexnt
x
n


说明,一般当 n>30,取 t(n)? N(0,1)。
t-分布的用途,t-分布主要用于小样本情形正态总体的均值估计和检验,以及正态线性模型可估函数的推断。
七,F-分布定义 6.10 设,且 X与 Y相互独立,则称)(~)(~ 22 nYmX,
nY
mXF
/
/?
服从 第一自由度为 m,第二自由度为 n 的 F-分布,记为
F~ F(m,n)。
注,F-分布的密度函数表达式及其曲线 (不用掌握 )。
性质 6 设 F~ F(m,n),则当 n>2,E(F)=n/(n-2);
当 n>4,D(F)= 。
)4()2(
)422(
2
2


nnm
nmn
).1(2 nFT,~性质 5 设 T~ t(n),则
F-分布的用途,F-分布在对两个正态总体的未知参数进行假设检验中及在方差分析理论中起重要作用。
性质 4 对 F-分布,若 F~ F(m,n),则 1/F~ F(n,m)。
八、抽样分布的几个重要结论定理 6.6 (定理二、三 )
设总体 为来自总体的样本,
为样本均值,为样本方差,则有
1.
2,相互独立 ;
3.
)( )(~ 212 nXXXNX,,,,, X
2S;)1(~)(1)1( 2
1
2
22
2

nXXSn
n
i
i
2SX与
).1(~ nt
nS
XT?
推论 设,为其样本方差,则)(~ 2,NX 2S,)( 22SE
注,证明 可不掌握 。
定理 6.7
设,和分别为来自总体 X和 Y的样本,且两样本 相互独立,设 分别为两样本的样本均值,分别为两样本的样本方差,则有
)(~ )(~ 222211,,,NYNX )( 21 mXXX,,,?
)( 21 nYYY,,,?
YX,2221 SS,;,)10(~
)()(
2
2
2
1
21 N
nm
YX
U



1.;)2(~
)2/()
)1()1(
(
)()(
2
2
2
2
2
1
2
1
2
2
2
1
21


nmt
nm
SnSm
nm
YX
T


2.
特别,当,有;)2(~
)2/())1()1((
11
)()(
2
2
2
1
21


nmt
nmSnSm
nm
YX
T

).1,1(~2
2
2
1
2
1
2
2 nmF
S
SF
3.
特别,当,有
).1,1(~2
2
2
1 nmF
S
SF
说明,1,证明见教材 (可不掌握 );
2,这几个结论在参数估计、假设检验等统计问题的推断中具有重要意义,也是考研内容之一,要注意对结论的理解,并会简单应用。
2212
2212
2212
例 1 设 是来自泊松分布?(?)的一个样本,
分别为样本均值、样本方差,求
)( 21 nXXX,,,?,X
2S
).()()( 2SEXDXE,、
说明,本题求 的方法值得重视,因为在参数估计的无偏性讨论中要用到这种方法。 )( 2SE
思考题 1(2001年数学三考研试题填空题 )
设总体 X服从正态分布,而 是来自总体 X的简单随机样本,则随机变量
)20( 2,N
1521 XXX,,,?
)(2 215211
2
10
2
2
2
1
XX
XXX
Y


服从 _____ 分布,参数为 _____ 。
思考题 2(2003年数学一考研试题选择题 )
设随机变量 X~ t(n),n>1,,则 ( )
A,Y~ (n),B,Y~ (n-1).
C,Y~ F(n,1),D,Y~ F(1,n).
2/1 XY?
2? 2?
例 2.(2001年数学一考研试题十二题 )
设总体 X服从正态分布,(?>0),从该 总体中抽取简单随机样本,其样本均值)( 2,N
)2(221?nXXX n,,,?
n
i
iXnX
2
12
1,求统计量?

n
i
ini XXXY
1
2)2(
的数学期望。
九、概率分布的?分位数定义 6.11 设 X为随机变量,对任何 0<?<1,称满足
P(X> )=? 的数 为 X的 上侧?分位数 ;称满足
P(| X| > )=? 的数 为 X的 双侧?分位数 。
x?x
0x 0x
1,N(0,1)的上侧?分位数设 X~ N(0,1),对任何 0<?<1,P(X> )=?,=?
z?z
由?( )=1-?,查标准正态分布表 (p439表 2)即可求出 。
z?z
公式:对任何 0<?<1,
1 zz
2,N(0,1)的双侧?分位数设 X~ N(0,1),对任何 0<?<1,P(| X| > )=?,=?
0z 0z
2/0?zz?
,即 P(| X| > )=?,
2/?z
其中 由?( )=1-?/2 求出。
2/?z2/?z
3,-分布的上侧?分位数2?
设 X~ (n),对任何 0<?<1,P(X> (n) )=?,(n) =?2? 2
2
查 表。
注,当 n>30,用近似公式 。求 )(2)( 22 nnznn

4,t-分布的?分位数设 X~ t(n),对任何 0<?<1,P(X> (n) )=?,(n) =?
t?t
设 为 t(n)的双侧?分位数,和标准正态分布的讨论类似,我们有
0t
。,即 )())(()( 2/02/0 nttnttPttP
注,当 n>30,用近似公式 。求 )()( ntznt

查 表 求出 。)(nt?
公式,)()(
1 ntnt
5.F-分布的上侧?分位数设,对任何 0<?<1,P(X> )=?,
=?
)( 21 nnFX,~ )( 21 nnF,?
)( 21 nnF,?
查 表 求出 。 )(
21 nnF,?
公式,
)(
1
)(
21
121 nnFnnF,,