第五章 数理统计的基本概念与抽样分布
一、基本要求
1,理解总 体,个体,简单随机样本和统计量的概念,掌握样本均值,样本方差及样本矩的计算。
2.了解 分布,t 分布和 F 分布的定义和性质,了解分位数的概念并会查表计算。
2
χ
3.掌握正 态总体的某些常用统计量的分布。
4.了解最 大次序统计量和最小次序统计量的分布。
本章重点,统计量的概念及其分布。
二、教学 内 容
5.1 基 本概念
5.1.1 数理 统计 的 基 本问题
概率论与数理统计是研究随机现象统计规律性的一门学科。
概率论是对随机现象统计规律性演绎的研究。
数理统计 研 究以有效 的 方式采集,整理和分 析 受到随机 因 素影响的 数 据,并对 所 考 察的问题作出推断和预测,直至为采取某种决策提供依据和建议。 由此可见,数理统计是对随机现象统计规律性归纳的研究,它与概率论在研究方法上有着明显的差异。
数理统计 研 究的内容 十 分广泛,概 括起来可 分 为两大类,一是试验 设 计,是研 究 如 何对随机现象进行观察和试验,以便更合理更有效地获得试验数据; 二是统计推断,即研究如何对所获得的试验数据进行加工和处理,从而对所考察的对象的某些性质作出尽可能精确可靠的推断。
例 5.1 某钢 厂生产某型号钢筋 10 000 根,质检员 每天只抽查其中 50 根钢 筋的强度,并要解决以下问题,
(1)如何从仅有的 50 根钢 筋的强度数据去估计整批 (10 000 根 ) 钢筋的强度 平均值?又如何估计整批钢筋强度偏离平均值的离散程度?
(2)若规定 了 这种型号 的 钢筋的标 准 强 度,从 抽查的 50 根钢 筋强度数 据 如何判断 整 批 钢筋的平均强度与规定标准有无差异?
(3)如果钢 筋 强度与某 种 原料成分 的 含量有关,那 么从检查的 50 根钢筋的强度与该 成分含量的 50 组 对应数据,如何去表述整批钢筋的强度与该成分含量之间的关系?
问题 (1)实 际 上要从 50 个强度数 据 出发去估 计 整批钢筋 的 强度的某 些 数字特征,这里 是要估计数学期望和方差,在数理统计中解决这类问题的方法称为参数估计。
问题 (2)是要 求用抽 查所 得的数 据去 检验强 度分 布的某 些数 字特征 与规 定标准 有无 差异,这里是检验数学期望。 数理统计中解决这类问题的方法是先作一个假设 (如假设平均强度与规定标 准无差异),然后利用概 率反证法检 验这一假设 是否成立,这种方法称 为假设检验。
问题 (3)是要 根据观 察数 据研究 随机 变量与 确定 性变量 之间 的关系,这 里是研 究钢 筋 强度 (随机变量) 与某成分含量 (确定性变量) 这样两个变量间的关系,这种研究方法称为 回归分析。
以上三个 方 面的内容 都 属于统计 推 断问题。 其 中参数估 计 和假设检 验 是数理统 计 中 两个最基本的理论和方法。而回归分析方法在工程中应用极为广泛。
5.1.2 总体 与样本
1,总体
在数理统计中,把所研究对象的全体称为总体 (或母体),而把组成总体的每个研究对象称为个体。 例如,在考 察一批灯泡的质量时,该批灯泡的全体就组成一个总体,而其中每个灯泡就是一个个体。 总体中所含有的个体的总数称为总体的容量,它可以是有限的也可以是无限的。因此总体分为有限总体和无限总体。
就一批灯泡这个总体而言,这批灯泡的寿命这个数量指标 X 也是随机 变量。假定 X 的分布函数为 F(x),如果把表示这个数量指标的随机变量 X 的可能取值的全体看作总体,且称总体 X 为具有分布函数 F(x)的总体,这样就把总体与随机变量联系起来了。因而,任何一个总体,都可用一个相应的随机变量来描述。 所以,今后 我们说到总体,指的是一个具有确定概率分 布的随机变 量(但它的 分布又是未 知的或至少 分布中的某 些参数是未 知的),而每个个体则是随机变量可能取的每一个数值。 这样对总体的研究就归结为对表示总体某个数量指标的随机变量的研究。 所谓总体的分布及数字特征,就是指总体某个数量指标的随机变量的分布及数字特征。 例如,正态总体即指表示总体某个数量指标的随机变量服从正态分布。
2,样本
为了对总体 X 的分布规 律或某些特征进行研究,就必须对总体进行抽样观察,根据抽样所得的数据来推断总体的性质。这种从总体 X 中抽取若 干个个体来观察数量指标 X 的取值过程,称为抽样(又称采样),这 一做法称为抽样法。
从一个总体 X 中,随机抽取 n 个个体
12
,,,
n
X XX"(如 10 000 件产品中随机抽取 50
件),通常记 为,并称它为来自总体),,,(
21 n
XXX"X 的一个样本 (又称子样),样本中的个体数 n 称 为样本容量,由于每个 (1,2,,
i
)X n="都是从总体 X 中随机抽取的,它的取值就在总体 X 可能取值范围内随机取得,故每个
i
X 都是随机变量,而样本 就是一个 n 维随机变量。在一次抽取观察之后,它们是 n 个数据
),,,(
21 n
XXX"
12
(,,,)
n
x xx",称之为样本的一个观测值,简称样本值。 一般来说,两次不同的抽样得到的样本值是不同的 。样 本 所可 能取 值的全 体称 为样本 空间,记为,一 个样本 值
),,,(
21 n
XXX"
),,,(
21 n
XXX"?
12
(,,,)
n
x xx"就是样本空间 中的一个点。
抽取样本 的 目的是为 了 利用样本 对 总体的分 布 或某些数 字 特征进行 推 断,这就 要 求 抽取的样本能够很好地反映总体的特性且便于处理,因而需要对如何抽样提出一些要求,通常有两条,
( 1 )代 表 性:因抽 取的样本 要尽可能 地代表总 体的特性,所以要 求每个
(1,2,,)
i
X ="n必须与总体 X 具有相同的分布。
( 2) 独立性,因独立观察是一种最简单而实用的观察方法且独立样本便于处理,这就要求
12
,,,
n
X XX"是相互独立的随机变量,即每个观察结果既不影响其他观察结果,也不受到其他观察结果的影响。
满足上述 两 条性质的 样 本称为简 单 随机样本,获得简单 随 机样本的 方 法称为简 单 随 机抽样。
定义 5.1 一个 随机变量 X 或其相应的分布函数 F(x)称为一个总体。
定义 5.2 如果 随机变量
12
,,,
n
X XX"相互独立且每个
i
X 与总体 X 具有相同的分布,则称 是来自总体 X 的容量 为 n 的简单随机样本,简称样本。若总体 X 具有分布函数 F(x),也称 为来自总体 F(x)的样本。
),,,(
21 n
XXX"
),,,(
21 n
XXX"
3,样本的分 布
定理 5.1 设 为来自总体 X 的样本 ),,,(
21 n
XXX"
( 1)若总体 X 的分布函数为 F(x),则样本 分布函数为),,,(
21 n
XXX"
1
()
n
i
i
F x
=


( 2)若总体 X 的分布密度为 p(x),则样本 分布密度为 。 ),,,(
21 n
XXX"
1
()
n
i
i
px
=

( 3) 若总体 X 的分布律为
{ }
**
()( 1,2,),
ii
PX x px i== ="则样本 分布律为 。
),,,(
21 n
XXX"
1
()
n
i
i
px
=

{ } { }1,01,(0PX pPX p p== ==? <<1)
试求样本 的分布律,),,,(
21 n
XXX"
解,由于总体的分布律可写成
{ }
1
() (1 ) ( 0,1)
xx
px PX x p p x
===? =
由定理 5.1,样本 的分布律为 ),,,(
21 n
XXX"
1i= 1i=
x
()
n
i
px

=,
1
(1 )
ii
n
xx
pp

11
(1 )
nn
ii
xn
pp
==
∑∑
=?
例 5.2 设总 体 X 服从正态分布
2
(,),N μ σ 试求样本 的分布密度,),,,(
21 n
XXX"
解,由于总体的分布密度为
2
2
()
2
1
() ( )
2
x
px e x
μ
σ
πσ
=?∞<+∞
故样本 的分布密度为 ),,,(
21 n
XXX"
2
2
2
2
1
1
()
()
2
2
11
2
11
(),
2
(2 )
n
i
i
i
x
nn x
i n
ii n
px e e
μ
μ
σ
σ
πσ
πσ
=

==

==
∏∏
5.1.3 统计 量
1,统计 量
定义 5.3 设 为总体),,,(
21 n
XXX"X 的一个样本,若样本的函数 不包含任何 未知 参数,则称 为一个 统计 量。如 果 是样 本的一个观测值,则称 是统计量 的一个观测值。
)X,,X,X(f
n
"
21
)X,,X,X(f
n
"
21
),,,(
21 n
xxx"
)X,,X,X(
n
"
21
)x,,x,x(f
n
"
21
)X,,X,X(f
n
"
21
例如,设 总 体,),(N~X
2
σμ μ 已知 而 未知,是来自总 体
2
σ )X,,X,X(
n
"
21
X 的一个样本,则

=
n
i
i
X
n
1
1


=
n
i
i
)X(
n
1
2
1
μ 都是统计量,但

=
n
i
i
X
1
1
σ


=
n
i
i
)X(
1
2
2
1
μ
σ
都不是统计量。
2,常用统计 量——样本矩
定义 5.4 设 为总体)X,,X,X(
n
"
21
X 的一个样本,称统计量

=
=
n
i
i
def
X
n
X
1
1
(5.1)
为样本均值;统计量
2
1
2
1
22
1
)(
1
XX
n
XX
n
S
n
i
i
n
i
i
def
n
=?
∑∑
=
==
(5.2)
为样本方差;统计量

=
=
n
i
i
def
n
XX
n
S
1
2
2
*
)(
1
1
(5.3)
为修正样本方差;统计量
2
1
2
)(
1
n
n
i
i
def
n
SXX
n
S =?

=
=
(5.4)
为样本标准差;统计量

=
=
n
i
k
i
def
k
X
n
A
1
1
)n,,,k("21= (5.5)
为样本 阶原点矩;统计量 k

=
=
n
i
k
i
def
k
XX
n
B
1
)(
1
)n,,,k("21= (5.6)
为样本 阶中心矩。用k x,,,分别表示
2
n
s
k
a
k
b X,,,的观测值。
2
n
S
k
A
k
B
由定义 5.4 可见,XA =
1
,,
2
2 n
SB =
2
2
*
1
nn
S
n
n
S
=,并且,样本矩具有下列性质。
性质 5.1 设总 体 X 的数学期望 μ=)(XE,方差,为来自总体
2
)( σ=XD ),,,(
21 n
XXX"
X 的样本,则有,
(1) μ=)(XE ;
(2)
2
1
)( σ
n
XD = ;
(3)
22
1
)( σ
n
n
SE
n
= ;
(4)
2
2
*
)( σ=
n
SE
证明 (1) μμ ====
∑∑∑
===
n
i
i
n
i
n
i
i
n
XE
n
X
n
EXE
111
1
)(
1
)
1
()(
(2)
2
1
2
2
1
2
1
11
)(
1
)
1
()( σσ
nn
XD
n
X
n
EXD
n
i
i
n
i
n
i
i
====
∑∑∑
===
(3)
∑∑
==
=?=
n
i
i
n
i
in
XEXE
n
XX
n
ESE
1
2
2
2
1
22
)()(
1
)
1
()(
)))(()(()))(()((
1
2
1
2
XEXDXEXD
n
n
i
ii
+?+=

=
)
1
()(
1
1
2222

=
+?+=
n
i
nn
μσμσ
2
1
σ
n
n?
=
(4)
222
2
*
)(
1
)
1
()( σ=
=
=
nnn
SE
n
n
S
n
n
ESE
性质 5.2 设总 体 X 的 阶矩 存在,则样本的 阶矩依概率收敛于总体的的 阶矩,即
k )(
k
XE k k
k
1}|)(
1
{|lim
1
=<?

=
∞→
ε
k
n
i
k
i
n
XEX
n
P )0( >?ε
对随即序 列 应用大数定理即可证明该性质。由此性质进一步可得 }{
k
i
X 固 定 )k(
1}|)({|lim =<?
∞→
εXEXP
n
1}|)({|lim
2
=<?
∞→
εXDSP
n
n
此结论 表明,样本容量 很大时,可用一次抽样后所得样本均值n X 和样本方差 分别作为总体
2
n
S
X 的均值 和方差 的近似值(即估计值) 。 )(XE )(XD
3,次序统计 量
设 是从总体),,,(
21 n
XXX"X 中 抽 取 的 一 个 样 本,是样本的一个观测值,将观测值按由小到大的次序重新编号排列为
),,,(
21 n
xxx"
)()2()1( n
xxx ≤≤≤"
当 取值 为 时,定义 取值 为),,,(
21 n
XXX"),,,(
21 n
xxx"
)(k
X
)(k
x ),,2,1( nk"= 由此得到的 称为样本 的次序统计量,称为次序统计量的观测值。
),,,(
)()2()1( n
XXX"),,,(
21 n
XXX"),,,(
)()2()1( n
xxx"
其中 称为最小次序统计量,
i
ni
XX
≤≤
=
1
)1(
min
i
ni
n
XX
≤≤
=
1
)(
max 称为最大次序统计量,
称为第 个次 序 统计量 。 由于每 个 都是 样本 的函 数,所以也都是随 机 变量。次 序 统计量 一般 不是相互 独立的,因为次序统计量的任一观测值均为由小到大的排列。 对于连续总体,次序统计量的分布由下列定理给出。
)(k
X
k
)(k
X ),,,(
21 n
XXX"
)()2()1(
,,,
n
XXX"),,,(
)()2()1( n
XXX"
定理 5.2 设总 体 X 的分布密度 (或分布函数为 ),为总体
)(xp )(xF ),,,(
)()2()1( n
XXX"
X 的样本 的次序统计量,则有 ),,,(
21 n
XXX"
(1) 最小次序统计量 的分布密度为
)1(
X
(5.8) )()](1[)(
1
)1(
xpxFnxp
n
x
=
(2) 最大次序统计量 的分布密度为
)(n
X
(5.9) )()]([)(
1
)(
xpxFnxp
n
x
n
=
例 5.4 设总体 X 服从区间 []0,θ 上的均匀分布,为,试求总体),,,(
21 n
XXX"X 的样本试求 和 的分布,
)1(
X
)(n
X
解,总体 X 的分布密度为
1
,0
()
0,
x
px
θ
θ
≤ ≤
=
其他
X 的分布函数为
0,0
(),0
1,
x
x
Fx x θ
θ
θ
<
=≤<
x>
,
由定理 5.2,得 的分布密度为
)1(
X
(1)
1
(1 ),0
()
0,
n
X
nx
x
px
θ
θθ
≤≤
=
其他

()n
X 的分布密度为
()
1
,0
(),
0,
n
n
n
X
n
xx
px
θ
θ
≤ ≤
=
其他
4,经验分布 函数
定义 5.5 设 是来自总体),,,(
21 n
XXX"X 的样本,是次序统计量,其观测值为,设 是任一实数,称函数
),,,(
)()2()1( n
XXX"
),,,(
)()2()1( n
xxx"x

=<≤
<
=
+
)(
)1()(
)1(
1
)1,,2,1(
0
)(
n
kkn
xx
nkxxx
n
k
xx
xF" (5.12)
为总体 X 的经 验分布函 数 。换句话 说,对任何 实 数,经验 分 布函数 等 于 样本值中不超过 的个数再除以,即
x )(xF
n
x n
n
xxxx
xF
n
n
的个数)中不超过,,,(
)(
21
"
= )( +∞<<?∞ x
经验分布函数 具有如下性质,)(xF
n
(1) 对给定 的 一组样 本值,是一 个分 布函数,因 为它具 有分 布函数的特征,即 ①
n
xxx,,,
21
")(xF
n
1)(0 ≤≤ xF
n;② 0)( =?∞
n
F,1)( =+∞
n
F ;③ 单调非减且右连续。
)(xF
n
( 2)由 于 是样本的函数,故 是随机变量,且取值为 0,)(xF
n
)(xF
n
n
1

n
2
,…,
n
n 1?

1,进一步可 证明 服从二项分布,即 )(xnF
n
))(,( xFnB
knkk
nn
xFxFCkxnFP
== )](1)[(})({ ),,1,0( nk"= (5.13)
其中 是总体)(xF X 的分布函数,由此可知
,)()]([ xFxFE
n
=
n
xFxF
xFD
n
)](1)[(
)]([
= (5.14)
(3) 当 时,经验分布函数 依概率收敛于总体∞→n )(xF
n
X 的分布函数,即 )(xF
1}|)()({|lim =<?
∞→
εxFxFP
n
n
)0( >?ε
该性质利用贝努里大数定理即可证之。 此性质表明,当 充分大时,就像可以用事件的概率近似它的概率一样,可以用经验分布函数 近似总体
n
)(xF
n
X 的分布函数 。 )(xF