数 理 统 计 学
主 讲,陈荣斯 教授, 博士
数 理 统 计 的 基 础 知 识
但是当时的统计,只是对有
关事实的简单记录和整理,
从历史的典籍中人们不难发现许多关于钱粮、户口、地震、
水灾等等的记载,说明人们
很早就开始了统计的工作,
到了十九世纪末二十世纪初,随着近代数学和概率论的发展,
才真正诞生了 数理统计学 这门学科,
而没有在一定理论的指导下,
作出超越这些数据范围之外
的推断,
数理统计的特点是
应用面广,分支多, 社会的发展正在不断地向数理统计提出新的
问题,
数理统计不同于一般的资料统计,它更侧重于应用随机现象
本身的规律性进行资料的收集、整理和分析,
它们都以随机
现象的统计规律为研究对象,
数理统计与概率论是两个有密切联系的学科,
但在研究问题的方法上有很大区别:
概率论 —— 已知随机变量服从某分布,寻求分布的性质、
数字特征、及其应用 ;
数理统计 —— 通过对实验数据的统计分析,寻找所服从的分
布和数字特征,从而推断整体的规律性,
数理统计的核心问题 —— 由样本推断总体
也就是说,我们获得的只是局部
观察资料,
因而从理论上
讲,只要对随机现象进行足够多次观察,
但客观上 只允许我们对随机现
象进行次数不多的观察试验,
被研究的随机现象的
规律性一定能清楚地呈现出来,
数理统计就是 在概率论的基础上 研究怎样以 有效的
方式 收集、整理和分析可 获的有限的,带有随机性的数
据 资料,
由于大量随机现象必然呈现出它的规律性,
对所考察问题的统计性规律 尽可能地 作出 精确
而可靠的 推断或预测,为采取一
定的决策和行动提供依据和建议,
计算机的诞生与发展为数据处理提供了强有力的技术支持,
国内外著名的统
计软件包,SAS,SPSS,STAT 等,都可以让你快速、简便地
进行数据处理和分析,
由于学时有限,这部分内容的重点在于介绍数理统计的一
些重要概念和典型的统计方法,它们是实际中最常用的知识,
学习统计无须把过多时间化在计算上,应更有效地把时间
用在基本概念、方法原理的正确理解上,
数理统计与计算机的结合是必然的发展趋势,
总体容量有限的称为 有
限总体,
总体
一 个统计问题总有它明确的研究对象,1.总体
研究对象的全体称为 总体 (母体 ),总体中每个对象称为 个体,
一、总体、个体和样本
研究某批灯泡的质量总体
考察国产 轿车的质量
§ 1 总体和样本
不过在统计研究中,人们关心总体仅仅是关心
其每个个体的一项 (或几项 )数量指标和该数量指标在总体中的分布
情况,
该批灯泡寿命的全体就是总体
灯泡的寿命
每公里的耗油量
所有国产轿车每公里耗油量的全体就是总体
这时,每个个体具有的数量指标的全体就是总体,
称总体中所含个体的数目为 总体容量,
总体容量无限的称为 无限总体,
那么,此
总体就可用描述其寿命的随机变量 X 或用其分布函数 F(x)表示,
因此在理论上可
以把总体与概率分布等同起来,
概率分布是刻划这种集体性质最适当的工具,
统计的任务,是根据从总体中抽取的样本,去推断总体的性质,
由于我们关心的是总体中的个体的 某项指标 (如人的身高、体重,
灯泡的寿命,汽车的耗油量 ? ),
从另一方面看:
如研究某批灯泡的寿命时,关心的 数量指标就是寿命,
所谓总体的性质,无非就是这
些 指标值集体的性质,
我们用 X和 Y分别表示身高和体重,那么此总体就可用二
维随机变量 (X,Y)或其联合分布函数 F(x,y)来表示,
总体概念的要旨, 总体就是一个概率分布
再如,若 研究某地区中学生的营养状况时,关心的数量指标是身
高和体重,
样本中所包含的个体数目称为 样本容
量,
但是,一旦取定一组样本,得到的是 n 个具体的数 x1,x2,?,xn,
按一定规则从总体中抽取若干个
体进行观察试验以获得有关总体的信息,
为推断总体分布及各种特征,
从国产轿车中抽 5辆
进行耗油量试验 样本容量为 5
2,样本
样本是随机变量
抽到哪 5 辆是随机的!
容量为 n 的样本可以看作一 n 维随机变量 (X1,X2,?,Xn),
所抽取的部分个体称为 样本,
这一抽取过程称为 抽样,
称为 样本 (X1,X2,?,Xn)的一组观测值,简称 样本值,
它要求抽取的样本
X1,X2,?,Xn 满足下面两点,
它可以用与总体
同分布的 n 个相互独立的随机变量 X1,X2,?,Xn 表示,
2.代表性,Xi (i =1,2,?,n) 与所考察的总体 X 同分布,
为了使抽取的样本能
很好地反映总体的信息,必须考虑抽样方法,
最常用的一种抽样方法叫作 简单随机抽样,
1.独立性,X1,X2,?,Xn 是相互独立的随机变量 ;
抽样的目的是为了对总体进行统计推断,
由简单随机抽样得到的样本称为 简单随机样本,
今后,说到, X1,?,Xn
是取自某总体的样本” 时,若不特别说明,就指简单随机样本,
则其简单随机样本的联合分布函数为
F(x1,x2,?,xn)= F(x1)F(x2)? F(xn)
简单随机样本是应用中最常见的情形,
若总体 X的分布函数为 F(x),
.)(
1??
? n
i i
xF
若总体 X的概率密度为 f(x),则其简单随机样本的联合概率密度为
.)(),,(
11 ??
? n
i in
xfxxf ?
求样本 (X1,X2,X3 )的
概率分布,
例 1 设总体 X~B(1,p),即 P(X=x)= px(1-p)1-x,
X= 0,1,设 X1,X2,X3 为 X 的一个样本,
解 xi = 0,1; i = 1,2,3,
∴ (X1,X2,X3 )的分布列
P(X1=x1,X2= x2,X3= x3 ) ?
?
?? 3
1
)(
i
ixXP
?
?
??? 3
1
1)1(
i
xx ii pp,)1( 321321 3 xxxxxx pp ????? ??
又 ∵ x1 + x2 + x3 =0,1,2,3,
∴ P(X1=x1,X2= x2,X3= x3 ) kk pp ??? 3)1( k = 0,1,2,3,
,)1()( ii xxi ppxXP ????
比如我
们从某班大学生中抽取 10 人测量身高,得到 10 个数,
我们只能观察到 随机变量取的值 而见不到 随
机变量,
它们是样本
取到的值而不是样本,
3,总体、样本、样本值的关系
总体 (理论分布 )?
样本
样本值
统计是从手中已有的资料 — 样本值,去推断总体的情况 — 总体
分布 F(x)的性质,
总体分布决定了样本取值的概率规律,也就是样本取到样本值
的规律,
事实上,我们抽样后得到的资料都是具体的、确定的值,
因而 可以由样本值去推断总体,

是总体的代表,含有总体的信息
分散、复杂
样本是联系二者的桥梁
??31 2)(i iX?,)(3 1 2?? ?i iX ?
其中 ?已知,?未知,
则称 g(x1,?,xn)是
一个 统计量,
一个有效
的方法就是构造一些 样本的函数,
若样本函数 g(x1,?,xn)中不含任何未知参数,
由样本值去推断总体情况,需要对样本值进行, 加工
”,
1,统计量
这种不含任何未知参数,完全由样本决定的量 称为统计量
二、统计量和样本矩
?
通过 样本函数 把样本中所含的
(某一方面 )的信息集中起来,
定义 设 X1,X2,?,Xn是来自总体 X的容量为 n的样本,
样本的函数
例 2 设 X1,X 2,X3是取自正态总体 X ~(?,?2)的一个样本,
问下列样本函数中哪些是统计量,那些不是?
×
X1,X2+1,(X1 + X2 +Xn )/3,
Max{ X1,X2,X3 },?
?
??我们主要研究两种基本的统计量:
样本矩 和 顺序统计矩
几个常见的统计量
样本均值
样本方差
??? ni iXnX 11
?? ??? ni i XXnS 1 22 )(11
反映了总体均值的信息
它反映了总体方差的信息
样本 k阶原点矩 样本 k阶中心矩?
?
? n
i
kik XnA
1
1 ?
?
?? n
i
kik XXnB
1
)(1 k=1,2,?
它反映了总体 k 阶矩的信息 反映了总体 k 阶中心矩的信息
并称他们相应的观测值
样本标准差 ?
?
??? n
i i
XXnS
1
2)(
1
1
它反映了总体标准差的信息
,1
1??
? n
i i
xnx,)(11
1
22 ?
?
??? n
i i
xxns
,1
1??
? n
i
kik xna,)(1
1??
?? n
i
ki
k xxnb
k=1,2,?,)(
1
1
1
2?
?
??? n
i
i xxns
仍分别为, 样本均值、样本方差、样本标准差、样本 k 阶原点矩、
样本 k 阶中心矩,
10 样本矩 ——
? ?? ? ???? ni ni ii XnXXXn 1 212 )2(11 )2 22 XnXn ?)2Xn ?
?
?? n
i i
n XXnS
1
22 )(1
?? ?? ni in XXnS 1 2)(1
统称为 样 本 矩
统计量的重要性质 设 X1,X2,?,Xn是来自总体 X的容量为 n的样本,
若 X有期望 EX=? 和方差 DX =? 2,则
??? ni iEXnXE 11
])([
1
2?
?
?n
i i
XXE?
定理
)()( 2222 ???? ???? nnn
= ?,(1)
)( 2nSE
,)1( 2??? n
)()( 2
1
2 XEXDnXEXDn
i ii
???? ?
?;1 2?nn ??
11?n n
1
E(S2)?= ? 2,(2)
)()( 2
1
2 XEnXEn
i i
?? ?
?
??? ni iDXnXD 121 = ?
2/n ;
由独立同分布的大数定理即得,,)(,)4( 2222 ??? ??? ?? nSS PnP ??
由连续保独立性知 22221,,,nXXX ? 也是独立同分布的随机变量,
且 iii XEDXXE 22 )( ?? ),2,1(22 ???? i??
由独立同分布的大数定理,)(1 22
1
2 ???? ??? ?
?
nXn Pn
i i
??
)(1
1
222 ?
?
?? n
i in
XnXnS又 2
1
21 XXn n
i i
?? ?
?
,2222 ???? ???? ?? P
,)(1 222 ??? ????? nSn nS Pn ?
?
(3) X? ;)(,??? ?? nP ?
是如下的随
机变量:

x1,?,xn 按递增顺序排列如下:
即按增序取值
20 顺序统计量
定义 设 x1,?,xn 是 样本 (X1,?,Xn)的一组观测值,
.21 ??? ??? nxxx ? 记 ?kX
并称
当 (X1,?,Xn)取 值 x1,?,xn 时,,?? ? kk xX k=1,2,?,n,
),,( 1 ?? nXX ? 为样本 X1,?,Xn 的 顺序统计量,
称为 第 k位顺序统计量,
?kX
??
?
?
?
?? ? ??
?
?
为偶数,
为奇数,
nXX
nX
X nn
n
,2
,~
122
2
1称
为 样本中位数,称 为 样本极差, ???? 1XXR n
(k =1,2,?,n )
例 3 设 X1,X2,X3是总体 X的一个样本,其三次观测值如下,
X1 X2 X3
1 1 0 1
2 3 1 0
3 1 2 0
则样本顺序统计量的观测值表为
X1* X2* X3*
1
2
3
0 1 1
0 1 3
0 1 2
样本极差的观测值 r1=?
最大值? 最小值?
1-0 = 1;
r2 = 3 ;
r3 = 2,
一,?2 分布
记为 Y ~?2 (n),
1.定义 设 X1,?,Xn 独立且都服从标准正态分布 N(0,1),
??? n
i i
XY
1
2
?2 分布是由正态分布派生出来的一种分布
§ 2 三个统计中常见的分布
可以证明 ?2 分布的密度为
??
?
?
?
?
??
??
,0,0
,0,)2(2
1
)(
212
2
x
xexnxf
xn
n ?
定义的, 其中伽玛函数 ?(x)通过积分 0,)(
0 1 ?? ?
? ?? xtdetx tx?
所服从的分布为 自由度为 n 的 ?2 分布,
称随机变量
10 ?(x+1)= x ?(x)(x>0); 20 ?(n+1)= n ! ; 30 ?(1)= 1,
)(~ 2 nm ????
?
??? nm
i i
XYY
1
2
21
10 设 Y1 ~?2 (m),Y2 ~?2 (n),且 Y1,Y2 相互独立,
2,?2 分布的基本性质

?2 分布的可加性Y1 +Y2 =?
,???
m
i i
XY
1
21,??
??
? nm
mi i
XY
1
2
2;)(~ 221 nmYY ?? ?
20 若 Y ~?2 (n),则 = n,= 2n, EY DY
??? ni iXEEY 1 2 )( ?? ?? ni ii EXXD1 2 ])([,1
1
nn
i
?? ?
?
??? ni iXDDY 1 2 )( ?? ?? ni ii EXEX1 224 ])([,221 nni ?? ??= 1
xdexEX xi ? ???? ?? 2 244 21? = 3
30 设 X1,?,Xn 相互独立,且都服从正态分布 N(?,? 2),
40 若 Y~?2 分布,;)(~)(1 2
1
2
2 nXY
n
i i
??? ?
?
??
近似服从 N(0,1),
应用中心极限定理可得

n
nY
2
?则当 n 充分大时,
设 X1,?,X10 是来自正态总体 X~ N(0,0.32)的一
个样本,
例 1 设 X~ ?2 (15),试确定 x的值,使 P(X? x)= 0,95,
解 由题意知,所求 x 满足 P(X> x)= 1-0.95,,)15(2 05.0??x即
n=15,?=0,05,查附表知,x=24.996,
例 2
求,)44.1(
1
2 ??
?
n
i i
XP
解 ∵ X i ~ N(0,0,32),),1,0(~
3.0 N
X i? i = 1,2,?,10,
又由于它们相互独立,,)10(~)
3.0(
2
1
2 ??
?
? n
i
iX
)3.0 44.1)3.0(()44.1( 2
1
2
1
2 ???? ??
??
n
i
in
i
i XPXP
)16)01(( 2 ?? ?P = 0,1,

即 n充分大
时,t分布近似 N(0,1),
可以证明 T 的密度函数为:
.)1()2( ]2)1[()( 2
12 ????? n
nxnn
nxf
??
?
记为 T ~ t (n),
定义 2 设 X~ N(0,1),Y~ ?2 (n),
nY
XT ?
所服从的分布为 自由度为 n 的 t 分布,
二,t 分布
自由度为 n的 t 分布的数学期望
T 分布的密度关于 y 轴对称,
且 X与 Y相互独立,
称随机变量
和 方差为,
D(T)= n/ (n-2),(n> 2).E(T)= 0 ;
偶函数
这表明 n
充分大时,其密度的图形类似于标准正态分布的图形,
,21)(lim 2
2x
n exf
?
?? ? ?
且 X~ N(2,1),
Yi ~ N(0,4),i=1,2,3,4,
设 X,Y1,Y2,Y3,Y4 相互独立,
例 3 设 T~ t(15),试确定 x的值,使 P(|T|>x)= 0,1,
解 由 t 分布的偶性知 P(T>x)=P(T<-x),
,)15(05.0tx ?即 n=15,?=0.05,查 附表知,x =1.7531,
例 4

,)2(4
4
1
2?
?
??
i
iYXZ
解 ∵ X-2~ N(0,1),i = 1,2,3,4,
~ t(4),
?
?
??
4
1
2
)2(4
i
iY
XZ?
即 Z 服从自由度为 4 的 t 分布,
∴ P(T> x)=0.1/2,
求 Z 的分布,
4)2(
2
4
1
2?
?
??
i
iY
X
由 t 分布的定义
Yi /2~ N(0,1),
记作
F ~ F(m,n),
由 F分布的定义可见,若 X ~ F(m,n),
,)(~,)(~ 22 nYmX ??且定义 3设随机变量 X与 Y独立,
所服从的分布为 第一自由度为 m,第二自由度为 n的 F分布,nY
mXF ?
三,F 分布
? ?
?
?
?
??
?
?
?
??
?
?
???
,0 0,
,0,
)
2
()2(
)
2
(
)(
2
1
222
x
xnxmxnm
nm
nm
xf
nmmnm
??
?
F 分布的 数学期望,2,
2)( ??? nn nXE
则 X 的概率密度为
则称统计量
F 分布的性质, 10 若 X ~F(m,n),则 1/X ~F(n,m),
20 若 X ~ t (n),则 X 2 ~ F(1,n);
不依赖于第一自由度
mX
nY
F ?1
例 5 设 F ~ F(24,15),求 F1,F2,F3,使其分别满足
解 (1) 由 m=24,n=15,? = 0,025,查 附表 知
(2)无法直接查表获得,但
由 F 分布性质知,
0 2 5.0)11()(
22
???? FFPFFP
(3)∵ F3 =F0,95(24,15),
查表可知
F1 = F0.025 (24,15)= 2.70 ;
∴ F2 = 1/2.44 = 0.41 ;
由 (*)式知
P(F > F1)= 0.025,P(F < F2)= 0.025,P(F > F3)= 0.95,
1/F ~F(15,24),查附表 知
,44.2)24,15(1 025.02 ?? FF 0 2 5.0)44.2/1( ??? FP
,)24,15(1)15,24(
95.0195.0 ?
? FF
,11.2)15,24(95.0 ?F,4 74.011.2 13 ??? F
统计三大分布的定义和基本性质在后面的学习中常用到,要牢记!
总 体
样 本
统 计 量
描述
作出推断
研究统计量的性质和评价一个统计推断的优良性,
完全取决于其抽样分布的性质,
随机 抽样
我们介绍了数理统计的基本概念,小结
做很多
大小形状不一的等腰三角形,实地测量其底角,根据所得资料看看
可否作出,底角相等” 的结论,
它在作出结论时,
是根据所观察到的大量个别情况,“归纳”起来所得,而不是从一些
假设、命题、已知的事实等出发,按一定的逻辑推理去得出来的,
统计方法具有“部分推断整体”的特征
因为我们是从一小部分样本观察值去推断该全体对象 (总体 )
情况,即由部分推断全体,
在结束本节之前,我们需要强调说明一点:
这种归纳推理不同于数学中的, 演绎推理,,
例如,在几何学中要证明,等腰三角形底角相等” 只须从
“等腰” 这个前提出发,运用几何公理,一步一步推出这个结论,
而一个习惯于统计思想的人就可能想出这样的方法:
这里使用的推理方法是, 归纳推理,,
这就是归纳推理式的方法,
显然这里不仅依赖于进行局部观察的“样本”是否具有总体的
代表性,
自然要问:从局部观察要对总体下结论有没有片面性呢?
我们说, 如果这一切都建立在可靠的科学基础上, 则对总体下
结论是可能的也是可靠的,
“每一事物内部不但包括了矛盾的特殊性,而且包
含了矛盾的普遍性,普遍性即存在于特殊性之中,,
——毛泽东, 矛盾论,
结论是否可靠?
也依赖于对从样本得到数据的合理加工与分析所得出的论断,
因为这里存在着样品 (随机抽取的一个
个体 )个性 (特殊性 )和总体共性 (普遍性 )之间的一种 内在的、对立
统一 的辩证关系,
一方面它具有特殊性,因为它毕竟是个别观察值,不能反映
总体的全面性质,有片面性,
因而统计上往往不采用由一次抽取的样品来下结论,
我们对每个经过合理手续选取的一个样品也应看到它所具有
的两重性:
另一方面也要看到“普遍性即存在于特殊性之中”,即每个样
品的情况又必然反映总体的一些普遍性,
在这个基础上再加上科学的推断方法,对总体下的结论同
样也是可靠的,
当样品有一定数量时总体的普遍性是可以得到比较真实的反
映的,
但此时还应记住毕竟是由,局部” 推断,整体”,因而仍可
能犯错误,结论往往又是在某个“可靠性水平”之下得出的,
矛盾的特殊性与普遍性的辩证统一 在统计学中贯穿始终,是我
们应该记住的基本思想,