2009-7-30 1
数据的统计描述和分析实验目的实验内容
2、掌握用数学软件包求解统计问题。
1、直观了解统计基本内容。
1、统计的基本理论。
3、实验作业。
2、用数学软件包求解统计问题。
2009-7-30 3
统计的基本概念参数估计假设检验数据的统计描述和分析
2009-7-30 4
1,表示位置的统计量—平均值和中位数平均值 (或均值,数学期望),?
n
i
i
X
n
X
1
1
中位数,将数据由小到大排序后位于中间位置的那个数值,
2,表示变异程度的统计量—标准差、方差和极差标准差,
2
1
1
2
])(
1
1
[?
n
i
i
XX
n
s
它是各个数据与均值偏离程度的度量,
方差,标准差的平方,
极差,样本中最大值与最小值之差,
一、统计量
2009-7-30 5
3,表示分布形状的统计量—偏度和峰度偏度,?

n
i
i
XX
s
g
1
3
31
)(
1
峰度,?

n
i
i
XX
s
g
1
4
42
)(
1
偏度反映分布的对称性,g
1
> 0 称为右偏态,此时数据位于均值右边的比位于左边的多; g
1
< 0 称为左偏态,情况相反;而 g
1
接近 0
则可认为分布是对称的,
峰度是分布形状的另一种度量,正态分布的峰度为 3,若 g
2
比 3
大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可用作衡量偏离正态分布的尺度之一,
4,k 阶原点矩,?
n
i
k
ik
X
n
V
1
1
k 阶中心矩,?

n
i
k
ik
XX
n
U
1
)(
1
2009-7-30 6
二、分布函数的近似求法
1,整理资料,把样本值 x 1,x 2,…,x n 进行分组,先将它们依大小次序排列,

**
2
*
1 nxxx,在包含 ],[
**
1 nxx 的区间 [a,b] 内插入一些等分点:
,''2'1 bxxxa n 注意要使每一个区间 ],( ' 1'?ii xx ( i =1,2,…,n - 1 )
内都有样本观测值 x i ( i =1,2,…,n - 1 )落入其中,
2,求出各组的频数和频率,统计出样本观测值在每个区间 ],( ' 1'?ii xx 中出现的次数 in,它就是这区间或这组的频数,计算频率
n
n
f ii?,
3,作频率直方图,在直角坐标系的横轴上,标出
''
2
'
1,,,nxxx? 各点,分别以
],( ' 1'?ii xx 为底边,作高为
'
i
i
x
f
的矩形,1,,2,1,
''
1
'
nixxx iii?,即得频率直方图,
2009-7-30 7
三、几个在统计中常用的概率分布
-4 -2 0 2 4 6
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
1,正态分布 ),( 2smN
密度函数,2
2
2
)(
2
1)( sm
sp

x
exp 分布函数,dyexF
yx
2
2
2
)(
2
1)( sm
sp


其中 m 为均值,2s 为方差, x,
标准正态分布,N( 0,1)
密度函数
2
2
2
1)( xex
p
j
dyex
yx
2
2
2
1)(?

F
p
,分布函数
2009-7-30 8
0 5 10 15 20
0
0,0 2
0,0 4
0,0 6
0,0 8
0,1
0,1 2
0,1 4
0,1 6
2,
2
分布
2
( n )
若随机变量 X
1
,X
2
,… X
n
相互独立,都服从标准正态分布 N ( 0,1 ),则随机变量
Y=
22
2
2
1 n
XXX
服从自由度为 n 的
2
分布,记为 Y~
2
( n ),
Y 的均值为 n,方差为 2n.
2009-7-30 9
3,t 分布 t ( n )
若 X~N ( 0,1 ),Y~
2
( n ),且相互独立,则随机变量
n
Y
X
T?
服从自由度为 n 的 t 分布,记为 T ~t ( n ),
t 分布 t ( 20 )的密度函数曲线和 N ( 0,1 )的曲线形状相似,理论上 n

时,T ~t ( n )
N ( 0,1 ),
-6 -4 -2 0 2 4 6
0
0,0 5
0,1
0,1 5
0,2
0,2 5
0,3
0,3 5
0,4
2009-7-30 10
4,F 分布 F ( n
1
,n
2

若 X~
2
( n
1
),Y~
2
( n
2
),且相互独立,则随机变量
2
1
n
Y
n
X
F?
服从自由度为 ( n
1
,n
2
)的 F 分布,记作 F ~ F ( n
1
,n
2
),
由 F 分布的定义可以得到 F 分布的一个重要性质:
若 F ~ F ( n
1
,n
2
),则
),(~
1
12
nnF
F
0 0,5 1 1,5 2 2,5 3
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
返回
F分布 F( 10,50)的密度函数曲线
2009-7-30 11
无论总体 X 的分布函数 F ( x ;
k
,,,
21
)的类型已知或未知,
我们总是需要去估计某些未知参数或数字特征,这就是参数估计问题,即参数估计就是从样本 ( X
1
,X
2
,…,X
n
)出发,构造一些统计量 (
i
X
1

X
2
,…,X
n
) ( i = 1,2,…,k )去估计总体 X 中的某些参数 (或数字特征)
i
( i = 1,2,…,k ),这样的统计量称为 估计量,
1,点估计,构造 ( X
1
,X
2
,…,X
n
)的函数
(
i
X
1
,X
2
,…,X
n

作为参数 i? 的点估计量,称统计量 i
为总体 X 参数 i? 的点估计量,
2,区间估计,构造两个函数 (1i? X
1
,X
2
,…,X
n
)和 (2i? X
1
,X
2
,…,
X
n
)做成区间,把这 ( 21,ii )作为参数 i? 的区间估计,
2009-7-30 12
一、点估计的求法
(一)矩估计法假设总体分布中共含有 k 个参数,它们往往是一些原点矩或一些原点矩的函数,例如,数学期望是一阶原点矩,
方差是二阶原点矩与一阶原点矩平方之差等,因此,要想估计总体的某些参数
i
( i = 1,2,… k ),由于 k 个参数一定可以表为不超过 k 阶原点矩的函数,很自然就会想到用样本的 r
阶原点矩去估计总体相应的 r 阶原点矩,用样本的一些原点矩的函数去估计总体的相应的一些原点矩的函数,再将 k 个参数反解出来,从而求出各个参数的估计值,这就是矩估计法,
它是最简单的一种参数估计法,
2009-7-30 13
(二)极大似然估计法极大似然法 的想法是,若抽样的结果得到样本观测值 x
1
,x
2
,…,x
n
,则我们应当这样选取参数
i
的值,使 这 组 样 本 观 测 值 出 现 的 可 能 性 最 大,即 构 造 似 然 函 数,
)()()(),,,(),,,(
2211221121 nnnnk
xXPxXPxXPxXxXxXPL
),,(),,(),,,(),,(
1
1
11211 k
n
i
iknkk
xpxpxpxp

使 ),,(
1 k
L 达到最大,从而得到参数
i
的估计值
i
,此估计值叫 极大似然估计值,函数
),,(
1 k
L 称为 似然函数,
求极大似然估计值的问题,就是求似然函数 ),,( 1 kL 的最大值的问题,则
0?
i
L
ki,,2,1
即 0?
i
L n L
ki,,2,1
2009-7-30 14
设总体 X 的分布中含有未知参数?,若对于给定的概率1
( 10 ),存在两个统计量 (
1
X
1
,X
2
,…,X
n
)和 (
2
X
1
,X
2
,…,
X
n
),使得
1)
(
21
P
则称随机区间 ( )
,?
21
为参数? 的置信水平为1 的 置信区间,
1

称为置信下限,2

称为 置信上限,
二、区间估计的求法
2009-7-30 15
设样本 ( X 1,X 2,…,X n )来自正态母体 X,已知方差 2s?DX,
EX 在置信水平 1-? 下的置信区间为 ],[
2
1
2
1 n
uX
n
uX ss

,
1、已知 DX,求 EX的置信区间
2,未知方差 DX,求 EX的置信区间
EX 在置信水平 1-? 下的置信区间为 ],[
2121 n
stX
n
stX
,
(一 )数学期望的置信区间
(二)方差的区间估计
DX 在置信水平 1-? 下的置信区间为 ])1(,)1([ 2
2
2
2
2
1
2

snsn
.
返回
2009-7-30 16
1.参数检验,如果观测的分布函数类型已知,这时构造出的统计量依赖于总体的分布函数,这种检验称为参数检验,
参数检验的目的往往是对总体的参数及其有关性质作出明确的判断,
对总体 X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设,
2.非参数检验,如果所检验的假设并非是对某个参数作出明确的判断,因而必须要求构造出的检验统计量的分布函数不依赖于观测值的分布函数类型,这种检验叫非参数检验,
如要求判断总体分布类型的检验就是非参数检验,
2009-7-30 17
假设检验的一般步骤是,1,根据实际问题提出原假设 H 0 与备择假设 H 1,即说明需要检验的假设的具体内容;
2,选择适当的统计量,并在原假设 H
0
成立的条件下确定该统计量的分布;
3,按问题的具体要求,选取适当的显著性水平?,并根据统计量的分布查表,确定对应于
的临界值,一般
取 0.0 5,0.01 或 0,1 0
4,根据样本观测值计算统计量的观测值,并与临界值进行比较,从而在检验水平
条件下对拒绝或接受原假设 H
0
作出判断,
2009-7-30 18
(一)单个正态总体均值检验一、参数检验设取出一容量为 n 的样本,得到均值 X 和标准差 s,现要对总体均值 m 是否等于某给定值 0m 进行检验,记
00,mm?H ; 01,mm?H
称 H 0 为 原假设,H 1 为 备择假设,两者择其一:接受 H 0 ;拒绝 H 0,
即接受 H 1,
2009-7-30 19
用 u 检验,检验的拒绝域为
}{
2
1
uzW 即 }{
2
1
2
1


uzuzW 或用样本方差 2s 代替总体方差 2s,这种检验叫 t 检验,
总体方差 2s 已知统计量 z=
n
X
s
m
0
总体方差 2s 未知统计量?t
n
s
X
0
m?
H 0 H 1
在显著水平? 下拒绝 H 0,若

0mm?
0mm?
2
1
uz
)1(
2
1

ntt?

0mm?
0mm?
1uz
)1(1 ntt?

0mm?
0mm?
1uz
)1(1 ntt?
1,总体方差 2s 已知
2,总体方差 2s 未知
2009-7-30 20
(二)单个正态总体方差检验设 X 1,X 2,…,X n 是来自正态总体 ),( 2smN 的样本,欲检验假设:
2
0
2
0,ss?H
2
0
2
1,ss?H (或
2
0
2 ss? 或 2
0
2 ss? )
这叫 2? 检验,
均值 m 已知统计量
2
1
2
2
0
2
)(
1
m
s

n
i
i
X
均值 m 未知统计量
2
1
2
2
0
2
)(
1
XX
n
i
i

s
H
0
H
1
在显著水平
下拒绝 H
0
,若

2
0
2
ss?
2
0
2
ss?
)(
2
2
2
n


)(
2
2
1
2
n

)1(
2
2
2
n


)1(
2
2
1
2

n


2
0
2
ss?
2
0
2
ss?
)(
2
1
2
n

)1(
2
1
2

n


2
0
2
ss?
2
0
2
ss?
)(
22
n
)1(
22
n

(三)两个正态总体均值检验构造统计量
2
2
2
1
2
1
nn
YX
z
ss
,1,
21s 与 22s 已知时
2,21s 与 22s 未知但相等时构造统计量
21
2121
2
22
2
11
)2(
)1()1( nn
nnnn
snsn
YXt




方差
2
2
2
1,ss
已知统计量 z
方差
2
2
2
1,ss
未知但相等统计量 t
H 0 H 1
在显著水平? 下拒绝 H 0,若

21 mm?
21 mm?
2
1
uz
)2( 21
2
1

nntt?

21 mm?
21 mm?
1uz
)2( 211 nntt?

21 mm?
21 mm?
1uz
)2( 211 nntt?
(四)两个正态总体方差检验设样本 X 1,X 2,…,X n1 与 Y 1,Y 2,…,Y n2 分别来自正态总体 ),( 211 smN 与
),( 222 smN,检验假设:
22210,ss?H 22211,ss?H (或 2221 ss? 或 2221 ss? )
均值
21,mm
已知统计量
0F
均值
21,mm
未知统计量 F
H
0
H
1
在显著水平
下拒绝 H
0
,若

2
2
2
1 ss?
2
2
2
1 ss?
),( 21
2
1
0 nnFF?

),(
1
12
2
1
0
nnF
F
)1,1( 21
2
1

nnFF?

)1,1(
1
12
2
1

nnF
F

2
2
2
1 ss?
2
2
2
1 ss?
),( 2110 nnFF
)1,1( 211 nnFF?

2
2
2
1 ss?
2
2
2
1 ss?
),(
1
121
0
nnF
F

)1,1(
1
121
nnF
F
2
1
1
2
2
2
1
2
1
1
0
)(1
)(1
n
i
i
n
i
i
Y
n
X
n
F
m
m
,2
2
2
1
s
s
F? (设 2221 ss? )
2009-7-30 23
(一) 皮尔逊
2
拟合检验法二、非参数检验
(二)概率纸检验法概率纸是一种判断总体分布的简便工具,使用它们,可以很快地判断总体分布的类型,概率纸的种类很多,如果一个总体的分布 F ( X )是正态的,则 ( x,F ( x ))点在正态概率纸上应呈一条直线,设 X 1,X 2,…,X n 是从正态总体中抽得的样本观测值,将它们按大小排列后,记作 X ( 1 )? X ( 2 )?
…? X ( n ),则当 n 较大时,样本的经验分布函数 F n ( x )和理论分布 F ( x )很接近,因此,如果用 ( x,F ( x ))画图,则必应近似为一条直线,
返回