2010-5-19 1
数学实验
Experiments in Mathematics
数据的统计描述和分析
实验目的
实验内容
MATLAB
2、掌握用数学软件包求解统计问题。
所用软件
1、直观了解统计基本内容。
1、统计的基本理论。
3、实验作业。
2、用数学软件包求解统计问题。
2010-5-19 3
数据的统计描述和分析
统计的基本理论
统计工具箱中的基本统计命令
实验作业
2010-5-19 4
统计的基本概念
参数估计
假设检验










2010-5-19 5
1, 表示位置的统计量—平均值和中位数
平均值 (或均值,数学期望),?
?
?
n
i
i
X
n
X
1
1
中位数,将数据由小到大排序后位于中间位置的那个数值,
2, 表示变异程度的统计量—标准差、方差和极差
标准差,
2
1
1
2
])(
1
1
[ ?
?
?
?
?
n
i
i
XX
n
s
它是各个数据与均值偏离程度的度量,
方差,标准差的平方,
极差,样本中最大值与最小值之差,
一、统计量
2010-5-19 6
3, 表示分布形状的统计量—偏度和峰度
偏度, ?
?
??
n
i
i
XX
s
g
1
3
31
)(
1
峰度, ?
?
??
n
i
i
XX
s
g
1
4
42
)(
1
偏度反映分布的对称性,g
1
> 0 称为右偏态,此时数据位于均值
右边的比位于左边的多; g
1
< 0 称为左偏态,情况相反;而 g
1
接近 0
则可认为分布是对称的,
峰度是分布形状的另一种度量,正态分布的峰度为 3,若 g
2
比 3
大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数
据,因而峰度可用作衡量偏离正态分布的尺度之一,
4,k 阶原点矩, ?
?
?
n
i
k
ik
X
n
V
1
1
k 阶中心矩, ?
?
??
n
i
k
ik
XX
n
U
1
)(
1
2010-5-19 7
二、分布函数的近似求法
1, 整理资料, 把样本值 x 1, x 2, ?, x n 进行分组,先将它们依大小次序排列,

**
2
*
1 nxxx ??? ?, 在包含 ],[
**
1 nxx 的区间 [a, b] 内插入一些等分点:
,''2'1 bxxxa n ????? ? 注意要使每一个区间 ],( ' 1' ?ii xx ( i =1, 2, ?, n - 1 )
内都有样本观测值 x i ( i =1, 2, ?, n - 1 )落入其中,
2,求出各组的频数和频率,统计出样本观测值在每个区间 ],( ' 1' ?ii xx 中出
现的次数 in,它就是这区间或这组的频数, 计算频率
n
n
f ii ?,
3,作频率直方图,在直角坐标系的横轴上,标出
''
2
'
1,,,nxxx ? 各点,分别以
],( ' 1' ?ii xx 为底边,作高为
'
i
i
x
f
?
的矩形,1,,2,1,
''
1
' ?????
? nixxx iii ?,即得
频率直方图,
2010-5-19 8
三、几个在统计中常用的概率分布
-4 -2 0 2 4 6
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
1,正态分布 ),( 2smN
密度函数,2
2
2
)(
2
1)( sm
sp
??
?
x
exp 分布函数,dyexF
yx
2
2
2
)(
2
1)( sm
sp
??
???
?
其中 m 为均值,2s 为方差,?????? x,
标准正态分布,N( 0,1)
密度函数
2
2
2
1)( xex ??
p
j
dyex
yx
2
2
2
1)( ?
???
?F
p
,分布函数
2010-5-19 9
0 5 10 15 20
0
0, 0 2
0, 0 4
0, 0 6
0, 0 8
0, 1
0, 1 2
0, 1 4
0, 1 6
2,
2
? 分布
2
? ( n )
若随机变量 X
1
,X
2
,? X
n
相互独
立,都服从标准正态分布 N ( 0, 1 ),则随机
变量
Y=
22
2
2
1 n
XXX ??? ?
服从自由度为 n 的
2
? 分布,记为 Y~
2
? ( n ),
Y 的均值为 n,方差为 2n.
2010-5-19 10
3, t 分布 t ( n )
若 X~N ( 0, 1 ),Y~
2
? ( n ),且相互
独立,则随机变量
n
Y
X
T ?
服从自由度为 n 的 t 分布,记为 T ~t ( n ),
t 分布 t ( 20 )的密度函数曲线和 N ( 0, 1 )的
曲线形状相似, 理论上 n
??
时,T ~t ( n )
?
N ( 0, 1 ),
-6 -4 -2 0 2 4 6
0
0, 0 5
0, 1
0, 1 5
0, 2
0, 2 5
0, 3
0, 3 5
0, 4
2010-5-19 11
4,F 分布 F ( n
1
,n
2

若 X~
2
? ( n
1
),Y~
2
? ( n
2
),且相互独立,则随机变量
2
1
n
Y
n
X
F ?
服从自由度为 ( n
1
,n
2
)的 F 分布,记作 F ~ F ( n
1
,n
2
),
由 F 分布的定义可以得到 F 分布
的一个重要性质:
若 F ~ F ( n
1
,n
2
),则
),(~
1
12
nnF
F
0 0,5 1 1,5 2 2,5 3
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
返回
F分布 F( 10,50)的密度函数曲线
2010-5-19 12
无论总体 X 的分布函数 F ( x ;
k
???,,,
21
? )的类型已知或未知,
我们总是需要去估计某些未知参数或数字特征,这就是参数估计问题, 即
参数估计就是从样本 ( X
1
,X
2
,?, X
n
)出发,构造一些统计量 (
?
i
? X
1

X
2
,?, X
n
) ( i = 1, 2, ?, k )去估计总体 X 中的某些参数 (或数字特
征)
i
? ( i = 1, 2, ?, k ), 这样的统计量称为 估计量,
1,点估计,构造 ( X
1
,X
2
,?, X
n
)的函数
(
?
i
?
X
1
,X
2
,?, X
n

作为参数 i? 的点估计量,称统计量 i
?
?
为总体 X 参数 i? 的点估计量,
2,区间估计,构造两个函数 (1i? X
1
,X
2
,?, X
n
)和 (2i? X
1
,X
2
,?,
X
n
)做成区间,把这 ( 21,ii ?? )作为参数 i? 的区间估计,
2010-5-19 13
一、点估计的求法
(一)矩估计法
假设总体分布中共含有 k 个参数,它们往往是一些原
点矩或一些原点矩的函数,例如,数学期望是一阶原点矩,
方差是二阶原点矩与一阶原点矩平方之差等, 因此,要想估计
总体的某些参数
i
? ( i = 1, 2, ? k ),由于 k 个参数一定可以
表为不超过 k 阶原点矩的函数,很自然就会想到用样本的 r
阶原点矩去估计总体相应的 r 阶原点矩,用样本的一些原点
矩的函数去估计总体的相应的一些原点矩的函数,再将 k 个
参数反解出来,从而求出各个参数的估计值, 这就是矩估计法,
它是最简单的一种参数估计法,
2010-5-19 14
(二)极大似然估计法
极大似然法 的想法是, 若抽样的结果得到样本观测值 x
1
,x
2
,?,x
n
,则我们应当这样选取参数
i
? 的值,使 这 组 样 本 观 测 值 出 现 的 可 能 性 最 大, 即 构 造 似 然 函 数,
)()()(),,,(),,,(
2211221121 nnnnk
xXPxXPxXPxXxXxXPL ???????? ??? ???
),,(),,(),,,(),,(
1
1
11211 k
n
i
iknkk
xpxpxpxp ???????? ????? ?
?
??
使 ),,(
1 k
L ?? ? 达到最大,从而得到参数
i
? 的估计值
i
?
?
,此估计值叫 极大似然估计值, 函数
),,(
1 k
L ?? ? 称为 似然函数,
求极大似然估计值的问题,就是求似然函数 ),,( 1 kL ?? ? 的最大值的问题,则
0?
?
?
i
L
?
ki,,2,1 ??
即 0?
?
?
i
L n L
?
ki,,2,1 ??
2010-5-19 15
设总体 X 的分布中含有未知参数 ?,若对于给定的概率 ??1
( 10 ?? ? ),存在两个统计量 (
?
1
? X
1
,X
2
,?, X
n
)和 (
?
2
? X
1
,X
2
,?,
X
n
),使得
???? ???? 1)
??(
21
P
则称随机区间 ( )
?,?
21
?? 为参数 ? 的置信水平为 ??1 的 置信区间,
1
??
称为
置信下限,2
??
称为 置信上限,
二、区间估计的求法
2010-5-19 16
设样本 ( X 1, X 2, ?, X n )来自正态母体 X,已知方差 2s?DX,
EX 在置信水平 1- ? 下的置信区间为 ],[
2
1
2
1 n
uX
n
uX ss ??
??
??,
1、已知 DX,求 EX的置信区间
2,未知方差 DX,求 EX的置信区间
EX 在置信水平 1- ? 下的置信区间为 ],[
2121 n
stX
n
stX
?? ?? ??,
(一 )数学期望的置信区间
(二)方差的区间估计
DX 在置信水平 1- ? 下的置信区间为 ])1(,)1([ 2
2
2
2
2
1
2
?? ??
snsn ??
?
.
返回
2010-5-19 17
1.参数检验,如果观测的分布函数类型已知,这时构造出的
统计量依赖于总体的分布函数,这种检验称为参数检验,
参数检验的目的往往是对总体的参数及其有关性质作出明
确的判断,
对总体 X的分布律或分布参数作某种假设,根据
抽取的样本观察值,运用数理统计的分析方法,检
验这种假设是否正确,从而决定接受假设或拒绝假
设,
2.非参数检验,如果所检验的假设并非是对某个参数作出明
确的判断,因而必须要求构造出的检验统计量的分布函数
不依赖于观测值的分布函数类型,这种检验叫非参数检验,
如要求判断总体分布类型的检验就是非参数检验,
2010-5-19 18
假设检验的一般步骤是,1, 根据实际问题提出原假设 H 0 与备择假设 H 1,即说明需要检验
的假设的具体内容;
2, 选择适当的统计量,并在原假设 H
0
成立的条件下确定该统计量
的分布;
3, 按问题的具体要求,选取适当的显著性水平 ?,并根据统计量
的分布查表,确定对应于
?
的临界值, 一般
?
取 0.0 5,0.01 或 0,1 0
4, 根据样本观测值计算统计量的观测值,并与临界值进行比较,从
而在检验水平
?
条件下对拒绝或接受原假设 H
0
作出判断,
2010-5-19 19
(一)单个正态总体均值检验
一、参数检验
设取出一容量为 n 的样本,得到均值 X 和标准差 s,现要
对总体均值 m 是否等于某给定值 0m 进行检验, 记
00, mm ?H ; 01, mm ?H
称 H 0 为 原假设, H 1 为 备择假设,两者择其一:接受 H 0 ;拒绝 H 0,
即接受 H 1,
2010-5-19 20
用 u 检验,检验的拒绝域为
}{
2
1
?
?
?? uzW 即 }{
2
1
2
1
??
??
???? uzuzW 或
用样本方差 2s 代替总体方差 2s,这种检验叫 t 检验,
总体方差
2
s 已知
统计量 z=
n
X
s
m
0
?
总体方差
2
s 未知
统计量 ?t
n
s
X
0
m?
H
0
H
1
在显著水平
?
下拒绝 H
0
,若
Ⅰ 0mm ? 0mm ?
2
1
?
?
? uz )1(
2
1
??
?
ntt
?

0
mm ?
0
mm ?
??
?
1
uz )1(
1
??
?
ntt
?
Ⅲ 0
mm ?
0
mm ?
??
??
1
uz )1(
1
???
?
ntt
?
1,总体方差 2s 已知
2,总体方差 2s 未知
2010-5-19 21
(二)单个正态总体方差检验
设 X 1, X 2, ?, X n 是来自正态总体 ),( 2smN 的样本,欲检验假设:
2
0
2
0, ss ?H
2
0
2
1, ss ?H (或
2
0
2 ss ? 或 2
0
2 ss ? )
这叫 2? 检验,
均值 m 已知
统计量
2
1
2
2
0
2
)(
1
m
s
? ?? ?
?
n
i
i
X
均值 m 未知
统计量
2
1
2
2
0
2
)(
1
XX
n
i
i
?? ?
?
s
?
H
0
H
1
在显著水平
?
下拒绝 H
0
,若

2
0
2
ss ?
2
0
2
ss ?
)(
2
2
2
n
?
?? ?

)(
2
2
1
2
n
?
??
?
?
)1(
2
2
2
?? n
?
??

)1(
2
2
1
2
??
?
n
?
??

2
0
2
ss ?
2
0
2
ss ?
)(
2
1
2
n
?
??
?
? )1(
2
1
2
??
?
n
?
??

2
0
2
ss ?
2
0
2
ss ?
)(
22
n
?
?? ? )1(
22
?? n
?
??
(三)两个正态总体均值检验
构造统计量
2
2
2
1
2
1
nn
YX
z
ss
?
?
?,1,
21s 与 22s 已知时
2, 21s 与 22s 未知但相等时
构造统计量
21
2121
2
22
2
11
)2(
)1()1( nn
nnnn
snsn
YXt
?
??
???
??

方差
2
2
2
1
,ss 已知
统计量 z
方差
2
2
2
1
,ss 未知但相等
统计量t
H
0
H
1
在显著水平 ? 下拒绝 H
0
,若
Ⅰ 21 mm ? 21 mm ?
2
1
?
?
? uz )2(
21
2
1
???
?
nntt
?
Ⅱ 21
mm ?
21
mm ?
??
?
1
uz )2(
211
???
?
nntt
?
Ⅲ 21
mm ?
21
mm ?
??
??
1
uz )2(
211
????
?
nntt
?
(四)两个正态总体方差检验
设样本 X 1, X 2, ?, X n1 与 Y 1, Y 2, ?, Y n2 分别来自正态总体 ),( 211 smN 与
),( 222 smN,检验假设:
22210, ss ?H 22211, ss ?H (或 2221 ss ? 或 2221 ss ? )
均值
21
,mm 已知
统计量
0
F
均值
21
,mm 未知
统计量 F
H
0
H
1
在显著水平 ? 下拒绝 H
0
,若

2
2
2
1
ss ?
2
2
2
1
ss ?
),(
21
2
1
0
nnFF
?
?
? 或
),(
1
12
2
1
0
nnF
F
?
?
?
)1,1(
21
2
1
???
?
nnFF
?

)1,1(
1
12
2
1
??
?
?
nnF
F
?

2
2
2
1
ss ?
2
2
2
1
ss ?
),(
2110
nnFF
??
? )1,1(
211
???
?
nnFF
?

2
2
2
1
ss ?
2
2
2
1
ss ?
),(
1
121
0
nnF
F
??
?
)1,1(
1
121
??
?
?
nnF
F
?
?
?
?
?
?
?
?
2
1
1
2
2
2
1
2
1
1
0
)(1
)(1
n
i
i
n
i
i
Y
n
X
n
F
m
m
,2
2
2
1
s
s
F ? (设 2221 ss ? )
2010-5-19 24
(一) 皮尔逊
2
? 拟合检验法
二、非参数检验
(二)概率纸检验法
概率纸是一种判断总体分布的简便工具,使用它们,可以很
快地判断总体分布的类型,概率纸的种类很多,如果一个总体的分布 F ( X )是正态的,则 ( x, F ( x ))点
在正态概率纸上应呈一条直线, 设 X 1, X 2, ?,X n 是从正态总体
中抽得的样本观测值,将它们按大小排列后,记作 X ( 1 ) ? X ( 2 ) ?
? ? X ( n ), 则当 n 较大时,样本的经验分布函数 F n ( x )和理论
分布 F ( x )很接近, 因此,如果用 ( x, F ( x ))画图,则必应
近似为一条直线,
返回
2010-5-19 25
统计工具箱中的基本统计命令
1.数据的录入、保存和调用
2.基本统计量
3.常见概率分布的函数
4.频 数 直 方 图 的 描 绘
5.参数估计
6.假设检验
7.综合实例
返回
2010-5-19 26
一、数据的录入、保存和调用
例 1 上海市区社会商品零售总额和全民所有制职工工资总额
的数据如下
年份 78 79 80 81 82 82 84 85 86 87
职工工资总额
(亿元)
23,8 27,6 31,6 32,4 33,7 34,9 43,2 52,8 63,8 73,4
商品零售总额
(亿元)
41,4 51,8 61,7 67,9 68,7 77,5 95,9 137,4 155,0 175,0
统计工具箱中的基本统计命令
2010-5-19 27
1,年份数据以 1为增量,用产生向量的方法输入。
命令格式,x=a:h:b
t=78:87
2,分别以 x和 y代表变量职工工资总额和商品零售总额。
x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4]
y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]
3、将变量 t,x,y的数据保存在文件 data中。
save data t x y
4、进行统计分析时,调用数据文件 data中的数据。
load data
To MATLAB(txy)
2010-5-19 28
1,输入矩阵:
data=[78,79,80,81,82,83,84,85,86,87,88;
23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;
41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]
2、将矩阵 data的数据保存在文件 data1中,save data1 data
3、进行统计分析时,先用命令,load data1
调用数据文件 data1中的数据,再用以下命令分别将矩阵
data的第一、二、三行的数据赋给变量 t,x,y:
t=data(1,:)
x=data(2,:)
y=data(3,:)
若要调用矩阵 data的第 j列的数据,可用命令:
data(:,j)
To MATLAB(data)
返回
2010-5-19 29
二、基本统计量
对随机变量 x,计算其基本统计量的命令如下:
均值,mean(x)
中位数,median(x)
标准差,std(x)
方差,var(x)
偏度,skewness(x)
峰度,kurtosis(x)
例 对例 1中的职工工资总额 x,
可计算上述基本统计量。
To MATLAB(tjl) 返回
2010-5-19 30
三, 常见概率分布的函数
常见的几种分布的命令字符为:
正态分布,norm 指数分布,ex p
帕松分布,poi s s ? 分布,beta
威布尔分布,w ei b
2
? 分布,c hi 2
t 分布,t F 分布,F
Matlab工具箱对每一种分布都提供五类函数,其命令字符为:
概率密度,pdf 概率分布,cdf
逆概率分布,inv 均值与方差,stat
随机数生成,rnd
(当需要一种分布的某一类函数时,将以上所列的分布命令字符
与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)
和参数即可,)
2010-5-19 31
例 2 画出正态分布 )1,0(N 和 )2,0(
2
N 的概率密度函数图形,
在 Matlab中输入以下命令:
x=-6:0.01:6;
y=normpdf(x);
z=normpdf(x,0,2);
plot(x,y,x,z)
1、密度函数, p=normpdf(x,mu,sigma) (当 mu=0,sigma=1时可缺省 )
To MATLAB(liti2)
如对均值为 mu、标准差为 sigma的正态分布,举例如下:
2010-5-19 32
例 3, 计算标准正态分布的概率 P{-1<X<1}.
命令为,P=normcdf(1)- normcdf(-1)
结果为,P = 0, 6 8 2 7To MATLAB(liti3)
3、逆概率分布, x=norminv(P,mu,sigma),即求出 x,使得
P{X<x}=P.此命令可用来求分位数,
2、概率分布, P=normcdf(x,mu,sigma)
例 4 取 05.0??,求
2
1
?
?
u
2
1
?
?
u 的含义是,)1,0(~ NX,P{X<
2
1
?
?
u }=
2
1
?
?
05.0?? 时,P = 0,975,?9 7 5.0u nor m i nv( 0,975 ) = 1, 96
To MATLAB(liti4)
2010-5-19 33
To MATLAB(liti5)
4、均值与方差,[m,v]=normstat(mu,sigma)
例 5 求正态分布 N(3,52)的均值与方差,
命令为,[m,v]=normstat(3,5)
结果为,m=3,v=25
5、随机数生成, normrnd(mu,sigma,m,n).产生 m?n阶的正态
分布随机数矩阵,
例 6 命令,M=normrnd([1 2 3;4 5 6],0.1,2,3)
结果为,M=0.9567 2.0125 2.8854
3.8334 5.0288 6.1191
To MATLAB( liti6)
此命令产生了 2?3的正态分布随机数矩阵,各数分别
服从 N(1,0.12),N(2,22),N(3,32),N(4,0.12),N(5,22),N(6,32)
返回
2010-5-19 34
1,给出数组 data的 频数表 的命令为:
[N,X]=hist(data,k)
此命令将区间 [min(data),max(data)]分为 k个小
区间(缺省为 10),返回数组 data落在每一个小区
间的频数 N和每一个小区间的中点 X.
2、描绘数组 data的 频数直方图 的命令为:
hist(data,k)
四、频 数 直 方 图 的 描 绘
返回
2010-5-19 35
五、参数估计
1,正态总体的参数估计
设总体服从正态分布,则其点估计和区间估计可同时由以下
命令获得:
[muhat,sigmahat,muci,sigmaci] = normfit(X,alpha)
此命令在显著性水平 alpha下估计数据 X的参数( alpha
缺省时设定为 0.05),返回值 muhat是 X的均值的点估计值,
sigmahat是标准差的点估计值,muci是均值的区间估
计,sigmaci是标准差的区间估计,
2010-5-19 36
2、其它分布的参数估计
有两种处理办法,
一,取容量充分大的样本 ( n>50), 按中心极限定理, 它近似地
服从正态分布;
二,使用 Matlab工具箱中具有特定分布总体的估计命令,
( 1) [muhat,muci] = expfit(X,alpha)----- 在显著
性水平 alpha下,求 指数分布的数据 X的 均值的点估计及其区间估
计,
( 2) [lambdahat,lambdaci] = poissfit(X,alpha)-
---- 在显著性水平 alpha下,求 泊松分布的数据 X 的参数的点
估计及其区间估计,
( 3) [phat,pci] = weibfit(X,alpha)----- 在显著性
水平 alpha下,求 Weibull分布的数据 X 的参数的点估计及其区
间估计, 返回
2010-5-19 37
六、假设检验
在总体服从正态分布的情况下,可用以下命令进行假设检验,
1,总体方差 sigma2已知时,总体均值的检验使用 z-检验
[h,sig,ci] = ztest(x,m,sigma,alpha,tail)
检验数据 x 的关于均值的某一假设是否成立,其中 sigma 为
已知方差,alpha 为显著性水平,究竟检验什么假设取决于
tail 的取值:
tail = 0,检验假设,x 的均值等于 m,
tail = 1,检验假设,x 的均值大于 m,
tail =-1,检验假设,x 的均值小于 m,
tail的缺省值为 0,alpha的缺省值为 0.05.
返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0
表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的
1-alpha 置信区间,
2010-5-19 38
例 7 Matlab统计工具箱中的数据文件 gas.mat.中提供了美国 1993年一月份和二
月份的汽油平均价格( price1,price2分别是一,二月份的油价,单位为美分),
它是容量为 20的双样本,假设一月份油价的标准偏差是一加仑四分币( s=4),
试检验一月份油价的均值是否等于 115.
解 作假设,m = 115.
首先取出数据,用以下命令:
load gas
然后用以下命令检验
[h,sig,ci] = ztest(price1,115,4)
返回,h = 0,sig = 0.8668,ci = [113.3970
116.9030].
检验结果, 1,布尔变量 h=0,表示不拒绝零假设, 说明提出的假设均值 115
是合理的,
2,sig-值为 0.8668,远超过 0.5,不能拒绝零假设
3,95%的置信区间为 [113.4,116.9],它完全包括 115,且精度很
高,
.
To MATLAB( liti7)
2010-5-19 39
2,总体方差 sigma2未知时,总体均值的检验使用 t-检验
[h,sig,ci] = ttest(x,m,alpha,tail)
检验数据 x 的关于均值的某一假设是否成立,其中
alpha 为显著性水平,究竟检验什么假设取决于 tail
的取值:
tail = 0,检验假设,x 的均值等于 m,
tail = 1,检验假设,x 的均值大于 m,
tail =-1,检验假设,x 的均值小于 m,
tail的缺省值为 0,alpha的缺省值为 0.05.
返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0
表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的
1-alpha 置信区间,
2010-5-19 40
返回,h = 1,sig = 4.9517e-004,ci =[116.8 120.2].
检验结果, 1,布尔变量 h=1,表示拒绝零假设, 说明提出的假
设油价均值 115是不合理的,
2,95%的置信区间为 [116.8 120.2],它不包括
115,故不能接受假设,
3,sig-值为 4.9517e-004,远小于 0.5,不能接受零
假设,
To MATLAB( liti8)
例 8 试检验例 8中二月份油价 Price2的均值是否等于 115.
解 作假设,m = 115,
price2为二月份的油价,不知其方差,故用以下命令检验
[h,sig,ci] = ttest( price2,115)
2010-5-19 41
3,两总体均值的假设检验 使用 t-检验
[h,sig,ci] = ttest2(x,y,alpha,tail)
检验数据 x, y 的关于均值的某一假设是否成立, 其中
alpha 为显著性水平, 究竟检验什么假设取决于 tail
的取值:
tail = 0,检验假设, x 的均值等于 y 的均值,
tail = 1,检验假设, x 的均值大于 y 的均值,
tail =-1,检验假设, x 的均值小于 y 的均值,
tail的缺省值为 0,alpha的缺省值为 0.05.
返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0
表示不可以拒绝假设,sig 为假设成立的概率,ci 为与 x与 y
均值差的的 1-alpha 置信区间,
2010-5-19 42
返回,h = 1,sig = 0.0083,ci =[-5.8,-0.9].
检验结果,1,布尔变量 h=1,表示拒绝零假设, 说明提出的
假设, 油价均值相同, 是不合理的,
2,95%的置信区间为 [-5.8,-0.9],说明一月份油
价比二月份油价约低 1至 6分,
3,sig-值为 0.0083,远小于 0.5,不能接受, 油价均
相同, 假设,
To MATLAB( liti9)
例 9 试检验例 8中一月份油价 Price1与二月份的油价 Price2均值是否相同,
解 用以下命令检验
[h,sig,ci] = ttest2(price1,price2)
2010-5-19 43
4,非参数检验:总体分布的检验
Matlab工具箱提供了两个对总体分布进行检验的命令,
( 1) h = normplot(x)
( 2) h = weibplot(x)
此命令显示数据矩阵 x的正态概率图,如果数据来自
于正态分布,则图形显示出直线性形态,而其它概率分布
函数显示出曲线形态,
此命令显示数据矩阵 x的 Weibull概率图,如果数据来
自于 Weibull分布,则图形将显示出直线性形态,而其
它概率分布函数将显示出曲线形态,
返回
2010-5-19 44
例 10 一道工序用自动化车床连续加工某种零件, 由于刀具损坏等会出现故障,
故障是完全随机的, 并假定生产任一零件时出现故障机会均相同,工作人员是
通过检查零件来确定工序是否出现故障的,现积累有 100次故障纪录, 故障出现
时该刀具完成的零件数如下:
459 362 624 542 509 584 433 748 815 505
612 452 434 982 640 742 565 706 593 680
926 653 164 487 734 608 428 1153 593 844
527 552 513 781 474 388 824 538 862 659
775 859 755 49 697 515 628 954 771 609
402 960 885 610 292 837 473 677 358 638
699 634 555 570 84 416 606 1062 484 120
447 654 564 339 280 246 687 539 790 581
621 724 531 512 577 496 468 499 544 645
764 558 378 765 666 763 217 715 310 851
试观察该刀具出现故障时完成的零件数属于哪种分布,
2010-5-19 45
解 1、数据输入 To MATLAB( liti101)
2、作频数直方图
hist(x,10)
3、分布的正态性检验
normplot(x)
4、参数估计:
[muhat,sigmahat,muci,sigmaci] = normfit(x)
(看起来刀具寿命服从正态分布)
(刀具寿命近似服从正态分布)
估计出该刀具的均值为 594,方差 204,均值的
0.95置信区间为 [ 553.4962,634.5038],方差的
0.95置信区间为 [ 179.2276,237.1329].
To MATLAB( liti104)
To MATLAB( liti102)
To MATLAB( liti103)
2010-5-19 46
5、假设检验 To MATLAB( liti105)
已知刀具的寿命服从正态分布,现在方差未知
的情况下,检验其均值 m 是否等于 594.
结果,h = 0,sig = 1,ci =[553.4962,634.5038].
检验结果, 1,布尔变量 h=0,表示不拒绝零假设, 说
明提出的假设寿命均值 594是合理的,
2,95%的置信区间为 [553.5,634.5],它
完全包括 594,且精度很高,
3,sig-值为 1,远超过 0.5,不能拒绝零假
设,
返回
2010-5-19 47
1,某校 60名学生的一次考试成绩如下,
93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86
83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70
94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86
73 80 94 79 78 77 63 53 55
1)计算均值、标准差、极差、偏度、峰度,画出直方图;
2)检验分布的正态性;
3)若检验符合正态分布,估计正态分布的参数并检验参数,
2010-5-19 48
2,据说某地汽油的价格是每加仑 115美分, 为了验证这种
说法, 一位学者开车随机选择了一些加油站, 得到某年一
月和二月的数据如下:
一月,119 117 115 116 112 121 115 122 116 118 109 112
119 112 117 113 114 109 109 118
二月,118 119 115 122 118 121 120 122 128 116 120
123 121 119 117 119 128 126 118 125
1) 分别用两个月的数据验证这种说法的可靠性;
2) 分别给出 1月和 2月汽油价格的置信区间;
3)给出 1月和 2月汽油价格差的置信区间,
返回