1
工商管理中的定量分析方法
—— 数据, 模型和决策
同济大学经济与管理学院 孙昌言
2
第二章 参数估计与假设检验
§ 2.1 样本与统计量
一,总体与样本
1.总体 在统计学中,通常将所研究对象的全
体称为总体,而将构成总体的每个单元称为个体。
在实际应用中,人们更关心的是所研究对象的
某个指标 X(如产品的寿命,居民家庭月收入水
平和月生活费支出等),它是一个随机变量。因
而总体通常是指 某个随机变量取值的全体,其每
个个体就对应一个实数。
按总体 X所包含的个体是有限还是无限的,可将
总体分为 有限总体 和 无限总体 两类。
3
2.随机样本
设总体为 X,X1,X2,…,X n 为从总体 X 中抽取
的 n个个体。则称 X1,X2,…,X n 为总体 X的一个 样
本,并称 n为 样本容量 ;其中每个个体 Xi 也是随
机变量,称为 样本的分量 ;所观察到的样本数据
x1,x2…,xn 称为 样本观察值 。
3.简单随机抽样 称满足以下条件的抽样为简单随
机抽样
(1)样本中每一个分量与总体 X具有相同的分布;
(2)样本的各分量相互独立。
并称满足以上条件的样本为一个 简单随机样本,简称 样
本 。以下所称的样本都是指简单随机样本。
用 Excel 确定随机样本
4
二,统计量
1.统计量 设 X1,X2,…,X n 为总体 X 的
一个样本,g(X1,X2,…,Xn)为一连续函数,
若 g中 不含未知参数,则称
g(X1,X2,…,Xn)
为一个 统计量 。
设 x1,x2,…,xn 是一组样本观察值,则称
g(x1,x2,…,xn)是统计量 g(X1,X2,…,Xn)的一
个观察值。
5
2.三个最常用的统计量
(1)样本均值, (*)
(2)样本方差, (*)
(3)样本标准差, (*)
??
?
n
1i
iXn
1X
?
?
?
?
?
n
1i
2
i
2 )X(X
1n
1s
? ???
?
n
1i
2
i )XX(1n
1s
6
课堂练习 1:习题 2.1
以下是取自总体 X 的一组样本观察值,
用计算器求样本均值 和样本方差 S2。
9.0,7.8,8.2,10.5,7.5,8.8
10.0,9.4,8.5,9.5,8.4,9.8
X
7
三,常用统计量的分布
1.设总体 X~ N(?,?2),则
~ N(?,?2/n) (*)
~ N(0,1) (*)
X
nσ /
μX ?
8
2,?2 分布
(1)设总体 X~ N(0,1),X1,X2,…,X n 为
X 的一个样本,称它们的平方和
?2 =
为服从 自由度为 n的 ?2 分布,记为
?2 ~ ?2(n)。
?
?
n
1i
2
iX
9
,自由度”的含义
若对于随机变量 X1,X2,…,X n,存在一组不全
为零的常数 C1,C2,…,Cn,使
C1X1+C2X2 +…+CnXn=0
则称变量 X1,X2,…,X n 线性相关,或称它们间存
在一个线性约束条件;若 X1,X2,…,X n 间存在 k
个独立的线性约束条件,则它们中仅有 n-k 个独
立的变量,并称平方和 的自由度为 n-k。
自由度表示平方和中 独立 随机变量的个数。
?
?
n
1i
2
iX
10
(2)?2 分布密度函数的图形
n=1
n=4
n=10
f (x)
x0
11
(3)?2分布的上侧 100? 百分位点
称满足下式的数 为 ?2(n)分布的上侧 100?
百分位点
P{ ?2 > }= ? (*)
由给定的水平 ?,可查表得到
f(x)
x0
)(2 n??
?
)(2 n??
)(2 n??
)(2 n??
)(2 n??
用 Excel 求 χ2α (n)
12
3.t分布
(1)设 X~ N(0,1),Y~ ?2(n),且 X与 Y相互
独立,则称随机变量
服从 自由度为 n的 t分布,记为 t~ t(n)。
Y / n
Xt ?
13
(2)t 分布密度函数的图形
N(0,1)分布是 t分布的极限分布。当 n 很大
时,t 分布近似于 N(0,1) 分布。
n = ∞,N (0,1)
n = 10
n = 4
n = 1
f (x)
x0
14
(3)t 分布的上侧 100?百分位点 t?(n)
t(n)分布的上恻 100?百分位点 t?(n) 为满足
P{ t > t?(n)}= ? (*)
的实数。由 给定的水平 ?,可查表得到 t?(n)。
由 t 分布的对称性,可由 t1-?(n)=-t?(n)得到
表中未给出的 ?值的 百分位点。
?
0 x
f (x)
?
t1-?(n)= - t?(n) t?(n)
用 Excel 求 tα(n)
15
4,F 分布
(1)设 X~ ?2(n1),Y~ ?2(n2),且 X和 Y相互
独立,则称随机变量
服从自由度为 (n1,n2)的 F 分布,记为
F ~ F(n1,n2)
称 n1 为第一 (分子的 )自由度,n2 为第二 (分
母的 )自由度。
2
1
Y / n
X/ nF ?
16
(2) F 分布密度函数的图形
n1=20,n2=100
f (x)
x0
n1=20,n2=25
n1=20,n2=10
17
(3) F 分布的上侧 100?百分位点 F?(n1,n2)
F 分布的上侧 100?百分位点 F?(n1,n2)为满足
P{ F > F?(n1,n2)}= ? (*)
的实数。
由 F 分布的定义可知,F? (n1,n2)有以下性质,
F1-? (n1,n2)=1/F?(n2,n1)
利用上式可求得 F分布表中未给出的 ?值的百分
位点,如 F0.95(n1,n2),F0.99(n1,n2)等。
?
F?(n1,n2)
f(x)
x0
18
§ 2.2 参数的点估计
一,参数的点估计
设 ?是总体 X分布的未知参数,
是用 X的样本构造的统计量,用 的观察值
去估计未知参数 ? 的真值,称为
对参数 ? 的点估计;并称统计量
为 ?的 估计量 ; 为 ?的 估计值 。
)...(? n21 X,,X,Xθ
θ?
)(? 21 n,.,,,x,xxθ
)(? 21 n,.,,,x,xxθ
)...(? n21 X,,X,Xθ
19
二,点估计的方法
在大多数情况下,待估参数是总体均值
E(X) 和总体方差 D(X)。 样本均值和样本
方差是总体均值 E(X) 和总体方差 D(X) 的
优良估计,即
(*)
(*)
以上的点估计方法称为 数字特征法 。
X(X )E? ?
2S(X )D? ?
20
【 例 1】 寿命均值和方差的估计
设某种元件的寿命 X~ N(?,?2),其中 ?,?2未知,
现随机测得 10个元件的寿命如下 (小时 ),试估计
?和 ?2。
1502,1453,1367,1108,1650
1213,1208,1480,1550,1700
解, = =1423.1
= S2 =196.52
xμ?
2σ?
21
三,估计量的评价标准
1.无偏性
设 为未知参数 ?的估计量,若
E( )= ?
则称 为 ?的无偏估计量,简称 无偏估计 。
不难证明,对任意总体 X,样本均值 和
样本方差 S2 分别是总体均值和总体方差的无偏
估计。
但样本标准差 S= 不是 总体标
准差 ?的无偏估计。
X
? ? 2i )X(X1-n 1
θ?
θ?
θ?
22
2.有效性
设, 是参数 ? 的两个无偏估计,若
D( )<D( ),则称 较 有效 ;对固定的样本容
量 n,若 是 ?的所有无偏估计中方差最小的,则称
是 ?的 最小方差无偏估计,或称为 ?的 有效估计 。
有效性是衡量估计量最重要的标准。
可以证明,对任意总体,样本均值 都是总体
均值 E(X)的有效估计;而对正态总体,样本方差 S2
是总体方差 ?2 的有效估计。
X
1θ? 2θ?
1θ? 2θ? 1θ? 2θ?
θ?
θ?
23
§ 2.3 区间估计
设 ?为总体分布的未知参数,若由样本确定的两
个统计量 和,对给定的值 ?(0<?<1),满足
P{ <?< }=1- ? (*)
则称随机区间 (,)为 ?的 置信度为 1-?的
置信区间 ;并分别称 和 为 ?的 置信下限 和
置信上限 。
1θ? 2θ
?
1θ? 2θ?
1θ? 2θ?
1θ? 2θ?
24
一,正态总体均值 μ 的区间估计
1.σ 2已 知 由
~ N(0,1)
对给定的置信度 1-?,有
P{-Z?/2<Z<Z?/2}=1-?
其中 Z?是标准正态分布的上侧
100?百分位点,即
P{Z>Z?}= ?
由关系
?(Z?)=1- ?
可倒查正态分布表得到。
n
XZ
/?
???
?/2 ?/2
z?/2- z?/2 0
f (x)
x
?
z?0
f (x)
x
1- ?
1-?
25
由此可得
P{ <?< }=1-?
即 ?的置信度为 1-?的 置信区间为
(,)
为方便起见,记 ? 的置信区间为; d = (*)
nZx /2/ ??? nZx /2/ ???
nZx /2/ ??? nZx /2/ ???
),( dxdx ?? nZ /2/ ??
26
2.?2未知
当 ?2未知时,可以证明随机变量
~ t( n-1 )
同理可得 ?的置信度为 1-?的 置信区间为; d = (*)),( dxdx ?? nSnt /)1(
2/ ??
nS
Xt
/
???
27
【 例 2】 求例 1中元件平均寿命 ?的 95%置信区间。
解,由例 1,=1423.1,S=196.5,?=1-0.95=0.05,
?/2=0.025,n=10,查表得 t0.025(9)=2.2622
d =2.2622?196.5/ =140.6
故所求 ?的 95%置信区间为 (1282.5,1563.7)
用 Excel 求解正态总体均值 μ 的置信区间
x
10
28
课堂练习 2:习题 2.4(1)(2)(3)
某车床加工的缸套外径尺寸 X~ N(μ,σ 2),下
面是随机测得的 10个加工后的某种缸套外径尺寸
(mm),用计算器软件求
90.01,90.01,90.02,90.03,89.99
89.98,89.97,90.00,90.01,89.99
(1)求 μ 和 σ 2的无偏估计 ;
(2)若已知 σ 2=0.022(mm2),求 μ 的置信度为
95%的置信区间
(3)若 σ 2未知,求 μ 的置信度为 95%的置信区
间 ;
29
二,正态总体方差 ?2的区间估计
可以证明,随机变量
~ ?2(n-1)
由
可得 ?2的置信度为 1-?
的置信 区间为 (*)
???? ?? ??????? 1)}1()1({ 2 2/22 2/1 nnP
2
2
2 )1(
??
Sn ??
)
)1(
)1(,
)1(
)1((
2
2/1
2
2
2/
2
?
?
?
?
?
n
Sn
n
Sn
?? ??
f(x)
x0
)(2 2/ n??
?/2
)(2 2/1 n?? ?
?/2 1-?
30
【 例 3】 求例 1中元件寿命方差 ?2的 95%置信区间。
解,由例 1,S2=196.52,n=10,?/2=0.025,
1-?/2=0.975,=19.023,
=2.700
(n-1)S2/ =9?196.52/19.023=18265
(n-1)S2/ =9?196.52/2.7=128690
故所求 ?2的 置信区间为 (18265,128690)。
)9(2 0 2 5.0?
)9(2 9 7 5.0?
)9(2 0 2 5.0?
)9(2 9 7 5.0?
31
课堂练习 3:习题 4(4)
(4)求 σ 2的置信度为 95%的置信区 。
32
三,单侧置信限的估计
【 例 4】 (1)求例 1中元件平均寿命的 95%置信下限。
(2)寿命方差的 95%置信上限。
解,(1)由
可解得 ?的 1-?置信下限为
(*)
本例中,t0.05(9)=1.8331,故所求置信下限为
1423.1-1.8331?196.5/ =1309.2
该元件平均寿命大于 1309.2小时的可信度为 95%。
?? ? ????? 1)}1(/){( ntSnXP
nSntX /)1( ?? ?
10
33
解 (2),?2 的 置信上限
同样可得 ?2的置信度为 1-?的置信上限为
(*)
本例中,=3.325,故所求 ?2的 95%置信
上限为
9?196.52/3.325=104514(小时 2)
由以上分析可知,求单侧置信限与求双侧置信
限的差别仅在于用相应分布的上侧 100?百分位点
代替双侧区间估计公式中的上侧 100?/2百分位点。
)1(
)1(
2
1
2
?
?
?
n
Sn
? ?
)9(2 95.0?
34
案例 1.新工艺是否有效?
某厂生产的一种钢丝抗拉强度服从均值
为 10560 (kg/cm2)的正态分布,现采用新工
艺生产了一种新钢丝,随机抽取 10根测得
抗拉强度为:
10512,10623,10668,10554,10776
10707,10557,10581,10666,10670
问新钢丝的平均抗拉强度比原钢丝是否
有显著提高?
35
案例 2.机床工作是否正常?
某台加工缸套外径的机床, 正常状态
下 所 加工 缸套 外 径的 标准 差不 超 过
0.02mm,现从所生产的缸套中随机抽取 9
个,测得外径的样本标准差为 S=0.03mm。
问:该机床工作是否正常?
36
案例 3.两种轿车质量有无差异?
设新车的首次故障里程数服从正态分布,现测
得甲、乙两种品牌轿车的首次故障里程数数据如
下:
甲品牌 X1,1200,1400,1580,1700,1900
乙品牌 X2,1100,1300,1800,1800,2000,2400
问:
(1)两种轿车的平均首次故障里程数之间有无
显著无差异?
(2)乙品牌轿车的平均首次故障里程是否显著
高于甲品牌?
37
案例 4.哪种安眠药的疗效好?
为分析甲、乙两种安眠药的效果,某医院将 20个失眠
病人分成两组,每组 10人,两组病人分别服用 A,B两种
安眠药作对比试验。试验结果如下:
两种安眠药延长睡眠时间对比试验 (小时 )
(1)两种安眠药的疗效有无显著差异?
(1)如果将试验方法改为对同一组 10个病人,每人分别
服用甲、乙两种安眠药作对比试验,试验结果仍如上表,
此时 两种安眠药的疗效间有无显著差异?
病人
安眠药
1 2 3 4 5 6 7 8 9 1 0
甲 1.9 0,8 1.1 0.1 – 0,1 4,4 5,5 1,6 4,6 3,4
乙 0.7 – 1,6 – 0.2 – 1.2 – 0,1 3,4 3,7 0,8 0,0 2,0
38
§ 2.4 假设检验
一,假设检验的基本原理和步骤
例 5,统计资料表明,某电子元件的寿命
X~ N(?0,?2 ),其中 ?0,?2 都已知。现采
用了新工艺生产,测得新工艺生产的 n个元
件寿命为 x1,x2,…,xn,问:
新工艺生产的该元件的期望寿命 ?是否比
原工艺的元件期望寿命 ?0有显著提高?
此问题要推断的是:是否 ?>?0?
这可用假设检验的方法解决,步骤如下:
39
1.提出一个希望推翻的假设,称为原假设,记为 H0
本例中 H0,? =?0
2.再按检验者希望出现的结果提出一个与原假设
H0对立的假设,称为备择假设,记为 H1。
本例中 H1,? >?0
3.构造一个能用来检验原假设 H0的统计量
本例中,由于要检验的是总体均值 ?,而 是 ?
的优良估计,故应使用 来构造检验 ?的如下统计
量。当 H0为真时,统计量
Z= ~ N(0,1)
X
X
n/σ
μX 0?
40
4.给定一个小概率 ?,称为显著性水平 (简称水平 )
显著性水平 ?是当 H0为真时,拒绝 H0的概率 (即犯
,弃真,错误的概率 )。也即当拒绝 H0时,说明能
有 1-?的可信度接受备择假设 H1。
5.确定要拒绝 H0时统计量的取值范围,称为 拒绝
域, 拒绝域的边界点称为 临界值 。
本例中,由于 H1,?>?0(右边检验 ),而当 H0
为真时,有
P{ Z>z? }= ?
故拒绝域为 Z>z?,临界值为 z?。
41
6.根据统计量的计算结果,作出检验结论
本例中,若 Z > z?,则拒绝 H0,接受 H1。
否则不能拒绝 H0,即认为 ?和 ?0无显著差异。
当拒绝 H0时,说明在给定的水平 ?下,?
和 ?0间存在显著差异。这也就是称 ?为显著
性水平的原因。
?
z?0
f (x)
x
右边检验的拒绝域
42
二,检验中可能犯的两类错误
设 Z为检验原假设 H0所用的统计量,C为检验的临界值,
由显著性水平 ?的定义 (右边检验 )
P{ Z>C | H0 为真 }= ?
检验中可能出现的错误判断有以下两类:
第一类错误 — 当 H0为真时拒绝 H0的错误,即,弃真,
错误,犯该类错误的概率为 ?。
第二类错误 — 当 H0不真时接受 H0的错误,即,取伪,
错误,记犯该类错误的概率为 ?,即
P{ Z≤C | H0 不真 } =?
∵ H0不真时统计量 Z的分布与 H0为真时的分布是不同
的,故 β ≠1 -?。
43
两类错误的关系
由图可知,减少 ?会增大 ?,也即在样本容量 n
不变时,不可能同时减小犯两类错误的概率。由
于通常总是将希望出现的结果作为备择假设 H1,
为使拒绝 H0(接受 H1)有较高的可信度,故总是控制
犯第一错误的概率 ?(通常 取 0.05,0.01等 )。要同
时减小须犯两类错误的概率,必须增大样本容量
n。
?
Cμ0
H0,μ=μ0
x
β
H1,μ=μ1
μ1
44
三,单个正态总体均值的检验
设 X~ N(?,?2 ),X1,X2,…,Xn为总体 X的样本,
给定水平 ?,原假设为 H0,?=?0。
1.?2 已知 (Z检验 ) 则当 H0为真时,统计量
Z= ~ N(0,1) (*)
(1)H1,?≠ ?0 (双边检验 ) 当 H0为真时,由
P{|Z|>z?/2}=?
可得:若 |Z|>z?/2 (*)
就拒绝 H0,接受 H1;
否则接受 H0。
n/σ
μX 0?
?/2 ?/2
z?/2- z?/2 0
f (x)
x
45
(2)H1,?>?0 (右边检验)
当 H0为真时,由
P{ Z>z? }=?
可得,若 Z>z? (*)
就拒绝 H0,接受 H1;否则不能
接受 H1。
(3) H1,?<?0 (左边检验 ),
由
P{ Z<-z? }=?
可得:若 Z<-z? (*)
就拒绝 H0,接受 H1;否则不能
接受 H1。
?
z?0
f (x)
x
右边检验的拒绝域
?
-z? 0
f (x)
x
左边检验的拒绝域
46
2.?2 未知 (t检验 )
由于 ?2 未知,用样本标准差 S 代替 Z 统计量中
的 ?,则当 H0为真时,统计量
~ t(n-1)
与 ?2已知时的分析完全类似地,有如下检验方法:
(*)
nS
Xt
/
0???
统计量 备择假设 拒绝域
μ ≠ μ 0 |t|>t α /2 (n -1 )
μ > μ 0 t >t α (n-1)
μ < μ 0 t<-t α (n-1)
nS
Xt
/
0???
47
案例 1.检验新工艺的效果
某厂生产的一种钢丝抗拉强度服从均值
为 10560(kg/cm2)的正态分布,现采用新工
艺生产了一种新钢丝,随机抽取 10根测得
抗拉强度为:
10512,10623,10668,10554,10776
10707,10557,10581,10666,10670
问在显著性水平 ?=0.05下,新钢丝的平均
抗拉强度比原钢丝是否有显著提高?
48
案例 1解答:显然,本案例为右边检验问题
设新钢丝的平均抗拉强度为 ?,且 ?2未知,
故使用 t 检验。由题意,
H0,?=?0,H1,?>?0
可求得,=10631.4,S=81,n =10,
?=0.05,t0.05(9)=1.8331
∵ t =2.7875 > t0.05(9)=1.8331
∴ 拒绝 H0,在水平 ?=0.05下,?显著高于 ?0。
7875.2
10/81
1 0 5 6 04.1 0 6 3 1
/
0 ?????
nS
xt ?
x
49
在案例 1中,若取 ?= 0.01,问结论如何?
【 解 】 ∵ t =2.7875 < t0.01(9) = 2.8214,
∴ 不能拒绝 H0。即:在水平 ?=0.01下,新钢
丝平均抗拉强度并无显著提高。
通常,在 ?=0.05下拒绝 H0,则称检验结果
为一般显著的。
若在 ?=0.01下拒绝 H0,则称检验结果为
高度显著的。
50
课堂练习 4:习题 2.9(1)
一台自动包装奶粉的包装机, 其额定标准为每
袋净重 0.5kg,设该包装机所包装奶粉的重量服从
正态分布 。 该包装机包装的精度指标为方差
σ 2=0.0052。 某天开工时, 随机抽取了 10袋产品,
称得其净重为:
0.497,0.506,0.509,0.508,0.497
0.510,0.506,0.495,0.502,0.507
(1)在水平 α =0.20下, 检验该天包装机的重量设
定是否正确?
51
四,单个正态总体方差的检验 ( ? 2 检验 )
设 H0,?2= ?02,则当 H0:真时,统计量
~ ? 2(n-1)
与前面分析完全类似地,有如下检验方法:
(*)
?? 20
22 )1( Sn ?
?
?? 20
22 )1( Sn ?
?
统计量 备择假设 拒绝域
χ
2
> χ
2
α /2
(n- 1 )
σ
2
= σ
0
2
或 χ
2
< χ
2
1 - α /2
( n-1 )
σ
2
> σ
0
2
χ
2
> χ
2
α
(n-1)
σ
2
< σ
0
2
χ
2
< χ
2
1 - α
(n-1)
52
f (x)
x0
)(2 2/ n??
?/2
)(2 2/1 n?? ?
?/2 1-?
双边检验f (x)
x0
)(21 n?? ?
? 1-?
左边检验
f (x)
x0
)(2 n??
?
1-?
右边检验
卡方检验的拒绝域
53
案例 2.机床加工精度问题
某台加工缸套外径的机床,正常状态下所加工
缸套外径的标准差不超过 0.02mm,现从所生产的
缸套中随机抽取 9个,测得外径的样本标准差为
S=0.03mm。问:在水平 α =0.05下,该机床工作是
否正常?
解,由题意,H0,?2=?02,H1,?2>?02,
∵
∴ 拒绝 H0,接受 H1,即该机床工作不正常。
50715)8(18020 0308)1( 2
0502
2
2
0
22
..,Sn
.
??????? ???
54
课堂练习 5:习题 2.9(2)
一台自动包装奶粉的包装机,其额定标准为每
袋净重 0.5kg,设该包装机所包装奶粉的重量服从
正态分布。该包装机包装的精度指标为方差
σ 2=0.0052。 某天开工时,随机抽取了 10袋产品,
称得其净重为:
0.497,0.506,0.509,0.508,0.497
0.510,0.506,0.495,0.502,0.507
(2)在水平 α =0.25下,检验该天包装机的包装精
度是否符合原指标?
55
五,两个正态总体均值的检验
设总体 X1~ N(?1,?12),X2~ N(?2,?22),且 X1和 X2相
互独立,,和 S12,S22分别是它们的样本的均值和样本
方差,样本容量分别为 n1和 n2,原假设为 H0,?1=?2 。
1.?12,?22 都已知 (Z检验) 由
~ N(0,1)
知,当 H0为真时,统计量
由此可得以下检验方法。
1X 2X
n/n/
XXZ
21
2
2
2
1
21
21 )()(
??
??
?
???
?
n/n/
XXZ
21
2
2
2
1
21
?? ?
?? ~ N (0,1)
56
?12,?22 已知时两个正态总体均值的 Z检验方法
统计量 备择假设 拒绝域
μ 1 ≠ μ 2 |Z|>z α /2
μ 1 > μ 2 Z >z α
μ 1 < μ 2 Z<-z α
n/n/
XXZ
21
2
2
2
1
21
?? ?
??
57
2,?12=?22=?2,但 ?2未知 (t检验 )
可以证明,当 H0为真时,统计量
~ t(n1+n2-2)
其中 (*)
完全类似地,可以得到如下检验方法。 (*)
2
)1()1(
21
2
22
2
112
??
????
nn
SnSnS
?
统计量 备择假设 拒绝域
μ
1
≠ μ
2
|t|>t
α /2
(n
1
+n
2
-2)
μ
1
> μ
2
t>t
α
(n
1
+n
2
-2)
μ
1
< μ
2
t<-t
α
(n
1
+n
2
-2)
nnSt ω
XX
21
21
/1/1 ?
??
nnSt ω
XX
21
21
/1/1 ?
??
58
案例 3.轿车质量差异的检验
设新车的首次故障里程数服从正态分布,现测
得甲,乙两种品牌轿车的首次故障里程数数据如
下:
甲品牌 X1,1200,1400,1580,1700,1900
乙品牌 X2,1100,1300,1800,1800,2000,2400
设 X1和 X2的方差相同 。问在水平 ?= 0.05下,
(1)两种轿车的平均首次故障里程数之间有无
显著差异?
(2)乙品牌轿车的平均首次故障里程是否比甲
品牌有显著提高?
59
解,?12=?22=?2未知,n1=5,n2=6,H0,?1=?2
(1)双边检验问题 H1,?1≠ ?2,由所给数据,可得
=1556,=1733,S12=269.62,S22=471.92
∵| t|=0.74 < t0.025(9)=2.2622
故两种轿车的首次故障里程间无显著差异。
5.1 5 6 0 2 09 9.4 7 156.2 6 942 )1()1(
22
21
2
22
2
112 ?????
??
????
nn
nn ssS
?
3955.1 5 6 0 2 0 ???S
74.06/15/1395 |17331556|/1/1 ||||
21
21 ?
?
??
?
??
nnS
xxt
?
1x 2x
60
(2)左边检验 H1,?1< ?2
∵ t = - 0.74 > -t0.05(9)= -1.833
故乙品牌轿车首次故障里程并不显著高于甲品
牌。
用 Excel 求解本案例:
61
案例 4.哪种安眠药的疗效好?
为分析甲、乙两种安眠药的效果,某医院将 20个失眠
病人分成两组,每组 10人,两组病人分别服用甲、乙两
种安眠药作对比试验。试验结果如下:
两种安眠药延长睡眠时间对比试验 (小时 )
(1)两种安眠药的疗效有无显著差异?
(2)如果将试验方法改为对同一组 10个病人,每人分别
服用甲、乙两种安眠药作对比试验,试验结果仍如上表,
此时 两种安眠药的疗效间有无差异?
病人
安眠药
1 2 3 4 5 6 7 8 9 10
甲 1.9 0,8 1,1 0.1 – 0.1 4.4 5.5 1,6 4,6 3,4
乙 0.7 – 1,6 – 0,2 – 1.2 – 0.1 3.4 3.7 0,8 0,0 2,0
62
案例 4解答 (1)
(1)设服用甲、乙两种安眠药的延长睡眠时间分别为 X1、
X2,X1~ N(?1,?2),X2~ N(?2,?2)。由试验方法知,X1、
X2独立。 H0,?1=?2,H1,?1≠ ?2,n1 = n2 =10。由表中所给数
据,可求得:
,S12=2.0022,, S22=1.7892
,
两种安眠药的疗效间无显著差异。
用 Excel 求解本案例
33.21 ?x 75.02 ?x
6 0 4 3.318 7 8 9.190 0 2.29
222
?????S ? 8 9 8 5.1??S
1009.2)18(8609.110/110/18985.1 75.033.12|| 025.0 ?????? tt
63
案例 4解答 (2)
(2)由于此时 X1,X2为同一组病人分别服用两种安眠药
的疗效,X1,X2 因此不独立。对于这类,配对样本试验,
的均值检验,应当化为单个正态总体的均值检验。方法
如下:
设 X为病人服用甲,乙两种安眠药的延长睡眠时间之
差,则 X~ N(?,?2)。 H0,?=0,H1,?≠0。
由表中所给数据,可求得
,S =1.23,n =10
两种安眠药的疗效间存在高度显著差异!
58.1?x
2498.3)9(0621.410/23.1 058.1|| 00 5.0 ????? tt
用 Excel 求解
64
3,?12≠ ?22且 未知
则在大样本条件下,当 H0为真时,统计量
近似~ N(0,1)
完全类似地,可以得到如下检验方法。
nnZ /S/S
XX
21
2
2
2
1
21*
?
??
统计量 备择假设 拒绝域
μ 1 ≠ μ 2 |Z
*
|>z α /2
μ 1 > μ 2 Z
*
>z α
μ 1 < μ 2 Z
*
<-z α
nnZ /S/S
XX
21
2
2
2
1
21*
?
??
65
两正态总体方差的检验 ( F检验 )
原假设为 H0,?12=?22,当 H0为真时,统计量
~ F(n1-1,n2-1)
完全类似地,可以得到如下检验方法 (*)。
S
SF
2
2
2
1?
统计量 备择假设 拒绝域
F>F
α /2
(n
1
-1,n
2
-1) 或
σ
1
2
≠ σ
2
2
F< F
1- α /2
(n
1
-1,n
2
-1)
σ
1
2
> σ
2
2
F>F
α
(n
1
-1,n
2
-1)
S
SF
2
2
2
1?
66
【 例 6】 在 ?= 0.20下,检验案例 3中两个正态总体
的方差是否存在显著差异 (,方差齐次”检验 )
解,∵ 我们希望出现的结论是无显著性差异,因此 ?
不能取得太小,否则犯第二类错误 (,取伪” )的概率 β
将较大,所得到的“无显著性差异”的可信度就不高。
由题意,H0,?12=?22,H1,?12≠ ?22,n1=5,n2=6,
由例 5的计算结果,S12=269.62,S22=471.92
F0.1(4,5)=3.52,
F1-0.1(4,5)=1/F0.1(5,4)=1/4.05=0.247
∵F 1-0.1(4,5)=0.247<F=0.326<F0.1(4,5)=3.52
∴ 在水平 ?= 0.20下 ?12与 ?22 间无显著差异。因而可知
案例 3中关于 ?12=?22 的假定是合理的。
3 2 6.09.4 7 1 6.2 6 9 2
2
2
2
2
1 ???
S
SF 用 Excel求解
67
下课
68
课堂练习 1:习题 2.1答案
由所给数据,可求得:
,S2=0.91702=0.8409958,x ?
69
习题 4(1)(2)(3)解答
(1) 由所给数据,可求得
,
(2)
(1.96)
故 μ的 95%置信区间为
(3)
(2.2622)
μ的 95%置信区间为
0 0 1.90? ?? x? 222 0 1 8 5 3.0? ?? S?
0 1 2 4.010/02.0/ 0 2 5.02/ ???? ZnZd ??
9 0, 0 1 3 4 ) ( 8 9, 9 8 8 6,)( ??? dxd,x
0 1 3 3.010/0 1 8 5 3.0)9(/)1( 0 2 5.02/ ????? tnSntd ?
9 0, 0 1 4 3 ) ( 8 9, 9 87 7,d)x d,x( ???
70
课堂练习 3:习题 4(4)解答
故 ?2的 95%置信区间为 (0.00016,0.00114)
023.19)9()1( 2 0 2 5.02 2/ ??? ?? ? n
7.2)9()1( 2 975.02 2/1 ???? ?? ? n
0 0 0 1 6.00 2 3.19/0 1 8 5 3.09)9(/)1( 22 0 2 5.02 ???? ?Sn
0 0 1 1 4.07.2/0 1 8 5 3.09)9(/)1( 22 9 7 5.02 ???? ?Sn
71
习题 2.9(1)解答
由所给数据,可求得, S=0.00554
(1)H0,?=0.5,H1,?≠0.5,?=0.20,?/2=0.10
∵
拒绝 H0,包装机重量设定不正确。
5037.0?x
3830.1)9(112.210/005544.0 5.05037.0/ 10.00 ??????? tnSxt ?
72
课堂练习 5:习题 2.9(2)解答
(2) H0,?2=0.0052,H1,?2>0.0052,?=0.025
∵
不能拒绝 H0,包装机精度符合原指标。
3 89.11)9(0 49.110 05.0 0 05 54.09)1( 2 25.02
2
2
0
2
2 ??????? ?
??
Sn
工商管理中的定量分析方法
—— 数据, 模型和决策
同济大学经济与管理学院 孙昌言
2
第二章 参数估计与假设检验
§ 2.1 样本与统计量
一,总体与样本
1.总体 在统计学中,通常将所研究对象的全
体称为总体,而将构成总体的每个单元称为个体。
在实际应用中,人们更关心的是所研究对象的
某个指标 X(如产品的寿命,居民家庭月收入水
平和月生活费支出等),它是一个随机变量。因
而总体通常是指 某个随机变量取值的全体,其每
个个体就对应一个实数。
按总体 X所包含的个体是有限还是无限的,可将
总体分为 有限总体 和 无限总体 两类。
3
2.随机样本
设总体为 X,X1,X2,…,X n 为从总体 X 中抽取
的 n个个体。则称 X1,X2,…,X n 为总体 X的一个 样
本,并称 n为 样本容量 ;其中每个个体 Xi 也是随
机变量,称为 样本的分量 ;所观察到的样本数据
x1,x2…,xn 称为 样本观察值 。
3.简单随机抽样 称满足以下条件的抽样为简单随
机抽样
(1)样本中每一个分量与总体 X具有相同的分布;
(2)样本的各分量相互独立。
并称满足以上条件的样本为一个 简单随机样本,简称 样
本 。以下所称的样本都是指简单随机样本。
用 Excel 确定随机样本
4
二,统计量
1.统计量 设 X1,X2,…,X n 为总体 X 的
一个样本,g(X1,X2,…,Xn)为一连续函数,
若 g中 不含未知参数,则称
g(X1,X2,…,Xn)
为一个 统计量 。
设 x1,x2,…,xn 是一组样本观察值,则称
g(x1,x2,…,xn)是统计量 g(X1,X2,…,Xn)的一
个观察值。
5
2.三个最常用的统计量
(1)样本均值, (*)
(2)样本方差, (*)
(3)样本标准差, (*)
??
?
n
1i
iXn
1X
?
?
?
?
?
n
1i
2
i
2 )X(X
1n
1s
? ???
?
n
1i
2
i )XX(1n
1s
6
课堂练习 1:习题 2.1
以下是取自总体 X 的一组样本观察值,
用计算器求样本均值 和样本方差 S2。
9.0,7.8,8.2,10.5,7.5,8.8
10.0,9.4,8.5,9.5,8.4,9.8
X
7
三,常用统计量的分布
1.设总体 X~ N(?,?2),则
~ N(?,?2/n) (*)
~ N(0,1) (*)
X
nσ /
μX ?
8
2,?2 分布
(1)设总体 X~ N(0,1),X1,X2,…,X n 为
X 的一个样本,称它们的平方和
?2 =
为服从 自由度为 n的 ?2 分布,记为
?2 ~ ?2(n)。
?
?
n
1i
2
iX
9
,自由度”的含义
若对于随机变量 X1,X2,…,X n,存在一组不全
为零的常数 C1,C2,…,Cn,使
C1X1+C2X2 +…+CnXn=0
则称变量 X1,X2,…,X n 线性相关,或称它们间存
在一个线性约束条件;若 X1,X2,…,X n 间存在 k
个独立的线性约束条件,则它们中仅有 n-k 个独
立的变量,并称平方和 的自由度为 n-k。
自由度表示平方和中 独立 随机变量的个数。
?
?
n
1i
2
iX
10
(2)?2 分布密度函数的图形
n=1
n=4
n=10
f (x)
x0
11
(3)?2分布的上侧 100? 百分位点
称满足下式的数 为 ?2(n)分布的上侧 100?
百分位点
P{ ?2 > }= ? (*)
由给定的水平 ?,可查表得到
f(x)
x0
)(2 n??
?
)(2 n??
)(2 n??
)(2 n??
)(2 n??
用 Excel 求 χ2α (n)
12
3.t分布
(1)设 X~ N(0,1),Y~ ?2(n),且 X与 Y相互
独立,则称随机变量
服从 自由度为 n的 t分布,记为 t~ t(n)。
Y / n
Xt ?
13
(2)t 分布密度函数的图形
N(0,1)分布是 t分布的极限分布。当 n 很大
时,t 分布近似于 N(0,1) 分布。
n = ∞,N (0,1)
n = 10
n = 4
n = 1
f (x)
x0
14
(3)t 分布的上侧 100?百分位点 t?(n)
t(n)分布的上恻 100?百分位点 t?(n) 为满足
P{ t > t?(n)}= ? (*)
的实数。由 给定的水平 ?,可查表得到 t?(n)。
由 t 分布的对称性,可由 t1-?(n)=-t?(n)得到
表中未给出的 ?值的 百分位点。
?
0 x
f (x)
?
t1-?(n)= - t?(n) t?(n)
用 Excel 求 tα(n)
15
4,F 分布
(1)设 X~ ?2(n1),Y~ ?2(n2),且 X和 Y相互
独立,则称随机变量
服从自由度为 (n1,n2)的 F 分布,记为
F ~ F(n1,n2)
称 n1 为第一 (分子的 )自由度,n2 为第二 (分
母的 )自由度。
2
1
Y / n
X/ nF ?
16
(2) F 分布密度函数的图形
n1=20,n2=100
f (x)
x0
n1=20,n2=25
n1=20,n2=10
17
(3) F 分布的上侧 100?百分位点 F?(n1,n2)
F 分布的上侧 100?百分位点 F?(n1,n2)为满足
P{ F > F?(n1,n2)}= ? (*)
的实数。
由 F 分布的定义可知,F? (n1,n2)有以下性质,
F1-? (n1,n2)=1/F?(n2,n1)
利用上式可求得 F分布表中未给出的 ?值的百分
位点,如 F0.95(n1,n2),F0.99(n1,n2)等。
?
F?(n1,n2)
f(x)
x0
18
§ 2.2 参数的点估计
一,参数的点估计
设 ?是总体 X分布的未知参数,
是用 X的样本构造的统计量,用 的观察值
去估计未知参数 ? 的真值,称为
对参数 ? 的点估计;并称统计量
为 ?的 估计量 ; 为 ?的 估计值 。
)...(? n21 X,,X,Xθ
θ?
)(? 21 n,.,,,x,xxθ
)(? 21 n,.,,,x,xxθ
)...(? n21 X,,X,Xθ
19
二,点估计的方法
在大多数情况下,待估参数是总体均值
E(X) 和总体方差 D(X)。 样本均值和样本
方差是总体均值 E(X) 和总体方差 D(X) 的
优良估计,即
(*)
(*)
以上的点估计方法称为 数字特征法 。
X(X )E? ?
2S(X )D? ?
20
【 例 1】 寿命均值和方差的估计
设某种元件的寿命 X~ N(?,?2),其中 ?,?2未知,
现随机测得 10个元件的寿命如下 (小时 ),试估计
?和 ?2。
1502,1453,1367,1108,1650
1213,1208,1480,1550,1700
解, = =1423.1
= S2 =196.52
xμ?
2σ?
21
三,估计量的评价标准
1.无偏性
设 为未知参数 ?的估计量,若
E( )= ?
则称 为 ?的无偏估计量,简称 无偏估计 。
不难证明,对任意总体 X,样本均值 和
样本方差 S2 分别是总体均值和总体方差的无偏
估计。
但样本标准差 S= 不是 总体标
准差 ?的无偏估计。
X
? ? 2i )X(X1-n 1
θ?
θ?
θ?
22
2.有效性
设, 是参数 ? 的两个无偏估计,若
D( )<D( ),则称 较 有效 ;对固定的样本容
量 n,若 是 ?的所有无偏估计中方差最小的,则称
是 ?的 最小方差无偏估计,或称为 ?的 有效估计 。
有效性是衡量估计量最重要的标准。
可以证明,对任意总体,样本均值 都是总体
均值 E(X)的有效估计;而对正态总体,样本方差 S2
是总体方差 ?2 的有效估计。
X
1θ? 2θ?
1θ? 2θ? 1θ? 2θ?
θ?
θ?
23
§ 2.3 区间估计
设 ?为总体分布的未知参数,若由样本确定的两
个统计量 和,对给定的值 ?(0<?<1),满足
P{ <?< }=1- ? (*)
则称随机区间 (,)为 ?的 置信度为 1-?的
置信区间 ;并分别称 和 为 ?的 置信下限 和
置信上限 。
1θ? 2θ
?
1θ? 2θ?
1θ? 2θ?
1θ? 2θ?
24
一,正态总体均值 μ 的区间估计
1.σ 2已 知 由
~ N(0,1)
对给定的置信度 1-?,有
P{-Z?/2<Z<Z?/2}=1-?
其中 Z?是标准正态分布的上侧
100?百分位点,即
P{Z>Z?}= ?
由关系
?(Z?)=1- ?
可倒查正态分布表得到。
n
XZ
/?
???
?/2 ?/2
z?/2- z?/2 0
f (x)
x
?
z?0
f (x)
x
1- ?
1-?
25
由此可得
P{ <?< }=1-?
即 ?的置信度为 1-?的 置信区间为
(,)
为方便起见,记 ? 的置信区间为; d = (*)
nZx /2/ ??? nZx /2/ ???
nZx /2/ ??? nZx /2/ ???
),( dxdx ?? nZ /2/ ??
26
2.?2未知
当 ?2未知时,可以证明随机变量
~ t( n-1 )
同理可得 ?的置信度为 1-?的 置信区间为; d = (*)),( dxdx ?? nSnt /)1(
2/ ??
nS
Xt
/
???
27
【 例 2】 求例 1中元件平均寿命 ?的 95%置信区间。
解,由例 1,=1423.1,S=196.5,?=1-0.95=0.05,
?/2=0.025,n=10,查表得 t0.025(9)=2.2622
d =2.2622?196.5/ =140.6
故所求 ?的 95%置信区间为 (1282.5,1563.7)
用 Excel 求解正态总体均值 μ 的置信区间
x
10
28
课堂练习 2:习题 2.4(1)(2)(3)
某车床加工的缸套外径尺寸 X~ N(μ,σ 2),下
面是随机测得的 10个加工后的某种缸套外径尺寸
(mm),用计算器软件求
90.01,90.01,90.02,90.03,89.99
89.98,89.97,90.00,90.01,89.99
(1)求 μ 和 σ 2的无偏估计 ;
(2)若已知 σ 2=0.022(mm2),求 μ 的置信度为
95%的置信区间
(3)若 σ 2未知,求 μ 的置信度为 95%的置信区
间 ;
29
二,正态总体方差 ?2的区间估计
可以证明,随机变量
~ ?2(n-1)
由
可得 ?2的置信度为 1-?
的置信 区间为 (*)
???? ?? ??????? 1)}1()1({ 2 2/22 2/1 nnP
2
2
2 )1(
??
Sn ??
)
)1(
)1(,
)1(
)1((
2
2/1
2
2
2/
2
?
?
?
?
?
n
Sn
n
Sn
?? ??
f(x)
x0
)(2 2/ n??
?/2
)(2 2/1 n?? ?
?/2 1-?
30
【 例 3】 求例 1中元件寿命方差 ?2的 95%置信区间。
解,由例 1,S2=196.52,n=10,?/2=0.025,
1-?/2=0.975,=19.023,
=2.700
(n-1)S2/ =9?196.52/19.023=18265
(n-1)S2/ =9?196.52/2.7=128690
故所求 ?2的 置信区间为 (18265,128690)。
)9(2 0 2 5.0?
)9(2 9 7 5.0?
)9(2 0 2 5.0?
)9(2 9 7 5.0?
31
课堂练习 3:习题 4(4)
(4)求 σ 2的置信度为 95%的置信区 。
32
三,单侧置信限的估计
【 例 4】 (1)求例 1中元件平均寿命的 95%置信下限。
(2)寿命方差的 95%置信上限。
解,(1)由
可解得 ?的 1-?置信下限为
(*)
本例中,t0.05(9)=1.8331,故所求置信下限为
1423.1-1.8331?196.5/ =1309.2
该元件平均寿命大于 1309.2小时的可信度为 95%。
?? ? ????? 1)}1(/){( ntSnXP
nSntX /)1( ?? ?
10
33
解 (2),?2 的 置信上限
同样可得 ?2的置信度为 1-?的置信上限为
(*)
本例中,=3.325,故所求 ?2的 95%置信
上限为
9?196.52/3.325=104514(小时 2)
由以上分析可知,求单侧置信限与求双侧置信
限的差别仅在于用相应分布的上侧 100?百分位点
代替双侧区间估计公式中的上侧 100?/2百分位点。
)1(
)1(
2
1
2
?
?
?
n
Sn
? ?
)9(2 95.0?
34
案例 1.新工艺是否有效?
某厂生产的一种钢丝抗拉强度服从均值
为 10560 (kg/cm2)的正态分布,现采用新工
艺生产了一种新钢丝,随机抽取 10根测得
抗拉强度为:
10512,10623,10668,10554,10776
10707,10557,10581,10666,10670
问新钢丝的平均抗拉强度比原钢丝是否
有显著提高?
35
案例 2.机床工作是否正常?
某台加工缸套外径的机床, 正常状态
下 所 加工 缸套 外 径的 标准 差不 超 过
0.02mm,现从所生产的缸套中随机抽取 9
个,测得外径的样本标准差为 S=0.03mm。
问:该机床工作是否正常?
36
案例 3.两种轿车质量有无差异?
设新车的首次故障里程数服从正态分布,现测
得甲、乙两种品牌轿车的首次故障里程数数据如
下:
甲品牌 X1,1200,1400,1580,1700,1900
乙品牌 X2,1100,1300,1800,1800,2000,2400
问:
(1)两种轿车的平均首次故障里程数之间有无
显著无差异?
(2)乙品牌轿车的平均首次故障里程是否显著
高于甲品牌?
37
案例 4.哪种安眠药的疗效好?
为分析甲、乙两种安眠药的效果,某医院将 20个失眠
病人分成两组,每组 10人,两组病人分别服用 A,B两种
安眠药作对比试验。试验结果如下:
两种安眠药延长睡眠时间对比试验 (小时 )
(1)两种安眠药的疗效有无显著差异?
(1)如果将试验方法改为对同一组 10个病人,每人分别
服用甲、乙两种安眠药作对比试验,试验结果仍如上表,
此时 两种安眠药的疗效间有无显著差异?
病人
安眠药
1 2 3 4 5 6 7 8 9 1 0
甲 1.9 0,8 1.1 0.1 – 0,1 4,4 5,5 1,6 4,6 3,4
乙 0.7 – 1,6 – 0.2 – 1.2 – 0,1 3,4 3,7 0,8 0,0 2,0
38
§ 2.4 假设检验
一,假设检验的基本原理和步骤
例 5,统计资料表明,某电子元件的寿命
X~ N(?0,?2 ),其中 ?0,?2 都已知。现采
用了新工艺生产,测得新工艺生产的 n个元
件寿命为 x1,x2,…,xn,问:
新工艺生产的该元件的期望寿命 ?是否比
原工艺的元件期望寿命 ?0有显著提高?
此问题要推断的是:是否 ?>?0?
这可用假设检验的方法解决,步骤如下:
39
1.提出一个希望推翻的假设,称为原假设,记为 H0
本例中 H0,? =?0
2.再按检验者希望出现的结果提出一个与原假设
H0对立的假设,称为备择假设,记为 H1。
本例中 H1,? >?0
3.构造一个能用来检验原假设 H0的统计量
本例中,由于要检验的是总体均值 ?,而 是 ?
的优良估计,故应使用 来构造检验 ?的如下统计
量。当 H0为真时,统计量
Z= ~ N(0,1)
X
X
n/σ
μX 0?
40
4.给定一个小概率 ?,称为显著性水平 (简称水平 )
显著性水平 ?是当 H0为真时,拒绝 H0的概率 (即犯
,弃真,错误的概率 )。也即当拒绝 H0时,说明能
有 1-?的可信度接受备择假设 H1。
5.确定要拒绝 H0时统计量的取值范围,称为 拒绝
域, 拒绝域的边界点称为 临界值 。
本例中,由于 H1,?>?0(右边检验 ),而当 H0
为真时,有
P{ Z>z? }= ?
故拒绝域为 Z>z?,临界值为 z?。
41
6.根据统计量的计算结果,作出检验结论
本例中,若 Z > z?,则拒绝 H0,接受 H1。
否则不能拒绝 H0,即认为 ?和 ?0无显著差异。
当拒绝 H0时,说明在给定的水平 ?下,?
和 ?0间存在显著差异。这也就是称 ?为显著
性水平的原因。
?
z?0
f (x)
x
右边检验的拒绝域
42
二,检验中可能犯的两类错误
设 Z为检验原假设 H0所用的统计量,C为检验的临界值,
由显著性水平 ?的定义 (右边检验 )
P{ Z>C | H0 为真 }= ?
检验中可能出现的错误判断有以下两类:
第一类错误 — 当 H0为真时拒绝 H0的错误,即,弃真,
错误,犯该类错误的概率为 ?。
第二类错误 — 当 H0不真时接受 H0的错误,即,取伪,
错误,记犯该类错误的概率为 ?,即
P{ Z≤C | H0 不真 } =?
∵ H0不真时统计量 Z的分布与 H0为真时的分布是不同
的,故 β ≠1 -?。
43
两类错误的关系
由图可知,减少 ?会增大 ?,也即在样本容量 n
不变时,不可能同时减小犯两类错误的概率。由
于通常总是将希望出现的结果作为备择假设 H1,
为使拒绝 H0(接受 H1)有较高的可信度,故总是控制
犯第一错误的概率 ?(通常 取 0.05,0.01等 )。要同
时减小须犯两类错误的概率,必须增大样本容量
n。
?
Cμ0
H0,μ=μ0
x
β
H1,μ=μ1
μ1
44
三,单个正态总体均值的检验
设 X~ N(?,?2 ),X1,X2,…,Xn为总体 X的样本,
给定水平 ?,原假设为 H0,?=?0。
1.?2 已知 (Z检验 ) 则当 H0为真时,统计量
Z= ~ N(0,1) (*)
(1)H1,?≠ ?0 (双边检验 ) 当 H0为真时,由
P{|Z|>z?/2}=?
可得:若 |Z|>z?/2 (*)
就拒绝 H0,接受 H1;
否则接受 H0。
n/σ
μX 0?
?/2 ?/2
z?/2- z?/2 0
f (x)
x
45
(2)H1,?>?0 (右边检验)
当 H0为真时,由
P{ Z>z? }=?
可得,若 Z>z? (*)
就拒绝 H0,接受 H1;否则不能
接受 H1。
(3) H1,?<?0 (左边检验 ),
由
P{ Z<-z? }=?
可得:若 Z<-z? (*)
就拒绝 H0,接受 H1;否则不能
接受 H1。
?
z?0
f (x)
x
右边检验的拒绝域
?
-z? 0
f (x)
x
左边检验的拒绝域
46
2.?2 未知 (t检验 )
由于 ?2 未知,用样本标准差 S 代替 Z 统计量中
的 ?,则当 H0为真时,统计量
~ t(n-1)
与 ?2已知时的分析完全类似地,有如下检验方法:
(*)
nS
Xt
/
0???
统计量 备择假设 拒绝域
μ ≠ μ 0 |t|>t α /2 (n -1 )
μ > μ 0 t >t α (n-1)
μ < μ 0 t<-t α (n-1)
nS
Xt
/
0???
47
案例 1.检验新工艺的效果
某厂生产的一种钢丝抗拉强度服从均值
为 10560(kg/cm2)的正态分布,现采用新工
艺生产了一种新钢丝,随机抽取 10根测得
抗拉强度为:
10512,10623,10668,10554,10776
10707,10557,10581,10666,10670
问在显著性水平 ?=0.05下,新钢丝的平均
抗拉强度比原钢丝是否有显著提高?
48
案例 1解答:显然,本案例为右边检验问题
设新钢丝的平均抗拉强度为 ?,且 ?2未知,
故使用 t 检验。由题意,
H0,?=?0,H1,?>?0
可求得,=10631.4,S=81,n =10,
?=0.05,t0.05(9)=1.8331
∵ t =2.7875 > t0.05(9)=1.8331
∴ 拒绝 H0,在水平 ?=0.05下,?显著高于 ?0。
7875.2
10/81
1 0 5 6 04.1 0 6 3 1
/
0 ?????
nS
xt ?
x
49
在案例 1中,若取 ?= 0.01,问结论如何?
【 解 】 ∵ t =2.7875 < t0.01(9) = 2.8214,
∴ 不能拒绝 H0。即:在水平 ?=0.01下,新钢
丝平均抗拉强度并无显著提高。
通常,在 ?=0.05下拒绝 H0,则称检验结果
为一般显著的。
若在 ?=0.01下拒绝 H0,则称检验结果为
高度显著的。
50
课堂练习 4:习题 2.9(1)
一台自动包装奶粉的包装机, 其额定标准为每
袋净重 0.5kg,设该包装机所包装奶粉的重量服从
正态分布 。 该包装机包装的精度指标为方差
σ 2=0.0052。 某天开工时, 随机抽取了 10袋产品,
称得其净重为:
0.497,0.506,0.509,0.508,0.497
0.510,0.506,0.495,0.502,0.507
(1)在水平 α =0.20下, 检验该天包装机的重量设
定是否正确?
51
四,单个正态总体方差的检验 ( ? 2 检验 )
设 H0,?2= ?02,则当 H0:真时,统计量
~ ? 2(n-1)
与前面分析完全类似地,有如下检验方法:
(*)
?? 20
22 )1( Sn ?
?
?? 20
22 )1( Sn ?
?
统计量 备择假设 拒绝域
χ
2
> χ
2
α /2
(n- 1 )
σ
2
= σ
0
2
或 χ
2
< χ
2
1 - α /2
( n-1 )
σ
2
> σ
0
2
χ
2
> χ
2
α
(n-1)
σ
2
< σ
0
2
χ
2
< χ
2
1 - α
(n-1)
52
f (x)
x0
)(2 2/ n??
?/2
)(2 2/1 n?? ?
?/2 1-?
双边检验f (x)
x0
)(21 n?? ?
? 1-?
左边检验
f (x)
x0
)(2 n??
?
1-?
右边检验
卡方检验的拒绝域
53
案例 2.机床加工精度问题
某台加工缸套外径的机床,正常状态下所加工
缸套外径的标准差不超过 0.02mm,现从所生产的
缸套中随机抽取 9个,测得外径的样本标准差为
S=0.03mm。问:在水平 α =0.05下,该机床工作是
否正常?
解,由题意,H0,?2=?02,H1,?2>?02,
∵
∴ 拒绝 H0,接受 H1,即该机床工作不正常。
50715)8(18020 0308)1( 2
0502
2
2
0
22
..,Sn
.
??????? ???
54
课堂练习 5:习题 2.9(2)
一台自动包装奶粉的包装机,其额定标准为每
袋净重 0.5kg,设该包装机所包装奶粉的重量服从
正态分布。该包装机包装的精度指标为方差
σ 2=0.0052。 某天开工时,随机抽取了 10袋产品,
称得其净重为:
0.497,0.506,0.509,0.508,0.497
0.510,0.506,0.495,0.502,0.507
(2)在水平 α =0.25下,检验该天包装机的包装精
度是否符合原指标?
55
五,两个正态总体均值的检验
设总体 X1~ N(?1,?12),X2~ N(?2,?22),且 X1和 X2相
互独立,,和 S12,S22分别是它们的样本的均值和样本
方差,样本容量分别为 n1和 n2,原假设为 H0,?1=?2 。
1.?12,?22 都已知 (Z检验) 由
~ N(0,1)
知,当 H0为真时,统计量
由此可得以下检验方法。
1X 2X
n/n/
XXZ
21
2
2
2
1
21
21 )()(
??
??
?
???
?
n/n/
XXZ
21
2
2
2
1
21
?? ?
?? ~ N (0,1)
56
?12,?22 已知时两个正态总体均值的 Z检验方法
统计量 备择假设 拒绝域
μ 1 ≠ μ 2 |Z|>z α /2
μ 1 > μ 2 Z >z α
μ 1 < μ 2 Z<-z α
n/n/
XXZ
21
2
2
2
1
21
?? ?
??
57
2,?12=?22=?2,但 ?2未知 (t检验 )
可以证明,当 H0为真时,统计量
~ t(n1+n2-2)
其中 (*)
完全类似地,可以得到如下检验方法。 (*)
2
)1()1(
21
2
22
2
112
??
????
nn
SnSnS
?
统计量 备择假设 拒绝域
μ
1
≠ μ
2
|t|>t
α /2
(n
1
+n
2
-2)
μ
1
> μ
2
t>t
α
(n
1
+n
2
-2)
μ
1
< μ
2
t<-t
α
(n
1
+n
2
-2)
nnSt ω
XX
21
21
/1/1 ?
??
nnSt ω
XX
21
21
/1/1 ?
??
58
案例 3.轿车质量差异的检验
设新车的首次故障里程数服从正态分布,现测
得甲,乙两种品牌轿车的首次故障里程数数据如
下:
甲品牌 X1,1200,1400,1580,1700,1900
乙品牌 X2,1100,1300,1800,1800,2000,2400
设 X1和 X2的方差相同 。问在水平 ?= 0.05下,
(1)两种轿车的平均首次故障里程数之间有无
显著差异?
(2)乙品牌轿车的平均首次故障里程是否比甲
品牌有显著提高?
59
解,?12=?22=?2未知,n1=5,n2=6,H0,?1=?2
(1)双边检验问题 H1,?1≠ ?2,由所给数据,可得
=1556,=1733,S12=269.62,S22=471.92
∵| t|=0.74 < t0.025(9)=2.2622
故两种轿车的首次故障里程间无显著差异。
5.1 5 6 0 2 09 9.4 7 156.2 6 942 )1()1(
22
21
2
22
2
112 ?????
??
????
nn
nn ssS
?
3955.1 5 6 0 2 0 ???S
74.06/15/1395 |17331556|/1/1 ||||
21
21 ?
?
??
?
??
nnS
xxt
?
1x 2x
60
(2)左边检验 H1,?1< ?2
∵ t = - 0.74 > -t0.05(9)= -1.833
故乙品牌轿车首次故障里程并不显著高于甲品
牌。
用 Excel 求解本案例:
61
案例 4.哪种安眠药的疗效好?
为分析甲、乙两种安眠药的效果,某医院将 20个失眠
病人分成两组,每组 10人,两组病人分别服用甲、乙两
种安眠药作对比试验。试验结果如下:
两种安眠药延长睡眠时间对比试验 (小时 )
(1)两种安眠药的疗效有无显著差异?
(2)如果将试验方法改为对同一组 10个病人,每人分别
服用甲、乙两种安眠药作对比试验,试验结果仍如上表,
此时 两种安眠药的疗效间有无差异?
病人
安眠药
1 2 3 4 5 6 7 8 9 10
甲 1.9 0,8 1,1 0.1 – 0.1 4.4 5.5 1,6 4,6 3,4
乙 0.7 – 1,6 – 0,2 – 1.2 – 0.1 3.4 3.7 0,8 0,0 2,0
62
案例 4解答 (1)
(1)设服用甲、乙两种安眠药的延长睡眠时间分别为 X1、
X2,X1~ N(?1,?2),X2~ N(?2,?2)。由试验方法知,X1、
X2独立。 H0,?1=?2,H1,?1≠ ?2,n1 = n2 =10。由表中所给数
据,可求得:
,S12=2.0022,, S22=1.7892
,
两种安眠药的疗效间无显著差异。
用 Excel 求解本案例
33.21 ?x 75.02 ?x
6 0 4 3.318 7 8 9.190 0 2.29
222
?????S ? 8 9 8 5.1??S
1009.2)18(8609.110/110/18985.1 75.033.12|| 025.0 ?????? tt
63
案例 4解答 (2)
(2)由于此时 X1,X2为同一组病人分别服用两种安眠药
的疗效,X1,X2 因此不独立。对于这类,配对样本试验,
的均值检验,应当化为单个正态总体的均值检验。方法
如下:
设 X为病人服用甲,乙两种安眠药的延长睡眠时间之
差,则 X~ N(?,?2)。 H0,?=0,H1,?≠0。
由表中所给数据,可求得
,S =1.23,n =10
两种安眠药的疗效间存在高度显著差异!
58.1?x
2498.3)9(0621.410/23.1 058.1|| 00 5.0 ????? tt
用 Excel 求解
64
3,?12≠ ?22且 未知
则在大样本条件下,当 H0为真时,统计量
近似~ N(0,1)
完全类似地,可以得到如下检验方法。
nnZ /S/S
XX
21
2
2
2
1
21*
?
??
统计量 备择假设 拒绝域
μ 1 ≠ μ 2 |Z
*
|>z α /2
μ 1 > μ 2 Z
*
>z α
μ 1 < μ 2 Z
*
<-z α
nnZ /S/S
XX
21
2
2
2
1
21*
?
??
65
两正态总体方差的检验 ( F检验 )
原假设为 H0,?12=?22,当 H0为真时,统计量
~ F(n1-1,n2-1)
完全类似地,可以得到如下检验方法 (*)。
S
SF
2
2
2
1?
统计量 备择假设 拒绝域
F>F
α /2
(n
1
-1,n
2
-1) 或
σ
1
2
≠ σ
2
2
F< F
1- α /2
(n
1
-1,n
2
-1)
σ
1
2
> σ
2
2
F>F
α
(n
1
-1,n
2
-1)
S
SF
2
2
2
1?
66
【 例 6】 在 ?= 0.20下,检验案例 3中两个正态总体
的方差是否存在显著差异 (,方差齐次”检验 )
解,∵ 我们希望出现的结论是无显著性差异,因此 ?
不能取得太小,否则犯第二类错误 (,取伪” )的概率 β
将较大,所得到的“无显著性差异”的可信度就不高。
由题意,H0,?12=?22,H1,?12≠ ?22,n1=5,n2=6,
由例 5的计算结果,S12=269.62,S22=471.92
F0.1(4,5)=3.52,
F1-0.1(4,5)=1/F0.1(5,4)=1/4.05=0.247
∵F 1-0.1(4,5)=0.247<F=0.326<F0.1(4,5)=3.52
∴ 在水平 ?= 0.20下 ?12与 ?22 间无显著差异。因而可知
案例 3中关于 ?12=?22 的假定是合理的。
3 2 6.09.4 7 1 6.2 6 9 2
2
2
2
2
1 ???
S
SF 用 Excel求解
67
下课
68
课堂练习 1:习题 2.1答案
由所给数据,可求得:
,S2=0.91702=0.8409958,x ?
69
习题 4(1)(2)(3)解答
(1) 由所给数据,可求得
,
(2)
(1.96)
故 μ的 95%置信区间为
(3)
(2.2622)
μ的 95%置信区间为
0 0 1.90? ?? x? 222 0 1 8 5 3.0? ?? S?
0 1 2 4.010/02.0/ 0 2 5.02/ ???? ZnZd ??
9 0, 0 1 3 4 ) ( 8 9, 9 8 8 6,)( ??? dxd,x
0 1 3 3.010/0 1 8 5 3.0)9(/)1( 0 2 5.02/ ????? tnSntd ?
9 0, 0 1 4 3 ) ( 8 9, 9 87 7,d)x d,x( ???
70
课堂练习 3:习题 4(4)解答
故 ?2的 95%置信区间为 (0.00016,0.00114)
023.19)9()1( 2 0 2 5.02 2/ ??? ?? ? n
7.2)9()1( 2 975.02 2/1 ???? ?? ? n
0 0 0 1 6.00 2 3.19/0 1 8 5 3.09)9(/)1( 22 0 2 5.02 ???? ?Sn
0 0 1 1 4.07.2/0 1 8 5 3.09)9(/)1( 22 9 7 5.02 ???? ?Sn
71
习题 2.9(1)解答
由所给数据,可求得, S=0.00554
(1)H0,?=0.5,H1,?≠0.5,?=0.20,?/2=0.10
∵
拒绝 H0,包装机重量设定不正确。
5037.0?x
3830.1)9(112.210/005544.0 5.05037.0/ 10.00 ??????? tnSxt ?
72
课堂练习 5:习题 2.9(2)解答
(2) H0,?2=0.0052,H1,?2>0.0052,?=0.025
∵
不能拒绝 H0,包装机精度符合原指标。
3 89.11)9(0 49.110 05.0 0 05 54.09)1( 2 25.02
2
2
0
2
2 ??????? ?
??
Sn