第二章抽样数据的描述统计随机变量的概率分布尺寸偏差区间 频数 m
i
频率?
i
-3 0 ~ -2 5 2 0,0 0 8
-2 5 ~ -2 0 6 0,0 2 4
-2 0 ~ -1 5 11 0,0 4 4
-1 5 ~ -1 0 23 0,0 9 2
-1 0 ~ -5 35 0,1 4 0
-5 ~ 0 47 0,1 8 8
0 ~ + 5 45 0,1 8 0
+ 5 ~ + 1 0 36 0,1 4 4
+ 1 0 ~ + 1 5 26 0,1 0 4
+ 1 5 ~ + 2 0 13 0,0 5 2
+ 2 0 ~ + 2 5 5 0,0 2 0
+ 2 5 ~ + 3 0 1 0,0 0 4
总计 250 1
例 1,加工零件时,抽取样本,测量其尺寸。
设共抽取 250 个,记录如下,
频率与累计频率1.1.2
nxxx,样本观测值为?,,21
,/),,2,1
(,
],[
,,],,[
21
nnr
knk
rba
xxxba
k
k
n
记频率为,
数个小区间内观察值的个观察落在第
,个小区间(一般等分)分成其中,将都包含在,使取定一适当区间
,kh记小区间长度为频率直方图。
矩形,这样得到为高作上以在区间
k
k
kk
nh
n
aa ],(
1?
频率直方图,
( )
( )
x
x
x
5
0,0 4
0.037 6 0.036
0,0 3
0.028 0.028 8
0.02 0.020 8
0,0 1 8 4
0.008 8 0.01 0.010 4
0.004 8 0.004 0
0.001 6 0.000 8
- 30 - 25 - 20 - 15 - 10 - 5 0 + 5 + 10 + 15 + 20 + 25 + 30
x
抽样数据:
160 196 164 148 170
175 178 166 181 162
161 168 166 162 172
156 170 157 162 154
接受区域:
147 157 167 177 187 197
接收 频率 累积%
147 0 0%
157 4 20%
167 8 60%
177 5 85%
187 2 95%
197 1 100%
其他 0 100%
直方图
0
1
2
3
4
5
6
7
8
9
147 157 167 177 187 197
其他接收频率
0%
20%
40%
60%
80%
100%
120%
频率累积 %
40
31
34
34
33
4323
49
26
40
33
39
1
2
3
4
5
6
7
8
9
10
11
12
2.1.2样本数据分布中心的描述
( 1)样本均值:
(数据的数值算术平均值)?
n
i
ixnx
1
1
( 3)众数 Mod:一组数据中出现频数最大的数。
不一定唯一,反映数据分布集中趋势
2.1.3样本数据离散程度的描述
( 3)样本方差:
)(11)(11 2
1
2
1
22
1 xnxnxxns
n
i i
n
i in
n
i in
xxn
1
2
1 )(1
1?
( 2)标准偏差:
2.2 随机变量及其概率分布随机试验的结果数量化
随机变量。
引入变量?,将随机试验的结果与? 的取值对应起来, 是 随机 变量 。
由于? 为随机的,所以, 的取值也是随机的,
在概率空间中具有可测性,
可测性:可用概率来度量(测量)
注意:随机变量? 取各个值也有一定的概率,
2,2,1 定义,
概率空间( P,,F? ),若对一切 Rx?,
有事件 xA F 对 应,则实值函数 ))(( 称为随机变量。
存在对一切即
。记为是可测的
RxxP
F
,
F
n
x
n
xx
n
n
1
1
lim
1
2,2,2 随机变量的分布函数
1) 定义:设? 是一个随机变量,x 是任意实数,函数
xPd e fxPxF
}{)( 称为随机变量? 的分布函数。
★ 分 布 函 数 完 整 地 描 述 了 随 机 变 量 的 统 计 规 律 性 。
★ 任意随机变量都存在唯一的分布函数,
★ 但同一分布函数可对应不同随机变量。
★ 定义域 为 整个 实 轴
★ 是 ( 右 闭 ) 区间 函数xpxP,)(
3) 分布函数性质
( 2 ) 1}{)(0 xXPxF,即,F x( ) 取值在 0 与 1 之间,
( 1 ) 对任意的两个实数 x x R x x1 2 1 2,,,
F x F x( ) ( )1 2? 即,F x( ) 是非减函数,
F F xx( ) lim ( ) 0,F F xx( ) lim ( ) 1 。
具有以上三条性质的函数可以看作某一随机变量的分布函数。
( 3 ) 右连左极性 对任意的 Rx?0
)()0(),()(lim
)()0(),()(lim
000
000
0
0
xFxFxFxF
xFxFxFxF
xx
xx
即即
)(}{ aFaP
)()(}{ aFbFbaP
)0()1(l i m}1{l i m}{
aFnaFnaPaP
nn
)0()(}{}{}{ aFaFaXPaPaP
)0()0(
}}{}{
aFbF
aPbPbaP
)0()(
}{}{}{
aFbF
aPbPbaP
)()()(1}{1}{ bFFbFbPbP
( 3 ) 几 种 常 用 的 离 散 型 随 机 变 量 的 分 布
( 即样本空间? 只含有两个基本事件,)
或者,
X 0 1
P X m( )? 1? p p
a,随机变量 X 的取值范围,0,1.
0 - 1 分布 (两点分布)
b,分布律,P X m p q m p qm m( ),,;1 0 1 1
c,定义:如果随机变量 X 具有以上的分布律,
则称 X 服从两点分布。
d.例子
客户是男士还是女士
产品是否合格
抛硬币是国徽朝上还是分值朝上国徽 5分
b,X 的取值范围,0 1 2,,,,m in (,)? n M
其中,P X m
m
n M
( )
m in (,)
0
1
超几何分布 H n M N(,,)a,实际背景:一批产品共有 N 个,其中有 M 个次品。现从这批产品中任取 n 个,求取出的 n 个产品中有 m 个次品的概率。
设随机变量 X 表示 n 个产品中的次品数,则
c,X 的分布律:
P X m
C C
C
M
m
N M
n m
N
n
( )
,
m n M? 0 1 2,,,,m i n (,)?,
P X m
C C
C
M
m
N M
n m
N
n( )
,
m n M? 0 1 2,,,,m i n (,)?,
说明:从 N 个产品中任取 n 个 (不论次序),共有 C N
n
种取法;其中,
m
个次品是从
M 个次品中取出,还有
n m?
个正品是从 N M? 个正品中取出,所以,取出的
n
个产品中有
m
个次品的取法共有
C C
M
m
N M
n m
种。)
P X m
C A A
A
C C
C
n
m
M
m
N M
n m
N
n
M
m
N M
n m
N
n( )
m n M? 0 1 2,,,,m i n (,)?说 明,每 次 取 一 个,不 放 回,连 续 取 n 次,如 此 取出 n 个,取 法 共 有 A N
n
种 ( 与 顺 序 有 关 ) ;
n 个 产 品 中 有 m 个 次 品,相 当 于 在 n 个 位 子中 先 挑 出 m 个 位 子,有 C n
m
种 选 法 ; 再 从 M 个次 品 中 取 出 m 个 次 品 放 到 m 个 位 子 上,有 A M
m
种 排 法 ; 最 后,从 N M? 个 正 品 中 取 出 n m?
个 正 品 放 到 剩 下 的 n m? 个 位 子 上,有
A
N M
n m
种 排 法 。 所 以,n 个 产 品 中 有
m
个 次 品 的 取法 共 有
C A A
n
m
M
m
N M
n m
种 。
d,定 义,如 果 随 机 变 量 X 具 有 以 上 的 分 布 律,则 称记 X 服 从 超 几 何 分 布,记 X ~ H n M N(,,) 。
H(5,10,100)
H(10,10,100)
H(20,10,100)
p(x)
x1 3 5 70
二项分布 (贝努里概型) B n p(,)
c,如果随机变量 X 具有以上的分布律,则称 X 服从二项分布,记 X B n p~ (,) 。
a,X 的可能取值为,0 1 2,,,,? nb,分布律为,P X m P m C p q p qn n
m m n m
( ) ( ),,
1
m n? 1 2,,,?
其中,P m p qn
m
n
n
( ) ( )
0
1
x
p(x)
0
B(20,0.25)B(20,0.5) B(20,0.75)
例 4,规 定 某 种 型 号 的 电 子 元 件 使 用 寿 命 超 过 1 5 0 0 小时 为 一 级 品 。 已 知 某 一 大 批 产 品 的 一 级 品 率 为
0,2,现 在 从 中 随 机 地 抽 查 2 0 只,问 2 0 只 元 件 中,
恰 有 k (,,,)k? 0 1 20? 只 为 一 级 品 的 概 率 是 多 少?
随机变量 X 表示 20 只中的一级品个数,
X 0 1 2 3 4 5 6 7 8 9 10
P 0,01 2 0,05 8 0,13 7 0,20 5 0,21 8 0,17 5 0,10 9 0,05 5 0,02 2 0,00 7 0,00 2
当 k? 11 时,P X k( ), 0 001
解:由于产品的数量很大,可作为放回抽样处理。
则 X ~ B p p(,),.20 0 2?
P X k C p q kk k k( ),,,,,20 20 0 1 2 20?
例 5,已 知 随 机 变 量 X B n p~ (,),问,当 m 为 何 值 时,
P X m( )? 最 大?
解,分 析,找 一 个 m,使 P X m P X m( ) ( )1,且
P X m P X m( ) ( )1 。
当 ( )n p m1 0,即 m n p( )1 时,P X m P X m( ) ( )1
当 ( )n p m1 0,即 m n p( )1 时,P X m P X m( ) ( )1
这时,
P X m
P X m
( )
( )
0
0 1
1,
P X m
P X m
C p q
C p q
n m
m
p
q
n p m
m p
n
m m n m
n
m m n m
( )
( )
( )
( )
1
1 1 1
11 1 1
1) 当 ( )n p? 1 是整数时,取 m n p0 1( ),
则 P X m P X m( ) ( )0 01 都是最大值。
2) 当 ( )n p? 1 不是整数时,取 m n p n p0 1 1[( ) ] ( ),
这时有 P X m P X m( ) ( )0 01,而 m n p0 1 1( ),
所以,P X m P X m( ) ( )0 01 。
最后得,P X m( )? 0 是最大值。
事件 A发生的次数 不到 k次的概率:
事件 A发生的次数 多于 k次的概率:
事件 A发生的次数 不少于 k次的概率:
事件 A发生的次数 不多于 k次的概率:
)()1()( nPkPkP nnn
)()1()0( kPPP nnn
)1()1()0( kPPP nnn?
)()2()1( nPkPkP nnn
二项分布常用公式,
i
频率?
i
-3 0 ~ -2 5 2 0,0 0 8
-2 5 ~ -2 0 6 0,0 2 4
-2 0 ~ -1 5 11 0,0 4 4
-1 5 ~ -1 0 23 0,0 9 2
-1 0 ~ -5 35 0,1 4 0
-5 ~ 0 47 0,1 8 8
0 ~ + 5 45 0,1 8 0
+ 5 ~ + 1 0 36 0,1 4 4
+ 1 0 ~ + 1 5 26 0,1 0 4
+ 1 5 ~ + 2 0 13 0,0 5 2
+ 2 0 ~ + 2 5 5 0,0 2 0
+ 2 5 ~ + 3 0 1 0,0 0 4
总计 250 1
例 1,加工零件时,抽取样本,测量其尺寸。
设共抽取 250 个,记录如下,
频率与累计频率1.1.2
nxxx,样本观测值为?,,21
,/),,2,1
(,
],[
,,],,[
21
nnr
knk
rba
xxxba
k
k
n
记频率为,
数个小区间内观察值的个观察落在第
,个小区间(一般等分)分成其中,将都包含在,使取定一适当区间
,kh记小区间长度为频率直方图。
矩形,这样得到为高作上以在区间
k
k
kk
nh
n
aa ],(
1?
频率直方图,
( )
( )
x
x
x
5
0,0 4
0.037 6 0.036
0,0 3
0.028 0.028 8
0.02 0.020 8
0,0 1 8 4
0.008 8 0.01 0.010 4
0.004 8 0.004 0
0.001 6 0.000 8
- 30 - 25 - 20 - 15 - 10 - 5 0 + 5 + 10 + 15 + 20 + 25 + 30
x
抽样数据:
160 196 164 148 170
175 178 166 181 162
161 168 166 162 172
156 170 157 162 154
接受区域:
147 157 167 177 187 197
接收 频率 累积%
147 0 0%
157 4 20%
167 8 60%
177 5 85%
187 2 95%
197 1 100%
其他 0 100%
直方图
0
1
2
3
4
5
6
7
8
9
147 157 167 177 187 197
其他接收频率
0%
20%
40%
60%
80%
100%
120%
频率累积 %
40
31
34
34
33
4323
49
26
40
33
39
1
2
3
4
5
6
7
8
9
10
11
12
2.1.2样本数据分布中心的描述
( 1)样本均值:
(数据的数值算术平均值)?
n
i
ixnx
1
1
( 3)众数 Mod:一组数据中出现频数最大的数。
不一定唯一,反映数据分布集中趋势
2.1.3样本数据离散程度的描述
( 3)样本方差:
)(11)(11 2
1
2
1
22
1 xnxnxxns
n
i i
n
i in
n
i in
xxn
1
2
1 )(1
1?
( 2)标准偏差:
2.2 随机变量及其概率分布随机试验的结果数量化
随机变量。
引入变量?,将随机试验的结果与? 的取值对应起来, 是 随机 变量 。
由于? 为随机的,所以, 的取值也是随机的,
在概率空间中具有可测性,
可测性:可用概率来度量(测量)
注意:随机变量? 取各个值也有一定的概率,
2,2,1 定义,
概率空间( P,,F? ),若对一切 Rx?,
有事件 xA F 对 应,则实值函数 ))(( 称为随机变量。
存在对一切即
。记为是可测的
RxxP
F
,
F
n
x
n
xx
n
n
1
1
lim
1
2,2,2 随机变量的分布函数
1) 定义:设? 是一个随机变量,x 是任意实数,函数
xPd e fxPxF
}{)( 称为随机变量? 的分布函数。
★ 分 布 函 数 完 整 地 描 述 了 随 机 变 量 的 统 计 规 律 性 。
★ 任意随机变量都存在唯一的分布函数,
★ 但同一分布函数可对应不同随机变量。
★ 定义域 为 整个 实 轴
★ 是 ( 右 闭 ) 区间 函数xpxP,)(
3) 分布函数性质
( 2 ) 1}{)(0 xXPxF,即,F x( ) 取值在 0 与 1 之间,
( 1 ) 对任意的两个实数 x x R x x1 2 1 2,,,
F x F x( ) ( )1 2? 即,F x( ) 是非减函数,
F F xx( ) lim ( ) 0,F F xx( ) lim ( ) 1 。
具有以上三条性质的函数可以看作某一随机变量的分布函数。
( 3 ) 右连左极性 对任意的 Rx?0
)()0(),()(lim
)()0(),()(lim
000
000
0
0
xFxFxFxF
xFxFxFxF
xx
xx
即即
)(}{ aFaP
)()(}{ aFbFbaP
)0()1(l i m}1{l i m}{
aFnaFnaPaP
nn
)0()(}{}{}{ aFaFaXPaPaP
)0()0(
}}{}{
aFbF
aPbPbaP
)0()(
}{}{}{
aFbF
aPbPbaP
)()()(1}{1}{ bFFbFbPbP
( 3 ) 几 种 常 用 的 离 散 型 随 机 变 量 的 分 布
( 即样本空间? 只含有两个基本事件,)
或者,
X 0 1
P X m( )? 1? p p
a,随机变量 X 的取值范围,0,1.
0 - 1 分布 (两点分布)
b,分布律,P X m p q m p qm m( ),,;1 0 1 1
c,定义:如果随机变量 X 具有以上的分布律,
则称 X 服从两点分布。
d.例子
客户是男士还是女士
产品是否合格
抛硬币是国徽朝上还是分值朝上国徽 5分
b,X 的取值范围,0 1 2,,,,m in (,)? n M
其中,P X m
m
n M
( )
m in (,)
0
1
超几何分布 H n M N(,,)a,实际背景:一批产品共有 N 个,其中有 M 个次品。现从这批产品中任取 n 个,求取出的 n 个产品中有 m 个次品的概率。
设随机变量 X 表示 n 个产品中的次品数,则
c,X 的分布律:
P X m
C C
C
M
m
N M
n m
N
n
( )
,
m n M? 0 1 2,,,,m i n (,)?,
P X m
C C
C
M
m
N M
n m
N
n( )
,
m n M? 0 1 2,,,,m i n (,)?,
说明:从 N 个产品中任取 n 个 (不论次序),共有 C N
n
种取法;其中,
m
个次品是从
M 个次品中取出,还有
n m?
个正品是从 N M? 个正品中取出,所以,取出的
n
个产品中有
m
个次品的取法共有
C C
M
m
N M
n m
种。)
P X m
C A A
A
C C
C
n
m
M
m
N M
n m
N
n
M
m
N M
n m
N
n( )
m n M? 0 1 2,,,,m i n (,)?说 明,每 次 取 一 个,不 放 回,连 续 取 n 次,如 此 取出 n 个,取 法 共 有 A N
n
种 ( 与 顺 序 有 关 ) ;
n 个 产 品 中 有 m 个 次 品,相 当 于 在 n 个 位 子中 先 挑 出 m 个 位 子,有 C n
m
种 选 法 ; 再 从 M 个次 品 中 取 出 m 个 次 品 放 到 m 个 位 子 上,有 A M
m
种 排 法 ; 最 后,从 N M? 个 正 品 中 取 出 n m?
个 正 品 放 到 剩 下 的 n m? 个 位 子 上,有
A
N M
n m
种 排 法 。 所 以,n 个 产 品 中 有
m
个 次 品 的 取法 共 有
C A A
n
m
M
m
N M
n m
种 。
d,定 义,如 果 随 机 变 量 X 具 有 以 上 的 分 布 律,则 称记 X 服 从 超 几 何 分 布,记 X ~ H n M N(,,) 。
H(5,10,100)
H(10,10,100)
H(20,10,100)
p(x)
x1 3 5 70
二项分布 (贝努里概型) B n p(,)
c,如果随机变量 X 具有以上的分布律,则称 X 服从二项分布,记 X B n p~ (,) 。
a,X 的可能取值为,0 1 2,,,,? nb,分布律为,P X m P m C p q p qn n
m m n m
( ) ( ),,
1
m n? 1 2,,,?
其中,P m p qn
m
n
n
( ) ( )
0
1
x
p(x)
0
B(20,0.25)B(20,0.5) B(20,0.75)
例 4,规 定 某 种 型 号 的 电 子 元 件 使 用 寿 命 超 过 1 5 0 0 小时 为 一 级 品 。 已 知 某 一 大 批 产 品 的 一 级 品 率 为
0,2,现 在 从 中 随 机 地 抽 查 2 0 只,问 2 0 只 元 件 中,
恰 有 k (,,,)k? 0 1 20? 只 为 一 级 品 的 概 率 是 多 少?
随机变量 X 表示 20 只中的一级品个数,
X 0 1 2 3 4 5 6 7 8 9 10
P 0,01 2 0,05 8 0,13 7 0,20 5 0,21 8 0,17 5 0,10 9 0,05 5 0,02 2 0,00 7 0,00 2
当 k? 11 时,P X k( ), 0 001
解:由于产品的数量很大,可作为放回抽样处理。
则 X ~ B p p(,),.20 0 2?
P X k C p q kk k k( ),,,,,20 20 0 1 2 20?
例 5,已 知 随 机 变 量 X B n p~ (,),问,当 m 为 何 值 时,
P X m( )? 最 大?
解,分 析,找 一 个 m,使 P X m P X m( ) ( )1,且
P X m P X m( ) ( )1 。
当 ( )n p m1 0,即 m n p( )1 时,P X m P X m( ) ( )1
当 ( )n p m1 0,即 m n p( )1 时,P X m P X m( ) ( )1
这时,
P X m
P X m
( )
( )
0
0 1
1,
P X m
P X m
C p q
C p q
n m
m
p
q
n p m
m p
n
m m n m
n
m m n m
( )
( )
( )
( )
1
1 1 1
11 1 1
1) 当 ( )n p? 1 是整数时,取 m n p0 1( ),
则 P X m P X m( ) ( )0 01 都是最大值。
2) 当 ( )n p? 1 不是整数时,取 m n p n p0 1 1[( ) ] ( ),
这时有 P X m P X m( ) ( )0 01,而 m n p0 1 1( ),
所以,P X m P X m( ) ( )0 01 。
最后得,P X m( )? 0 是最大值。
事件 A发生的次数 不到 k次的概率:
事件 A发生的次数 多于 k次的概率:
事件 A发生的次数 不少于 k次的概率:
事件 A发生的次数 不多于 k次的概率:
)()1()( nPkPkP nnn
)()1()0( kPPP nnn
)1()1()0( kPPP nnn?
)()2()1( nPkPkP nnn
二项分布常用公式,