Chapter 2
数据整理及数据的描述
2.1统计数据来源:统计报表(制度)
2.2频数(率)分布 直方图
-适当分组,确定组限、组中值
-编织频数分布表重点调查典型调查抽样调查非全面调查:
全面调查:如第五次人口普查专门调查例 共 50人 50— 60 5人 60— 70 11人
70— 80 17人 80— 90 11人
90— 100 6人成绩(分) 频数(次) 频率( %) 累计频率( %)
50— 60 5 10.0 10.0
60— 70 11 22.0 32.0
70— 80 17 34.0 66.0
80— 90 11 22.0 88.0
90— 100 6 12.0 100.0
合计 50 100 ------
直方图频率
(%)
频数
(人 )
11 22
5 10
55 65 75 85 95
● 分布特征 从直方图到分布曲线
● 直方图给出一种“分布”的直观形式
● 钟型分布如身高、体重、成绩
● U型分布如人群健康(生病)
● 正反 J型
● 劳伦兹曲线本世纪初将两种累计频率对应图示前例 50人总分 3770分
0 10 32 66 88 100
100
85
60
26.5
7.3
● 基尼系数 A/(A+B)
越小越均匀 (公平 )
● 思考:与 ABC分类法的关系?
● 例 6,9,12,15,18
宽度定为 1时,所绘图形上可以面积表示频率大小任何一个关于频率的直方图,可以经适当度量变换,以分布形状的面积大小来度量频率大小。
如某地区
20
100
75%
0.3 1.64 2.1
2.3分布的数字特征均值,X= (∑Xi)/n
离散趋势方差,S2= [∑(Xi- X)2]/ (n-1)
例,6,9,12,15,18
均值,X= (6+9+12+15+18)/5 = 12
方差,S2= [36+9+0+9+36]/ 4=22.5
Chapter 3
从直方图描述到分布描述
3.1随机变量及其概率分布前例 6,9,12,15,18可以看作一种客观存在的分布从另一个观点,如果 5个数中每次取一个,则有
P(X=6)=1/5,
P(X=9)= 1/5,…,P(X=18)=1/5.
由 6,9,12,15,18等可能的随机产生的性质,我们得到了概率分布图。若适当选取度量单位,如使每个直方条的宽度为 1,则可以用面积大小表示概率大小,如
P(9<=X<=15)=0.6,即途中三个直方条的面积总和。于是现在我们可以用函数描述与处理随机现象。
概率意义上的平均值,称数学期望
(有时我们不再区分两者,其意自明 )
3.2伯努利分布
抛硬币正面 X=1,P(X=1)=1/2
反面 X=0,P(X=0)=1/2
10个产品中 2个次品,取一件,得正品为 1,
次品为 0。有 P(X=1)=8/10,P(X=0)=1/5,
一般设 P(X=1)=p P(X=0)=q=1-p(0<p<1)
可以计算 E(X)=1*p+0*q=p
Var(X) =(1-p)2p+(1-p)2q=q2p+p2q=pq
二项分布 (N重伯努利分布 )
设产品中正品率位 p,次品率为 q=1-p,抽后放回,重复 n此,以 k表示 n池中得到正品的次数,则有重要结果
E(X)=np
Var(X)=npq
3.4正态分布
前例,某地区身高分布同样可做两种理解:
大量数据整理后的频率直方图任取一人,其身高的概率分布图身高、体重、成绩、加工零件的尺寸等均服从这种分布,称“正态分布”。
总体两大,分组越细越近于曲线,为便于用数学手段进行分析,有其“理论模式”
应用例
P188,example 3.7
理解正态分布及其普遍性机会均等的情况下出现的不均等现象
P198,P188,example 3.11
例 6,9,12,15,18
Chapter 4
抽样分布与抽样定理
4.1抽样与抽样分布
总体与样本 总体:所论全体,大集合
样本:抽取部分,子集
目的:以样本去反映,“代表” 总体。
总体分布是最全面的信息,往往不知道;通过抽样,取得数据,如样本均值、方差得去看主题。
重要的是分析 的分布与总体分布之间或与总体参数,等的关系。
X
2
抽样分布就是抽样均值 所遵循的分布。如抽样一次,但 理论上应付从某种与总体参数有关的分布
X
X
P
9 10 11 12 13 14 15
样本均值与样本方差
=
=
P237公式
x
nX
2)( xxS 2
n - 1
4.2 抽样定理
总体为正态时成立,均值不变,密集度增加
一般总体,但 n足够大时亦近似成立 (可进一步理解正态分布的成因 )
二项“类”,如“赞成,反对”抽样,有
),(
2
nN
~X
p?
n
pqpN,
)()( 21 n xxxXE n
))()()((1 21 nxExExEn
nn1
~
)()( 21 n xxxDXD n
))()()((1 212 nDXXDXDn
nnn
2
2
2
1
n
XDSXE )(,)(
由 E()
由,可以说明 计算 (定义式 )的缘由。
)()( 21 n xxxDXD n
))()()((1 212 nDXXDXDn
nnn
2
2
2
1
n
XDSXE )(,)(
2s22 )(sE
数据整理及数据的描述
2.1统计数据来源:统计报表(制度)
2.2频数(率)分布 直方图
-适当分组,确定组限、组中值
-编织频数分布表重点调查典型调查抽样调查非全面调查:
全面调查:如第五次人口普查专门调查例 共 50人 50— 60 5人 60— 70 11人
70— 80 17人 80— 90 11人
90— 100 6人成绩(分) 频数(次) 频率( %) 累计频率( %)
50— 60 5 10.0 10.0
60— 70 11 22.0 32.0
70— 80 17 34.0 66.0
80— 90 11 22.0 88.0
90— 100 6 12.0 100.0
合计 50 100 ------
直方图频率
(%)
频数
(人 )
11 22
5 10
55 65 75 85 95
● 分布特征 从直方图到分布曲线
● 直方图给出一种“分布”的直观形式
● 钟型分布如身高、体重、成绩
● U型分布如人群健康(生病)
● 正反 J型
● 劳伦兹曲线本世纪初将两种累计频率对应图示前例 50人总分 3770分
0 10 32 66 88 100
100
85
60
26.5
7.3
● 基尼系数 A/(A+B)
越小越均匀 (公平 )
● 思考:与 ABC分类法的关系?
● 例 6,9,12,15,18
宽度定为 1时,所绘图形上可以面积表示频率大小任何一个关于频率的直方图,可以经适当度量变换,以分布形状的面积大小来度量频率大小。
如某地区
20
100
75%
0.3 1.64 2.1
2.3分布的数字特征均值,X= (∑Xi)/n
离散趋势方差,S2= [∑(Xi- X)2]/ (n-1)
例,6,9,12,15,18
均值,X= (6+9+12+15+18)/5 = 12
方差,S2= [36+9+0+9+36]/ 4=22.5
Chapter 3
从直方图描述到分布描述
3.1随机变量及其概率分布前例 6,9,12,15,18可以看作一种客观存在的分布从另一个观点,如果 5个数中每次取一个,则有
P(X=6)=1/5,
P(X=9)= 1/5,…,P(X=18)=1/5.
由 6,9,12,15,18等可能的随机产生的性质,我们得到了概率分布图。若适当选取度量单位,如使每个直方条的宽度为 1,则可以用面积大小表示概率大小,如
P(9<=X<=15)=0.6,即途中三个直方条的面积总和。于是现在我们可以用函数描述与处理随机现象。
概率意义上的平均值,称数学期望
(有时我们不再区分两者,其意自明 )
3.2伯努利分布
抛硬币正面 X=1,P(X=1)=1/2
反面 X=0,P(X=0)=1/2
10个产品中 2个次品,取一件,得正品为 1,
次品为 0。有 P(X=1)=8/10,P(X=0)=1/5,
一般设 P(X=1)=p P(X=0)=q=1-p(0<p<1)
可以计算 E(X)=1*p+0*q=p
Var(X) =(1-p)2p+(1-p)2q=q2p+p2q=pq
二项分布 (N重伯努利分布 )
设产品中正品率位 p,次品率为 q=1-p,抽后放回,重复 n此,以 k表示 n池中得到正品的次数,则有重要结果
E(X)=np
Var(X)=npq
3.4正态分布
前例,某地区身高分布同样可做两种理解:
大量数据整理后的频率直方图任取一人,其身高的概率分布图身高、体重、成绩、加工零件的尺寸等均服从这种分布,称“正态分布”。
总体两大,分组越细越近于曲线,为便于用数学手段进行分析,有其“理论模式”
应用例
P188,example 3.7
理解正态分布及其普遍性机会均等的情况下出现的不均等现象
P198,P188,example 3.11
例 6,9,12,15,18
Chapter 4
抽样分布与抽样定理
4.1抽样与抽样分布
总体与样本 总体:所论全体,大集合
样本:抽取部分,子集
目的:以样本去反映,“代表” 总体。
总体分布是最全面的信息,往往不知道;通过抽样,取得数据,如样本均值、方差得去看主题。
重要的是分析 的分布与总体分布之间或与总体参数,等的关系。
X
2
抽样分布就是抽样均值 所遵循的分布。如抽样一次,但 理论上应付从某种与总体参数有关的分布
X
X
P
9 10 11 12 13 14 15
样本均值与样本方差
=
=
P237公式
x
nX
2)( xxS 2
n - 1
4.2 抽样定理
总体为正态时成立,均值不变,密集度增加
一般总体,但 n足够大时亦近似成立 (可进一步理解正态分布的成因 )
二项“类”,如“赞成,反对”抽样,有
),(
2
nN
~X
p?
n
pqpN,
)()( 21 n xxxXE n
))()()((1 21 nxExExEn
nn1
~
)()( 21 n xxxDXD n
))()()((1 212 nDXXDXDn
nnn
2
2
2
1
n
XDSXE )(,)(
由 E()
由,可以说明 计算 (定义式 )的缘由。
)()( 21 n xxxDXD n
))()()((1 212 nDXXDXDn
nnn
2
2
2
1
n
XDSXE )(,)(
2s22 )(sE