概率分布
The subject of probability theory is
the foundation upon which all of
statistics is built.
频数分布与概率分布 Probability
Distribution
各种各样的概率分布
正态分布 Normal Distribution(高斯分布 Gaussian distribution)
利用正态分布
一个例子
抽样变异
对数正态分布
二项分布
泊松分布
均匀分布正态分布与正态曲线
xxxf,2e x p2 1 222
标准正态分布 /曲线
Standard Normal Distribution
1
0
2?
正态分布的应用范围 范围之内的 范围之外的概率 概率
mean?1SD 0.683 0.317
mean?2SD 0.954 0.046
mean?3SD 0.9975 0.0027
应用例一个原发性胆石症患者的血清白蛋白水平高于 42g/l
的概率是多少?(假设原发性胆石症患者的血清白蛋白服从均数 34.46g/l,标准差 5.84g/l的正态分布)
从正态分布表可知大于 1.29的概率为 0.0985,所以一个原发性胆石症患者的血清白蛋白水平高于
42g/l的概率大约为 10%
29.184.5 46.3442
应用例(续)
中心范围 Central Range
任意范围的频数 ( 26g/l到 28g/l之间的人数)
C?SD 中心范围 血清白蛋白范围
1.645SD 90% 24.85 – 44.07
1.96SD 95% 23.01 – 45.91
2.576SD 99% 19.39 – 49.53
1306.02 1 6 06.00 7 3 5.01 3 3 5.0
11.1
84.5
46.3428 45.1
84.5
46.3426


观测频数分布与理论频数分布血清白蛋白 (g/l) 观测频数 理论频数 血清白蛋白 (g/l) 观测频数 理论频数
<20 0 1.4
20- 2 2.1
22- 6 4.4
24- 7 8.0
26- 9 13.1
28- 21 19.1
30- 20 24.7
32- 28 28.5
34- 39 29.2
36- 28 26.7
38- 22 21.8
40- 12 15.8
42- 11 10.2
44- 4 5.9
46- 3 3.0
48- 1 1.4
50- 1 0.6
52- 1 0.2
54- 0 0.1
56- 1 0.0
抽样变异 Sampling Variation
对数正态分布 Lognormal distribution
Mean=3.547 SD=1.03? 1.528 5.566
exp(1.528)=4.61 exp(5.566)=261.4 exp(3.547)=34.7
二项分布 Binomial distribution
结果 病人 1 病人 2 X 概率
1 死亡 死亡 0 0.25
2 死亡 生存 1 0.25
3 生存 死亡 1 0.25
4 生存 生存 2 0.25
2名癌症患者 3个月后尚存人数 X的概率分布
2人中 B型血人数的概率分布
O,0.46; A,0.43; B:0.08; AB,0.03
B,0.08; 非 B,0.92
结果 B型血的人数 概率
2人均为 B 2 0.0064
第一个人 B第二个人非 B 1 0.0736
第一个人非 B第二个人 B 1 0.0736
2人都不是 B 0 0.8464
合计 1.0000
2人中 B型血人数的概率分布(图)
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0 1 2
N人中 B型血人数 X的概率分布图
10人中 B型血人数的概率分布图 100人中 B型血人数的概率分布图
0
0.1
0.2
0.3
0.4
0.5
0 1 2 3 4 5 6 7 8 9
0.00E+00
2.00E-02
4.00E-02
6.00E-02
8.00E-02
1.00E-01
1.20E-01
1.40E-01
1.60E-01
0 2 4 6 8 10 12 14 16 18

1 1
! !
!)P r ( nn
XNX
NX XNX
散发病例的概率分布 —Poisson分布
Mean=2.2
0.00E+00
5.00E-02
1.00E-01
1.50E-01
2.00E-01
2.50E-01
3.00E-01
0 1 2 3 4 5 6 7 8 9 10

!
)P r (
2.2
y
e
y
y
分析前的数据准备( 1)
目的:获得尽可能正确的数据
数据出错机制:系统、测量、转载、录入等
数据编码
数据核查 data checking/data cleaning
可能值、取值范围、逻辑、局外值 outliers、
缺损值:为什么缺损?
分析前的数据准备( 2)
数据的正态性检视
图示法 —正态曲线 normal plot
偏度 skewness峰度 kurtosis判断
正态性检验 Shapiro-Wilk W test
数据转换 data transformation
正态性转换 transforming to normality
Logit转换图示法检视数据正态性
1000
6
35
n