1
3.051J/BE.340
第 15 讲 生物材料研究的统计分析
1. 基本原理:统计分析对生物材料的分析为何是必需的?
? 许多误差源 存在于生命系统的检测过程!
有关生物材料数据误差和测量值方面的举例
2
3.051J/BE.340
实例: 粘附于生物材料的 细胞沉降百分率分析 (最简单的细胞分析)
数据发生变化的几个原因:
? 表面污染 ? 产生细胞毒素或改变了表面化学性质
? 每个表面种子细胞数量上的差异
? 生物材料合成方面的差异(反应物数量、温度、时间等)
? 细胞自身的差异(不同的细胞传代过程)
? 介质上的差异(如:不同的浓度,蛋白群)
? 灭菌过程的差异
? 研究者带来的误差(如:对着样品打喷嚏)
? 生物行为是最适宜通过 样本容量 或数值 分布 进行表征
实例 : NaOH 溶液与等摩尔 HCl 溶液的滴定。
3
3.051J/BE.340
当 N→∞ 时,数据趋向于群体:
? 目的: 测量足够的数据以 精确表征性能的分布 , 通过
? 数据分布的 平均 值=N 个测量的﹤x﹥
? 分布的宽度,或 标准偏差, S
注意:由于我们不知道真正的平均数 μ,所以
标准偏差 S,是被 N-1 除的,这样可避免偏差。
总体平均偏差 σ,是被 N 除的。
4
3.051J/BE.340
同等地 偏差, S
2
,可如下定义:
偏振光椭圆率测量
膜厚度(埃)
2. 重要的分布函数
A. 高斯(正态)分布
? 描述主要由 扩散力 控制的过程
例子:细胞迁移
? 属于随机误差或波动的过程( +或 - 可能对等)
例子:细胞吸附于表面
样
品
数
量
5
3.051J/BE.340
对于正态分布,测量值 x 出现的概率 P 如下:
其中 μ为总体平均数, σ为总体标准差。
真数据与分布
? 包含有限量的点
? 当 N→∞ 时,接近理论分布
? 应该可以用来说明测量平均值的标准偏差( <X>) (当 N→∞ 时 <X>→μ)
? 平均值的标准偏差, Sm(也称为 标准误差 ) :
}
68%的值落在 μ± σ
95%的值落在 μ±2 σ
68% 的 <X>测量值
落在 μ± Sm
95% 的 <X>测量值
落在 μ± 2Sm
对于大容量的数
据用作“置信区
间”
6
3.051J/BE.340
B.学生氏 t 分布
? 适合于 小容量样本 ( N<30)
(可被用于满足条件的任何容量 )
式中 P
0
是被选定的常数,以便概率曲线下的面积和恒等于 1( P 积分得到)并且 t 是统
计量:
? t 分布的用途
ⅰ)计算小容量样本均数的 置信区间
区间 x,在该区间 p% 置信得到总体平均值 μ。
根据 W.S.Gossett 而命名,其于
1900s 以笔名“ Student”发表关
于统计方面的研究。
正态分布
7
3.051J/BE.340
2
p1
t
+
是给定的 置信水平为 P (如:90%,95%,99%)和 自由度 ν=N-1 的样本容量 临界 t 值 。
2
1 p
t
+
是从 tp分布百分图 中得到的(参见印刷材料)
实例: 11 种细胞迁移速度的测量值。什么是平均迁移速度的 95%置信区间?
测量# 迁移速度( μm/min)
1 62
2 52
3 68
4 23
5 34
6 45
7 27
8 42
9 83
10 56
11 40
ν=10
t
.5(1+.95)
= t
.975
=2.23(来自表中)
1.计算< x>
8
3.051J/BE.340
2.计算Sm
真实平均( μ)迁移速度是 95%,可在以下区间得到:
ⅱ)评价样品容量是否是统计学上存在差异
对于 两个样本的 t-测试:
对于某些置信区间,测出 μx ≠ μx’
9
3.051J/BE.340
式中 σp= 总体容量 的标准偏差
实例: 表面改性改变细胞粘附的百分含量?
细胞粘附于控制表面的分数 细胞粘附于改性表面的分数
0.225 0.209
0.262 0.205
0.217 0.196
0.240 0.210
0.230 0.202
0.229 0.207
0.235 0.224
0.217 0.223
0.220
0.201
1.计算< x>,< x’>, S
x
, S
x’
10
3.051J/BE.340
2.计算 σp
3.计算对于 μx =μx’时,2 样品 t 值
4.测试 μx ≠ μx’在 99%置信区间(P <0.01)
对于
11
3.051J/BE.340
-2.92≤t≤2.92
t=3.86 不落在该区间
平均值统计学上不同于 P <0.01,细胞粘附百分比的变化是明显的。
统计显著性
关于生物系统的实验,P <0.05 总体上适合于表示测量值的变化 是随机误差
(仍然无实际的意义! )
“显著性在 5%水平”
(来自表格)
面积 =
t 轴
排除 排除
12
3.051J/BE.340
C. F 分布
? 允许不同总体之间的行为变化的比较
用于测试假设: σ
x
= σ
x’
定义统计量:
χ
ν1
=ν
1
S
2
/σ
2
式中 ν
1
是自由度
则 F=
2
2
2
1
2
1
v
X
v
X
v
v
对于 σ
x
= σ
x’
? F=
2
'
2
x
x
S
S
测试差异过程的假设:
1. 计算
2
x
S 和
2
'x
S (自由度,分别地, v
1
=N-1, v
2
=N’-1)
2. 计算 F
3. 在 F-分布表中查得临界值 F 的自由度 v
1
, v
2
,和期望置信区间 P
4. 对于
2
1 p
F
?
< F<
2
1 p
F
+
? σ
x
= σ
x’
根据英国统计学家
Ronald A. Fisher 先生
命名
13
3.051J/BE.340
实例: C5a 血液产品的测量,一种方式是暴露于体外的过滤装置,一种是管状方式,但是
有不同的可变性。在 95%置信度范围内标准偏差有差异吗?
控制方式(仅为管式) : S
x’
2
=26(μg/ml)
2
,ν
2
=9
过滤装置: S
x
2
=32(μg/ml)
2
,ν
2
=7
1.计算 S
x
2
和 S
x’
2
(提供)
2. 计算 F
F=
2
'
2
x
x
S
S
=32/26=1.231
3. 根据 F-分布图表中确定临界值 F
ν
1
=7 和 ν
2
=9( m,n 用于表中)
对于 0.207 ≤ F ≤4.20 ? σ
x
= σ
x’
F=1.231 落在该区间
结论是 σ值对于两个体系是相同的 !
14
3.051J/BE.340
D.其它分布
? 放射性衰变 ? 泊松分布
? 只有 2 个可能的输出 ? 二项式分布
3.计算值的标准偏差
? 假如 量 z 是测量参数的函数
Z=f (x,y,…)
Sz 是什么? 假设: () yxxfz ,= …. )
Z 与总体值的差异( δz)可被如下表示:
Z 的标准偏差可按下式计算:
实例: 测量细胞的运动性( μ)和耐受性( P)以了解速度的标准偏差。
重排成
15
3.051J/BE.340
4. 数据的最小二乘法分析(线性回归)
? 拟合成数据吻合最好的直线
假设我们已经测量了配体与受体的键合:
平衡常数被描述成: K=[C]/[L][R]
ν = 受体分数 = [C]/( [C]+[R]) = K[L]/( 1+K[L])
1/ν = 1+1/K[L]
L+R=C
配体 -受体键合数据
16
3.051J/BE.340
问题: 从数字上如何得到最能代表这些数据点的线性方程?
答案: 最小化从每个点得到的线性 方差
线中任何一个给定测量点( x
i
,y
i
)的偏差:
式中 m 和 b 是直线的斜率和截距
最小化标准可表示成如下形式:
最小值
数学上,需要:
提示: 这是在数据处
理中的 通用方法 ,不
依赖于拟合函数。
17
3.051J/BE.340
解这两个方程,求得两个未知量(与直线吻合最好的 m 和 b) ,可得到:
? 直线拟合的量化误差
假设每个 yi 的误差未知 (如:是一个单一量的测量 ):
回归线的标准偏差为:
σ=
2?N
M
下列假设:
- 该直线数据点为正态分布
- 数据点的扩充是全部数据范围内的类似放大
拟合“优度”可通过 相关系数 , r 进一步表征( 确定系数, r
2
) ,计算:
对于一个“理想拟合”
M=0? r
2
=1
对于 r2=1,<y>代表数
据和线
分母中的 N-2,在计算 m 和 b 时,自由度减
少 2(两点构成一条直线,所以对于 N=2
来说 σ 是无意义的。 )
18
3.051J/BE.340
? 许多计算机、程序和其它数学工具被设计成进行线行最小二乘拟合,以及在相同假
设下适合更复杂方程。
? 许多非线性方程通过对两边取对数可线形化。
如:
参考文献:
1) D.C.Baird,《 实验: 测试理论及实验设计简介》 , 第二版 , Prentice Hall, Englewood Cliff,
NY( 1998)
2) D.C.Montgomery, 《实验的设计和分析》 ,第三版, John Wiley 和 Sons, New York, NY
(1991)
3) A.Goldstein, 《生物统计学:引导课程》 , MacMillan Co., New York, NY (1964).
4) C.I.Bliss, 《生物统计学》 ,第二卷, McGraw-Hill, Inc. New York, NY (1970)
5) R.J.Larson 和 M.L.Marx, 《数学统计及其应用简介》 , 第二版, Prentice-Hall, Englewood,
HJ( 1986)
成为
或