1 3.051J/BE.340 第 15 讲 生物材料研究的统计分析 1. 基本原理:统计分析对生物材料的分析为何是必需的? ? 许多误差源 存在于生命系统的检测过程! 有关生物材料数据误差和测量值方面的举例 2 3.051J/BE.340 实例: 粘附于生物材料的 细胞沉降百分率分析 (最简单的细胞分析) 数据发生变化的几个原因: ? 表面污染 ? 产生细胞毒素或改变了表面化学性质 ? 每个表面种子细胞数量上的差异 ? 生物材料合成方面的差异(反应物数量、温度、时间等) ? 细胞自身的差异(不同的细胞传代过程) ? 介质上的差异(如:不同的浓度,蛋白群) ? 灭菌过程的差异 ? 研究者带来的误差(如:对着样品打喷嚏) ? 生物行为是最适宜通过 样本容量 或数值 分布 进行表征 实例 : NaOH 溶液与等摩尔 HCl 溶液的滴定。 3 3.051J/BE.340 当 N→∞ 时,数据趋向于群体: ? 目的: 测量足够的数据以 精确表征性能的分布 , 通过 ? 数据分布的 平均 值=N 个测量的﹤x﹥ ? 分布的宽度,或 标准偏差, S 注意:由于我们不知道真正的平均数 μ,所以 标准偏差 S,是被 N-1 除的,这样可避免偏差。 总体平均偏差 σ,是被 N 除的。 4 3.051J/BE.340 同等地 偏差, S 2 ,可如下定义: 偏振光椭圆率测量 膜厚度(埃) 2. 重要的分布函数 A. 高斯(正态)分布 ? 描述主要由 扩散力 控制的过程 例子:细胞迁移 ? 属于随机误差或波动的过程( +或 - 可能对等) 例子:细胞吸附于表面 样 品 数 量 5 3.051J/BE.340 对于正态分布,测量值 x 出现的概率 P 如下: 其中 μ为总体平均数, σ为总体标准差。 真数据与分布 ? 包含有限量的点 ? 当 N→∞ 时,接近理论分布 ? 应该可以用来说明测量平均值的标准偏差( <X>) (当 N→∞ 时 <X>→μ) ? 平均值的标准偏差, Sm(也称为 标准误差 ) : } 68%的值落在 μ± σ 95%的值落在 μ±2 σ 68% 的 <X>测量值 落在 μ± Sm 95% 的 <X>测量值 落在 μ± 2Sm 对于大容量的数 据用作“置信区 间” 6 3.051J/BE.340 B.学生氏 t 分布 ? 适合于 小容量样本 ( N<30) (可被用于满足条件的任何容量 ) 式中 P 0 是被选定的常数,以便概率曲线下的面积和恒等于 1( P 积分得到)并且 t 是统 计量: ? t 分布的用途 ⅰ)计算小容量样本均数的 置信区间 区间 x,在该区间 p% 置信得到总体平均值 μ。 根据 W.S.Gossett 而命名,其于 1900s 以笔名“ Student”发表关 于统计方面的研究。 正态分布 7 3.051J/BE.340 2 p1 t + 是给定的 置信水平为 P (如:90%,95%,99%)和 自由度 ν=N-1 的样本容量 临界 t 值 。 2 1 p t + 是从 tp分布百分图 中得到的(参见印刷材料) 实例: 11 种细胞迁移速度的测量值。什么是平均迁移速度的 95%置信区间? 测量# 迁移速度( μm/min) 1 62 2 52 3 68 4 23 5 34 6 45 7 27 8 42 9 83 10 56 11 40 ν=10 t .5(1+.95) = t .975 =2.23(来自表中) 1.计算< x> 8 3.051J/BE.340 2.计算Sm 真实平均( μ)迁移速度是 95%,可在以下区间得到: ⅱ)评价样品容量是否是统计学上存在差异 对于 两个样本的 t-测试: 对于某些置信区间,测出 μx ≠ μx’ 9 3.051J/BE.340 式中 σp= 总体容量 的标准偏差 实例: 表面改性改变细胞粘附的百分含量? 细胞粘附于控制表面的分数 细胞粘附于改性表面的分数 0.225 0.209 0.262 0.205 0.217 0.196 0.240 0.210 0.230 0.202 0.229 0.207 0.235 0.224 0.217 0.223 0.220 0.201 1.计算< x>,< x’>, S x , S x’ 10 3.051J/BE.340 2.计算 σp 3.计算对于 μx =μx’时,2 样品 t 值 4.测试 μx ≠ μx’在 99%置信区间(P <0.01) 对于 11 3.051J/BE.340 -2.92≤t≤2.92 t=3.86 不落在该区间 平均值统计学上不同于 P <0.01,细胞粘附百分比的变化是明显的。 统计显著性 关于生物系统的实验,P <0.05 总体上适合于表示测量值的变化 是随机误差 (仍然无实际的意义! ) “显著性在 5%水平” (来自表格) 面积 = t 轴 排除 排除 12 3.051J/BE.340 C. F 分布 ? 允许不同总体之间的行为变化的比较 用于测试假设: σ x = σ x’ 定义统计量: χ ν1 =ν 1 S 2 /σ 2 式中 ν 1 是自由度 则 F= 2 2 2 1 2 1 v X v X v v 对于 σ x = σ x’ ? F= 2 ' 2 x x S S 测试差异过程的假设: 1. 计算 2 x S 和 2 'x S (自由度,分别地, v 1 =N-1, v 2 =N’-1) 2. 计算 F 3. 在 F-分布表中查得临界值 F 的自由度 v 1 , v 2 ,和期望置信区间 P 4. 对于 2 1 p F ? < F< 2 1 p F + ? σ x = σ x’ 根据英国统计学家 Ronald A. Fisher 先生 命名 13 3.051J/BE.340 实例: C5a 血液产品的测量,一种方式是暴露于体外的过滤装置,一种是管状方式,但是 有不同的可变性。在 95%置信度范围内标准偏差有差异吗? 控制方式(仅为管式) : S x’ 2 =26(μg/ml) 2 ,ν 2 =9 过滤装置: S x 2 =32(μg/ml) 2 ,ν 2 =7 1.计算 S x 2 和 S x’ 2 (提供) 2. 计算 F F= 2 ' 2 x x S S =32/26=1.231 3. 根据 F-分布图表中确定临界值 F ν 1 =7 和 ν 2 =9( m,n 用于表中) 对于 0.207 ≤ F ≤4.20 ? σ x = σ x’ F=1.231 落在该区间 结论是 σ值对于两个体系是相同的 ! 14 3.051J/BE.340 D.其它分布 ? 放射性衰变 ? 泊松分布 ? 只有 2 个可能的输出 ? 二项式分布 3.计算值的标准偏差 ? 假如 量 z 是测量参数的函数 Z=f (x,y,…) Sz 是什么? 假设: () yxxfz ,= …. ) Z 与总体值的差异( δz)可被如下表示: Z 的标准偏差可按下式计算: 实例: 测量细胞的运动性( μ)和耐受性( P)以了解速度的标准偏差。 重排成 15 3.051J/BE.340 4. 数据的最小二乘法分析(线性回归) ? 拟合成数据吻合最好的直线 假设我们已经测量了配体与受体的键合: 平衡常数被描述成: K=[C]/[L][R] ν = 受体分数 = [C]/( [C]+[R]) = K[L]/( 1+K[L]) 1/ν = 1+1/K[L] L+R=C 配体 -受体键合数据 16 3.051J/BE.340 问题: 从数字上如何得到最能代表这些数据点的线性方程? 答案: 最小化从每个点得到的线性 方差 线中任何一个给定测量点( x i ,y i )的偏差: 式中 m 和 b 是直线的斜率和截距 最小化标准可表示成如下形式: 最小值 数学上,需要: 提示: 这是在数据处 理中的 通用方法 ,不 依赖于拟合函数。 17 3.051J/BE.340 解这两个方程,求得两个未知量(与直线吻合最好的 m 和 b) ,可得到: ? 直线拟合的量化误差 假设每个 yi 的误差未知 (如:是一个单一量的测量 ): 回归线的标准偏差为: σ= 2?N M 下列假设: - 该直线数据点为正态分布 - 数据点的扩充是全部数据范围内的类似放大 拟合“优度”可通过 相关系数 , r 进一步表征( 确定系数, r 2 ) ,计算: 对于一个“理想拟合” M=0? r 2 =1 对于 r2=1,<y>代表数 据和线 分母中的 N-2,在计算 m 和 b 时,自由度减 少 2(两点构成一条直线,所以对于 N=2 来说 σ 是无意义的。 ) 18 3.051J/BE.340 ? 许多计算机、程序和其它数学工具被设计成进行线行最小二乘拟合,以及在相同假 设下适合更复杂方程。 ? 许多非线性方程通过对两边取对数可线形化。 如: 参考文献: 1) D.C.Baird,《 实验: 测试理论及实验设计简介》 , 第二版 , Prentice Hall, Englewood Cliff, NY( 1998) 2) D.C.Montgomery, 《实验的设计和分析》 ,第三版, John Wiley 和 Sons, New York, NY (1991) 3) A.Goldstein, 《生物统计学:引导课程》 , MacMillan Co., New York, NY (1964). 4) C.I.Bliss, 《生物统计学》 ,第二卷, McGraw-Hill, Inc. New York, NY (1970) 5) R.J.Larson 和 M.L.Marx, 《数学统计及其应用简介》 , 第二版, Prentice-Hall, Englewood, HJ( 1986) 成为 或