第二篇 高级统计方法第十一章 多因素设计试 验第一节 析因设计试验
1,含义与特点:
析因设计是多因素多水平的设计类型,既可分析各因素的单独作用,即每个因素的水平间效应有无差异,还可分析因素间的交互作用,即某因素的水平改变可造成其它因素的效应发生改变。
它是将每个因素的所有水平组合在一起,每种组合作为一种处理组,每一组有若干例重复,因此在因素和水平数较多时,样本含量要相当大。
析因设计的各因素水平数可以相等,也可不等。
各因素的组合数等于各因素水平数的乘积。
…… …… …… ……
2,模式:例如两因素(甲、乙)两水平( 1,2)
的析因设计实验,共有四种搭配,分为四组:
A B C D
(甲 1乙 1) (甲 1乙 2) (甲 2乙 1) (甲 2乙 2)
3,随机化:将观察对象按完全随机方法分配到各处理组中,或按区组随机。

区组

例 11-1 将 20家兔随机等分 4组,每组 5只,进行神经损伤后的缝合试验。处理由两个因素组合而成,A因素为缝合方法,有两水平,一水平为外膜缝合,记作,另一水平为束膜缝合,记作
,B因素为缝合后的时间,有两水平,一水平为缝合后 1个月,记作,另一水平为缝合后 2个月,记作 。试验结果为家兔神经缝合后的轴突通过率 (%)(注:测量指标,视为计量资料),见表 11-1,试做析因分析。
2a
1a
1b
2b
表 11-1 家兔神经缝合后的轴突通过率 (%)
A(方法 ) 外膜缝合 ( ) 束膜缝合 ( )
B(时间 ) 1月 ( ) 2月 ( ) 1月 ( ) 2月 ( )
10 30 10 50
10 30 20 50
40 70 30 70
50 60 50 60
10 30 30 30
24 44 28 52
120 220 140 260 740
4400 11200 4800 14400 34800
合计
1b 2b 1b 2b
1a 2a
2iX?
iX
表 -2 2因素 2水平析因试验均数差别
B因素
24 44 34 20
28 52 40 24
26 48 22
4 8 6
单独效应,其它因素水平固定,某因素水平间的差异。
主效应,某因素各水平间的平均差别。
交互作用,某因素的单独效应随另一因素水平变化而改变。
12 aa?
12 bb?
2a
1a
2b1b
A因素 平均平均表 11-5 例 11-1析因试验结果的方差分析表变异来源 自由度 SS MS F P
总变异 19 7420
(处理组间) ( 3) ( 2620)
A 1 180 180 0.60 >0.05
B 1 2420 2420 8.07 <0.05
AB 1 20 20 0.07 >0.05
误差 16 4800 300
误差处理总 += SSSSSS 交互处理 ++ SSSSSSSS BA?
第 二节 正交设计正交设计试验是一种多因素多水平的试验,
它是按照正交表的设计安排试验。
正交设计试验不仅能分析各因素的单独效应及效应的主次,还可分析因素间的交互作用,找出诸因素各水平的最佳组合。
正交设计试验是一种各因素各水平的部分组合试验,因此和析因设计相比较为节省。
正交设计试验的组合数计算:
组合数= (水平数- 1)× 因素数+ 1
。=+)-,(= 817121282 7?
正交设计是以牺牲分析各因素的部分或大部分交互作用为代价的,因此最佳组合也是相对的。
正交试验资料的分析方法可采用直观分析和方差分析。
表 11-13 正交表处理 列 号方案号 1 2 3 4 5 6 7
1 1 1 1 1 1 1 1
2 1 1 1 2 2 2 2
3 1 2 2 1 1 2 2
4 1 2 2 2 2 1 1
5 2 1 2 1 2 1 2
6 2 1 2 2 1 2 1
7 2 2 1 1 2 2 1
8 2 2 1 2 1 1 2
)2( 78L
正交表的性质:
1.每列中各水平出现的次数相等;
相邻两列的水平组合出现的次数相等。
正交设计表的表头设计因素 实施 列号个数 比例 1 2 3 4 5 6 7
3 1 A B AB C AC BC ABC
4 1/2 A B AB=CD C AC=BD BC=AD D
实施比例= 1为析因设计,三个因素各有用和不用两个水平,他们的全搭配共有以下 8种 ( 用为 1,不用为 0)。
)2( 78L
。000111110101
011100010001
,,,
,,,,
CBACBACBACBA
CBACBACBACBA
例 11-4 研究雌螺产卵的最优条件,在 的泥盒里饲养同龄雌螺 10只,试验条件有 4个因素(表 11-15),每个因素 2个水平。试在考虑温度与含氧量对雌螺产卵有交互作用的情况下安排正交试验。
表 11-15 雌螺产卵条件因素与水平因素 A因素 B因素 C因素 D因素水平 温度 (℃ ) 含氧量 (%) 含水量 (%) pH值
1 5 0.5 10 6.0
2 25 5.0 30 8.0
220cm
表 11-16 雌螺产卵条件的正交试验结果试验 A因素 B因素 C因素 D因素 产卵序号 温度 (℃ ) 含氧量 (%) 含水量 (%) pH值 数量
1 5 0.5 10 6.0 86
2 5 0.5 30 8.0 95
3 5 5.0 10 8.0 91
4 5 5.0 30 6.0 94
5 25 0.5 10 8.0 91
6 25 0.5 30 6.0 96
7 25 5.0 10 6.0 83
8 25 5.0 30 8.0 88
1.直接分析表 11-20 雌螺产卵条件的 正交试验结果试验 1 2 3 4 5 6 7
序号 (A) (B) (AB) (C) (D) X
1 1 1 1 1 1 1 1 86
2 1 1 1 2 2 2 2 95
3 1 2 2 1 1 2 2 91
4 1 2 2 2 2 1 1 94
5 2 1 2 1 2 1 2 91
6 2 1 2 2 1 2 1 96
7 2 2 1 1 2 2 1 83
8 2 2 1 2 1 1 2 88
366 368 352 351 … … 359
358 356 372 373 … … 365 724
)2( 78L
kT2
X?
kT1
试验结果
181
185
187
171
表 11-20 雌螺产卵条件的 正交试验方差分析表变异来源 自由度 SS MS F P
总变异 7 146.0
A(温度 ) 1 8.0 8.0 3.2 >0.05
B(含氧量 ) 1 18.0 18.0 7.2 >0.05
C(含水量 ) 1 60.5 60.5 24.2 <0.05
D(pH值 ) 1 4.5 4.5 1.8 >0.05
AB 1 50.0 50.0 20.0 <0.05
误差 2 5.0 2.5
)2( 78L
补充,层次分组设计受试对象先按甲因素分为几个大组,再按乙因素分为几个小组,每个小组又按丙因素分为几个亚小组,…… 。前提是每个受试对象都具备一再分组所需的各种因素。
甲因素 一 二 三,…..
乙因素 1 2 3 1 2 3 1 2 3
丙因素 ①② ①② ①② ①② ①② ①② ①② ①② ①②……
层次分组设计的模式第 三节 嵌套设计嵌套设计的处理不是各因素各水平的全面组合,而是各因素按其隶属关系系统分组,分为一级、二级、三级 …… 处理因素。嵌套设计各因素的水平没有交叉,处理组数为最小级别处理因素的水平数合计。
A因素 无负荷 ( ) 有负荷 ( )
B因素 0.5m 1.5m 2.0m 0.5m 0.8m 1.0m
( ) ( ) ( ) ( ) ( ) ( )
2a1a
13b 23b12b11b 22b21b
嵌套设计与层次分组设计的区别在于次级因素的水平,
层次分组设计的次级因素是相同的,而嵌套设计的次级因素水平可以是不同的。
……
例 11-6 试验甲、乙、丙三种催化剂在不同温度下对某化合物的转化作用。由于各催化剂所要求的温度范围不同,将催化剂作为一级实验因素( I=3),温度作为二级实验因素( J=3),采用嵌套设计,每个处理重复 2
次( n=2),试验结果见表 11-25,试做方差分析。
表 11-25 某化合物的转化率( %)
催化剂 A B C
温度( ℃ ) 70 80 90 55 65 75 90 95 100
试验 82 91 85 65 62 56 71 75 85
结果 84 88 83 61 59 60 67 78 89
Tm 166 179 168 126 121 116 138 153 174
Ai 513 363 465
( X1)
( X2)
表 11-26 某化合物的转化率方差分析表变异来源 自由度 SS MS F P
总变异 17 2406.5
催化剂 2 1956.0 978.0 117.82 <0.01
温度 /催化剂 6 401.0 66.8 12.15 <0.01
误差 9 49.5 5.5
第 四节 裂区设计裂区设计是带有区组的析因设计的一种特殊形式,在全区试验无法进行时,将全区组分解成几个裂区组,析因设计就成为裂区设计。
表 11-27 3× 2析因试验全区设计模式区组 A因素 (1) A因素 (2) A因素 (3)
编号 B因素 (1) B因素 (2) B因素 (1) B因素 (2) B因素 (1) B因素 (2)
1
2
3
22ba12ba
11ba 21ba
21ba
12ba
12ba
22ba
22ba
13ba
13ba
23ba
23ba11ba
13ba 23
ba
21ba11ba
…… …… …… …… …… ……
n
……
例 11-7 试验一种全身注射抗毒素对皮肤损伤的保护作用,将 10只家兔随机等分两组,一组注射抗毒素,一组注射生理盐水作对照。分组后,
每只家兔取甲、乙两部位,分别随机分配注射低浓度毒素和高浓度毒素,观察指标为皮肤受损直径 (mm),试验结果见表 11-31。试做方差分析。
表 11-31 家兔皮肤损伤直径 (mm)
注射药物 随机化后 毒素浓度 (B因素 ) 家兔
(A因素 ) 家兔编号 低浓度 ( ) 高浓度 ( ) 小计
1 15.75 19.00 34.75
2 15.50 20.75 36.25
3 15.50 18.50 34.00
4 17.00 20.50 37.50
5 16.50 20.00 36.50
6 18.25 22.25 40.50
7 18.50 21.50 40.00
8 19.75 23.50 43.25
9 21.50 24.75 46.25
10 20.75 23.75 44.50
合 计 10 179.00 214.50 393.50
)( 1a
2b1b
)( 2a
抗毒素生理盐水表 11-32 家兔皮肤损伤直径方差分析表变异来源 自由度 SS MS F P
二级单位总计 ( 19)( 146.1375)
家兔间 ( 9) ( 81.0125)
注射药物( A) 1 63.0125 63.0125 28.01 <0.01
一级单位误差 8 18.0000 2.2500
部位间 (10) (65.1250)
毒素浓度( B) 1 63.0125 63.0125 252.05 <0.01
AB 1 0.1125 0.1125 0.45 >0.05
二级单位误差 8 2.0000 0.2500
第十二章 重复测量设计(资料采用方差分析)
一、前后测量设计每个观察单位在某种处理前和处理后分别对某指标进行两次测定,称为前后测量设计,与配对设计的区别如下:
前后测量设计 配对设计处理分配 无法随机 随机观察时间 前后观察 同期观察结果与差值 不独立 独立结果分析 平均差值、相关回归 平均差值观察单位 一个 两个或一个二、设立对照的前后测量设计表 12-2 高血压患者治疗前后的舒张压( mmHg)
处理组 对照组治疗前 治疗后 差值 ( d) 治疗前 治疗后 差值 ( d)
1 130 114 16 11 118 124 - 6
2 124 110 14 12 132 122 10
3 136 126 10 13 134 132 2
4 128 116 12 14 114 96 18
5 122 102 20 15 118 124 - 6
6 118 100 18 16 128 118 10
7 116 98 18 17 118 116 2
8 138 122 16 18 132 122 10
9 126 108 18 19 120 124 - 4
10 124 106 18 20 134 128 6
合计 1262 1102 160 合计 1248 1206 42
均数 126.2 110.2 16.0 均数 124.8 120.6 4.2
标准差 7.08 9.31 3.13 标准差 7.90 9.75 8.02
患者号患者号三、重复测量设计:测量次数 ≥3
表 12-3资料类似表 12-1,表 12-5资料类似表 12-2。
重复测量设计 随机区组设计处理分配 处理随机,时间固定 处理随机观察时间 前后观察 同期观察结果 不独立 独立观察单位 一个,处理相同 多个,处理不同结果分析 相应的方差分析 相应的方差分析表 12- 3资料无处理分组,表 12- 5有处理分组。
第十三章 协方差分析
1.协方差分析的概念:
如果需要比较某变量( Y)的组间差异,但 Y
变量受 X变量的影响,因此必须将与 Y变量呈直线关系的 X变量化为相等后,再检验各 Y均数的显著性,这种把直线回归和方差分析结合起来的分析方法称为协方差分析。
2.协方差分析的基本思想是:
将那些在实验中未加控制或无法控制,但可对所要比较的 Y变量可产生影响的变量看协变量,
建立应变量 Y随协变量 X变化的线性回归关系,并利用这种回归关系把 X值化为相等后,再进行各组
Y的修正均数间差别的假设检验,其实质就是从 Y
的总平方和中扣除协变量 X对 Y的回归平方和,对残差平方和作进一步分解后再进行方差分析,以更好地评价各种处理的效应。
3.协方差分析的应用条件:
( 1)各观测变量服从正态分布并相互独立;
( 2)各样本的总体方差相等;
( 3)各总体客观存在应变量对协变量的回归关系,且斜率相同比较 A,B两种中药对兔血压的影响
A B
开始血压 降值 开始血压 降值
90 34 92 20
135 55 130 40
130 50 128 30
115 45 120 25
110 30 110 25
140 45 130 50
130 45 130 40
… … … …
1X 2X1Y 2Y
例 13-1 为研究 A,B,C三种饲料对猪的催肥效果,用每种饲料喂养 8头猪一段时间,测得每头猪的初始重量( X)和增重( Y)数据见表 13-3上半部。试分析三种饲料对猪的催肥效果是否相同。
表 13-3 三种饲料喂养猪的初始重量与增重(单位,kg)
A饲料 B饲料 C饲料
X1 Y1 X2 Y2 X3 Y3
15 85 17 97 22 89
13 83 16 90 24 91
11 65 18 100 20 83
12 76 18 95 23 95
12 80 21 103 25 100
16 91 22 106 27 102
14 84 19 99 30 105
17 90 18 94 32 110
合计 110 654 149 784 203 775
表 13-4 例 13-1 资料的方差分析表变异来源 自由度 SS MS F P
总变异 23 255.958
组间变异 2 1317.792 658.792 11.17 <0.01
组内变异 21 1238.375 58.970
表 13-4 例 13-1 资料的协方差分析表离均差平方和及积和 估计误差总变异 23 720.50 1080.75 2555.96 22 934.84
组间变异 2 545.25 659.88 1317.58
组内变异 21 175.25 420.87 1238.38 20 227.64 11.38
修正均数 2 707.20 353.60 31.07
XXl XYl YYl
2?)( YY
变异来源 F
MS
例 13-2 为研究三种饲料对增加大白鼠体重的影响,有人按随机区组设计将初始体重相近的 36
只大白鼠分成 12个区组,再将每个区组的 3只大白鼠随机分入 A,B,C三种饲料组,但在实验设计时未对大白鼠的进食量加以限制。三组大白鼠的进食量( X)和所增体重( Y)的原始资料见表 13-
6上半部,现欲比较三组大白鼠平均增重有无差别,同时要扣除进食量因素的影响。
表 13-6 三组大白鼠的进食量与增重(单位,g)
A组 B组 C组 合 计区 组 X1 Y1 X2 Y2 X3 Y3 X Y
1 256.9 27.0 260.3 32.0 544.7 160.3 1061.9 219.3
2 271.6 41.7 271.1 47.1 481.2 96.1 1023.9 184.9
3 210.2 25.0 214.7 36.7 418.9 114.6 843.8 176.3
4 300.1 52.0 300.1 65.0 556.6 134.8 1156.8 251.8
5 262.2 14.5 269.7 39.0 394.5 76.3 926.4 129.8
6 304.4 48.8 307.5 37.9 426.6 72.8 1038.5 159.5
7 272.4 48.0 278.9 51.5 416.1 99.4 967.4 198.9
8 248.2 9.5 256.2 26.7 549.9 133.7 1054.3 169.9
9 242.8 37.0 240.8 41.0 580.5 147.0 1064.1 225.0
10 342.9 56.5 340.7 61.3 608.3 165.8 1291.9 283.6
11 356.9 76.0 356.3 102.1 559.6 169.8 1272.8 347.9
12 198.2 9.2 199.2 8.1 371.9 54.3 769.3 71.6
表 13-7 例 13-2资料的协方差分析表离均差平方和及积和 估计误差总变异 35 508150.076 187349.144 75786.356
饲料间 2 383620.127 135607.964 48297.627
白鼠间 11 87586.703 36638.307 19089.116
误差 22 36943.246 15102.873 8399.613 21 2225.36 105.97
饲料+误差 24 420563.373 150710.837 56697.240 23 2689.31
修正均数 2 463.95 231.98 2.91
XXl XYl YYl
2?)( YY
F? MS变异来源第十四章 多变量数据的分析所谓多变量数据是指有多个效应变量,分析方法是建立在单变量分析的基础上,综合考虑多个效应变量,采用适合多变量的向量和矩阵的表示方法。
多变量数据的统计描述包括均数向量、离差矩阵、
协方差矩阵和相关矩阵。统计推断包括样本和总体比较、
完全随机设计的两组比较和多组比较、重复测量资料的多变量分析。
将多个变量的均数绘制成曲线图,多变量数据还可以作轮廓分析,包括分析组间的曲线是否平行、是否重合是否水平轮廓等。
例 14-1 在一项健康调查中,随机抽取某单位 16
名正常成年男性血脂,记录甘油三酯( mmol/L)、
总胆固醇( mmol/L)和高密度脂蛋白胆固醇
( mmol/L),见表 14-1。试对这三个反应变量进行多变量描述。
结果见教材 292页。
统计描述:
表 14-1 15名正常成年男子的血脂含量( mmol/L)
甘油三酯 总胆固醇 高密度脂蛋白
( ) ( ) ( )
1 1.06 2.56 1.93
2 0.98 2.42 1.80
3 0.85 2.35 1.68
4 0.96 2.55 1.34
5 0.98 2.65 2.55
6 0.99 2.60 2.33
7 1.01 2.35 1.93
8 1.02 2.89 1.80
9 1.02 2.54 1.68
10 1.10 2.64 1.34
11 1.06 3.05 2.42
12 0.99 3.21 2.55
13 1.05 2.85 2.42
14 1.20 3.02 2.55
15 1.03 3.25 2.33
序 号
1X 2X 3X
例 14-2 在某单位随机抽取怀疑有冠心病 5名成年男性,测量其甘油三酯( )、总胆固醇
( )和高密度脂蛋白胆固醇( )含量。
根据例 14-1已知,该单位正常成年男性的甘油三酯、
总胆固醇和高密度脂蛋白胆固醇均数分别为
1.02,2.73 和 2.04 。
问该单位怀疑冠心病成年男性的血脂与正常成年男性有无差别?
m m ol /Lm m ol /Lm m ol /L
m m ol /L m m ol /L
m m ol /L
单组比较 (样本与总体比较 ):
表 14-2 可疑冠心病成年男性与正常成年男性的血脂差别 (mmol/L)
观察对象 甘油三脂 总胆固醇 高密度脂蛋白序 号 (X1-1.02) (X2-2.73) (X3-2.04)
1 1.78 0.83 - 1.01
2 0.67 0.96 - 0.84
3 0.56 0.83 - 0.39
4 0.66 1.12 - 1.03
5 0.21 0.16 0.40
分析结果见教材 294页。
例 14-3 某妇幼保健院将孕妇随机分两组,一组接受孕期保健教育,另一组作为对照。表 14-3是同一日出生的 13名顺产新生儿的体重和身长,问孕期保健教育对新生儿生长发育有促进?
两组比较:
表 14-3 13名新生儿出生时的生长发育状况编号 保健教育组 编号 对照组体重 (kg) 身长 (cm) 体重 (kg) 身长 (cm)
1 3.05 50 7 3.20 50
2 4.10 50 8 3.00 46
3 3.50 53 9 3.00 45
4 3.64 50 10 3.35 47
5 3.60 52 11 2.60 50
6 4.00 55 12 3.55 52
13 3.55 52
例 14-4 将患慢性胃炎的儿童随机分为组,其中 I组,II组为治疗组,另一组作为对照,试比较治疗药物对 T细胞免疫功能(外周血 T3,T4,T8细胞百分比)的影响。表 14-5是其中部分儿童的 T细胞免疫功能的测量结果,试按表 14-4计算。
分析结果见教材 301页。
多组比较:
表 14-5 三组慢性胃炎儿童的 T细胞免疫功能( %)
治疗 I 组 治疗 Ⅱ 组 对照组
1 63.6 30.2 31.2 1 53.4 22.5 25.0 1 72.4 42.5 29.9
2 60.0 30.0 33.4 2 46.5 20.0 14.6 2 75.0 49.5 29.3
3 63.2 35.3 27.9 3 38.1 25.9 18.1 3 75.9 30.0 40.0
4 32.1 12.1 11.8 4 70.0 32.0 36.4
5 72.8 36.7 33.1
重复测量资料的多变量分析(略)
4T
编号编号编号
3T8T4T3T8T4T3T 8T
例 14-7 分别对 50 名硕士生和 30名博士生进行健康状况抽样调查。调查问卷设计了如下七个问题,
① 对自己健康状况的满意程度( );
②是否需要调养身体( );
③身体有不适或不舒服的感觉( );
④有生病的感觉( );
⑤有紧张情绪和压力感( );
⑥晚间休息感到不能很快入睡( );
⑦吃饭有时觉得胃口不好( )。
每个问题的回答从好到差按 4个等级记分(分别赋值 1、
2,3,4),调查结果见表 14-10,7个问题的平均得分的轮廓图见图 14-4,问每个问题硕士生和博士生的回答结果是否相同?
1X
7X
6X
5X
4X
3X
2X
轮廓分析:
表 14-10 两组研究生健康调查问卷的平均得分问题 1 问题 2 问题 3 问题 4 问题 5 问题 6 问题 7
硕士生 2.02 2.32 2.18 1.98 2.44 2.06 2.16
博士生 2.03 2.30 2.27 1.90 2.27 1.90 2.13
分析结果:
经平行检验可以认为两个总体的轮廓相互平行;
经相合检验可以认为两个总体的轮廓重合;
经水平轮廓检验可以认为两个样本合并后总体的轮廓不是一条直线。










1
2
3
..,...........
变量
1 2 3 4 5 6 7
平均得分图 14-4 两组研究生健康调查问卷 7个问题的均分第十五章 多元线性回归多元线性回归是分析多个自变量 X与一个应变量 Y间关系的方法,建立一个包括所有 X变量在内的多元线性回归方程,说明各 X变量与 Y变量的回归关系,从而通过各 X变量的大小估计 Y变量。
多元线性回归分析分为两个步骤:
1.根据样本数据求得多元线性回归方程:
2.对回归方程及各个自变量进行假设检验,并对方程的拟合效果和各个自变量的作用大小作出评价。
mm XbXbXbXbY 222110
例 15-1 27名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表 15-2中,试建立血糖与其他几项指标关系的多元线性回归方程。
表 15-2 27名糖尿病人的血糖及有关变量的测量结果序号 总胆固醇 甘油三脂 胰岛素 糖化血红蛋白 血糖
i ( mmol/L) (mmol/L) (μU/ml) (% ) ( mmol/L)
X1 X2 X3 X4 Y
1 5.68 1.90 4.53 8.21 1.2
2 3.79 1.64 7.32 6.9 8.8
3 6.02 3.56 6.95 10.8 12.3
4 4.85 1.07 5.88 8.3 11.6
5 4.60 2.32 4.05 7.5 13.4
6 6.05 0.64 1.42 13.6 18.3
7 4.90 8.50 12.60 8.5 11.1
8 7.08 3.00 6.75 11.5 12.1
9 3.85 2.11 16.28 7.9 9.6
10 4.65 0.63 6.59 7.1 8.4… … …… ……
本例所求多元回归方程为:
表 15-4 例 13-1 资料的方差分析表变异来源 自由度 SS MS F P
总变异 26 222.5519
回 归 4 133.7107 33.4277 8.28 <0.05
残 差 22 88.8412 4.0382
4321 6382.02706.03515.01424.09433.5? XXXXY
决定系数:
复相关系数:
各自变量的假设检验与评价(略)
7 7 5 1.06 0 0 8.02 RR
6 0 0 8.0
5 5 1 9.2 2 2
7 1 0 7.1 3 3
12 ==-=
总残总回
SS
SS
SS
SS
R?
自变量的选择方法有:
1.全局择优法
( 1)校正决定系数 选择法 —— 最大者为最优方程。
( 2) 选择法 —— 最接近 p+ 1者为最优方程。
p为被选入方程的自变量个数,m为自变量的总数,
并要求 p<m 。
pC
2cR2cR
pC
)1(2
)(
)(
pn
MS
SS
C
m
p
p
残残总残
MS
MS
pn
n
RR c

1
1
1
)1(1 22
2.逐步择优法
( 1)前进法:先将每个 X变量分别与 Y变量做直线回归分析,再按回归平方和的大小将偏回归系数有统计意义的自变量逐个引入多元回归方程。
( 2)后退法:先将所有 X变量与 Y变量做多元线性回归分析,再按回归平方和的小大将偏回归系数无统计意义的自变量逐个踢除出多元回归方程。
( 3)逐步回归法:双向筛选,类似前进法,但是在引入后面的自变量后要对方程中的所有自变量再次检验,将退化为不显著的自变量剔除方程,引入和剔除反复进行,直到没有可引入和剔除的自变量为止。
自变量的选择首先应该由研究者结合问题本身和专业知识以及经验来确定。
注意:
多元线性回归是分析要求应变量 Y为连续变量,
而自变量 X可以是连续变量,也可以是分类变量或有序变量,此时必须进行数量化处理。
第十六章 logistic回归
logistic回归属于概率型非线性回归,是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。
应变量 Y是二值变量( 0,1),自变量 X则既可以是数值变量,也可以是二值变量和有序变量。
二值变量和有序变量是分类变量经过赋值所得。
mm XXXp
pP
2110)
1
ln (
logistic回归的模型为:
logistic回归的线性模型为:
)(e x p1
1
2110 mm XXX
P

logit
第十七章 生存分析生存分析是将事件发生的结果和随访时间两个因素结合在一起进行分析的一种统计分析方法,主要用于医学随访资料中有 不完全数据 时的疗效分析。
Cox比例风险回归模型:
主要用于随访资料的多因素预后研究。
第十八章 判别分析判别分析是已知事物的分类,先根据样本资料制定分类标准,建立判别方程,然后将新对象的资料代入方程,根据计算结果进行归类。
第十九章 聚类分析聚类分析是事先未知事物的类别,根据样本资料的信息,对分析对象的各种特征之间的相关性分析进行分析,从而达到分类的目的。
第二十章 主成分分析与因子分析主成分分析是通过对原始指标相互关系的分析研究,找出少数几个综合指标,这些综合指标是原始指标的线性组合,它们既保留了原始指标的主要信息,又相互独立。这种从众多原始指标之间相关关系入手,寻找少数综合指标以概括原始指标信息的多元统计方法。
因子分析是一种从众多原始指标之间相关关系入手,找到支配这种相关关系的有限个不可观测的潜在变量。
第二十一章 典型相关分析医学实践中有时需要研究两类因素之间的相关情况,每一类因素都可用一组指标表示。典型相关分析就是通过对两组指标的相关性分析,探讨研究两类因素之间的关系。分析时,分别在两组变量中提取有代表性的两个综合变量 U,V (U、
V 分别是每组各变量指标的线性组合 ),利用这两个综合变量之间的相关性来反映原来两组指标之间的整体相关性。
补充,序贯试验序贯试验是对符合条件的观察对象逐个进行试验,试验一个分析一次,一旦得到结论,试验结束。
序贯试验事先应制定试验标准,包括有效、
无效标准和假阳性、假阴性标准。然后绘制序贯试验图,试验结果采用序贯试验图进行分析。
序贯试验可分为:
开放型和闭锁型单向和双向质反应和量反应补充,均匀设计试验均匀设计试验是一种多因素多水平的试验,它是按照均匀设计表和使用表安排试验。
均匀设计试验不仅能分析各因素的单独效应及效应的主次,还可分析因素间的交互作用,找出诸因素各水平的最佳组合。
均匀设计试验是一种部分搭配试验,而且各因素的 每个水平只做一次,因此更为节省,但是可比性较差均匀设计试验资料的分析方法可采用多元线性回归或二次回归分析。
第二十 二章 常用统计预测方法根据现有多变量数据资料的统计分析,建立某种预测模型,对今后的发展趋势进行预测。
第二十 三章 常用综合评价方法在医疗卫生实际工作中,对于复杂的情况,
因同时受到多种因素的影响,必须综合考虑多个有关因素,依据多个有关指标对评价对象进行评判,并排出优劣顺序,这就是综合评价。
第二十四章 量表研制与量表资料的统计方法量表是由若干问题或自我评分指标组成的标准化测定表格,用于间接地测评研究对象的某种不可直接测定的状态,行为或态度。如疼痛、失眠、
幸福感、满意度、情绪抑郁、焦虑症等。
结束