多因素统计分析方法介绍
--探讨结果变量与多个因素之间的关系两因素方差分析数据结构
data structure of two way analysis of variance
xxxxxxxx
xxxxxxxx3
xxxxxxxx2
xxxxxxxx1
321





r
cB
A
因素因素配伍组设计资料方差分析的数据结构
xxxx
xxxx3
xxxx2
xxxx1
321

n
c
A
编号因素两因素方差分析的非参数方法
Friedman’s two way analysis of variance
因子配伍组 1 2? k
1
2
:
n
秩和 (R) R1 R2? Rk
分布的
2
1
2 1~ 21
1
12?k-νknR
knkH
k
j
j
多重回归
Multiple Linear Regression
模型
参数估计方法
最小二乘法( Least Square Estimation)
最大似然法( Maximum Likelihood Estimation)

pp xxxyE
xyE




2211
关于模型选择的话题
变量选择
向前法( Forward)
向后法( Backward)
逐步法( Stepwise)
模型拟合优度( goodness of fit)
残差分析
预后指数( prognostic index)
LOGISTIC回归
结果变量为 2分类变量 (yes/no),其均数为一百分构成。
在多重回归中,解释变量的线性组合预测的是结果变量的均数。在 Logistic回归中,解释变量的线性组合预测的是结果变量的均数的一种变换 ——
(logit变换 )
Logit变换
Logistic回归模型
ppep 1lo glo g it
pp xxxp2211l og i t
40岁以上男性高血压例
40岁以上男性高血压吸烟 肥胖 打鼾 人数 有高血压的人数 (%)
0 0 0 60 5(8%)
1 0 0 17 2(11%)
0 1 0 8 1(13%)
1 1 0 2 0(0%)
0 0 1 187 35(19%)
1 0 1 85 13(15%)
0 1 1 51 15(29%)
1 1 1 23 8(35%)
40岁以上男性高血压例(续)
模型
结果
结果解释
s n o r i n go b e s i t ys m o k i n gl o g i t 321p
回归系数估计 标准误 z P值截距 -2.378 0.380
smoking -0.068 0.278 0.24 0.810
obesity 0.695 0.285 2.44 0.015
snoring 0.875 0.398 2.19 0.028
其他多变量统计方法
判别分析 discriminant analysis
聚类分析 cluster analysis
因子分析 factor analysis