相关与回归世间万物是普遍联系的。
关联、预测和一致性分析一组观察个体的两个变量之间的关系,三个主要目的为:
关联预测一致性分类变量之间的关联连续变量之间的关联 — 相关 correlation
线性回归 linear regression
相关 CORRELATION
相关系数 — 衡量两个连续变量之间关联的强度
Pearson‘s r
总体相关系数?的区间估计假设检验
11 ;22
r
yyxx
yyxxr
ii
ii
1
1
,
1
1
3196.1,3196.1
31,
1
1
l o g
2
2
1
1
2
2
2
2
21
2
1
z
z
z
z
e
e
e
e
e
nzznzz
nzSE
r
r
z
2;21;~0
2
,
n
n
rst
s
rt
r
r
应用相关时应注意的问题数据的分布随机样本、双正态、椭圆形、散点图相关的应用正确应用要求数据为:随机样本、双正态、独立误用多重两两相关(多重相关,挑选有统计意义的相关)
重复测量数据的相关(与独立性冲突)
任意增加或减少对分析不利的样本混合样本基线值与相对于基线值的改变量的相关部分与整体的相关秩相关 RANK CORRELATION
顺位之间的关联 — Spearman’s rs和 Kendall’s?
Pearson相关与 Spearman相关的区别与联系参数方法与非参数方法。
计算方法相同,但对象不同。
散点图的椭圆形判别。
Pearson’s r衡量的是直线相关,Spearman‘s
rs衡量的是更为广义的相关。
Spearman相关可用于双向有序分类变量之间是否有关联的分析。
偏相关 PARTIAL CORRELATION
去除第三个变量对两变量之间相关的影响偏相关的计算
x y z
x 1
y rxy 1
z rxz ryz 1
x y
z
22,11 yzxz
yzxzxy
zxy rr
rrrr
例r
xy=0.6
rxz=0.9
ryz=0.6
rxy.z?0.17
相关的解释与表述直线相关与曲线相关
100r2— 数据的变异可由相关解释的部分相关关系不提示因果关系多个变量的两两相关分析相关关系的推移建议在做相关分析前作散点图相关分析的结果表述:相关系数,P值、
样本含量利用相关阵表示多个变量间的两两相关回归 REGRESSION
变量 x的变化导致变量 y的多少变化。或者说变量 y的变化有多少可以用 x的变化来解释。
反应 /结果 /因变量 — 解释 /预测 /自变量回归分析的目的是利用样本数据拟合一条直线,直线上的点是对应于 x的每一个观测的 y的估计值。
回归直线 /回归方程 /斜率 slope/截距 intercept
y=a+bx
最小二乘估计 Least Square Estimate
y的估计值 fitted value与残差 residual
残差平方和 /残差方差 /拟合优度 goodness of fit
估计值的变异 /回归直线的假设检验应用回归分析的假设条件对应于解释变量 x的每一个观测值,反应变量 y应服从正态分布(正态性)
注:不同于相关分析,对 x没有要求对应于解释变量 x的每一个观测值的 y的变异应相同(方差齐性)
x与 y呈线性相关(趋势性)
如果满足上述三个条件,残差应服从均数为 0的正态分布 — 残差图回归的应用由对应于 x的观测值的 y的估计值的分布推断总体均数的可信区间带回归系数 (斜率 )的估计 b
个体观测值的预测区间带
y的总变异 =可由回归解释的变异 +误差方差分析表回归分析的计算样本回归系数 b(总体回归系数?的估计 )和截距 a的计算
yi的估计残差的变异总体回归系数?的区间估计
xbyal
l
xx
yyxxb
xx
xy
i
ii
;
2
xxbybxxbybxay iiii
xyyy
ii
r e sii bllnn
yysyy?
2
1
2;? 22残差方差残差
bSEtblsbSE n
xx
r e s
2,075.0 ;
回归分析的计算(续)
yi的估计值的总体均数的可信区间预测区间样本回归系数 b的假设检验
ini
xx
i
r e si ySEtyl
xx
nsySE ;
1?
2,9 7 5.0
2
p r e dni
xx
i
r e sp r e d styl
xx
nss 2,9 7 5.0
2;11
bSE
bt 0
回归的解释样本数据范围内的预测样本数据范围外的预测由 y预测 x
混合样本独立性解释变量 x
异常值 (outlier)
其他与完全随机设计的方差分析( t检验)的关系与 2?C表 C有序统计分析(趋势?2检验)的关系回归分析结果的表述回归方程和残差的标准差散点图和回归线回归系数的估计 b的标准误和假设检验结果可信区间和预测区间相关与回归
关联、预测和一致性分析一组观察个体的两个变量之间的关系,三个主要目的为:
关联预测一致性分类变量之间的关联连续变量之间的关联 — 相关 correlation
线性回归 linear regression
相关 CORRELATION
相关系数 — 衡量两个连续变量之间关联的强度
Pearson‘s r
总体相关系数?的区间估计假设检验
11 ;22
r
yyxx
yyxxr
ii
ii
1
1
,
1
1
3196.1,3196.1
31,
1
1
l o g
2
2
1
1
2
2
2
2
21
2
1
z
z
z
z
e
e
e
e
e
nzznzz
nzSE
r
r
z
2;21;~0
2
,
n
n
rst
s
rt
r
r
应用相关时应注意的问题数据的分布随机样本、双正态、椭圆形、散点图相关的应用正确应用要求数据为:随机样本、双正态、独立误用多重两两相关(多重相关,挑选有统计意义的相关)
重复测量数据的相关(与独立性冲突)
任意增加或减少对分析不利的样本混合样本基线值与相对于基线值的改变量的相关部分与整体的相关秩相关 RANK CORRELATION
顺位之间的关联 — Spearman’s rs和 Kendall’s?
Pearson相关与 Spearman相关的区别与联系参数方法与非参数方法。
计算方法相同,但对象不同。
散点图的椭圆形判别。
Pearson’s r衡量的是直线相关,Spearman‘s
rs衡量的是更为广义的相关。
Spearman相关可用于双向有序分类变量之间是否有关联的分析。
偏相关 PARTIAL CORRELATION
去除第三个变量对两变量之间相关的影响偏相关的计算
x y z
x 1
y rxy 1
z rxz ryz 1
x y
z
22,11 yzxz
yzxzxy
zxy rr
rrrr
例r
xy=0.6
rxz=0.9
ryz=0.6
rxy.z?0.17
相关的解释与表述直线相关与曲线相关
100r2— 数据的变异可由相关解释的部分相关关系不提示因果关系多个变量的两两相关分析相关关系的推移建议在做相关分析前作散点图相关分析的结果表述:相关系数,P值、
样本含量利用相关阵表示多个变量间的两两相关回归 REGRESSION
变量 x的变化导致变量 y的多少变化。或者说变量 y的变化有多少可以用 x的变化来解释。
反应 /结果 /因变量 — 解释 /预测 /自变量回归分析的目的是利用样本数据拟合一条直线,直线上的点是对应于 x的每一个观测的 y的估计值。
回归直线 /回归方程 /斜率 slope/截距 intercept
y=a+bx
最小二乘估计 Least Square Estimate
y的估计值 fitted value与残差 residual
残差平方和 /残差方差 /拟合优度 goodness of fit
估计值的变异 /回归直线的假设检验应用回归分析的假设条件对应于解释变量 x的每一个观测值,反应变量 y应服从正态分布(正态性)
注:不同于相关分析,对 x没有要求对应于解释变量 x的每一个观测值的 y的变异应相同(方差齐性)
x与 y呈线性相关(趋势性)
如果满足上述三个条件,残差应服从均数为 0的正态分布 — 残差图回归的应用由对应于 x的观测值的 y的估计值的分布推断总体均数的可信区间带回归系数 (斜率 )的估计 b
个体观测值的预测区间带
y的总变异 =可由回归解释的变异 +误差方差分析表回归分析的计算样本回归系数 b(总体回归系数?的估计 )和截距 a的计算
yi的估计残差的变异总体回归系数?的区间估计
xbyal
l
xx
yyxxb
xx
xy
i
ii
;
2
xxbybxxbybxay iiii
xyyy
ii
r e sii bllnn
yysyy?
2
1
2;? 22残差方差残差
bSEtblsbSE n
xx
r e s
2,075.0 ;
回归分析的计算(续)
yi的估计值的总体均数的可信区间预测区间样本回归系数 b的假设检验
ini
xx
i
r e si ySEtyl
xx
nsySE ;
1?
2,9 7 5.0
2
p r e dni
xx
i
r e sp r e d styl
xx
nss 2,9 7 5.0
2;11
bSE
bt 0
回归的解释样本数据范围内的预测样本数据范围外的预测由 y预测 x
混合样本独立性解释变量 x
异常值 (outlier)
其他与完全随机设计的方差分析( t检验)的关系与 2?C表 C有序统计分析(趋势?2检验)的关系回归分析结果的表述回归方程和残差的标准差散点图和回归线回归系数的估计 b的标准误和假设检验结果可信区间和预测区间相关与回归