第十三章
线性相关分析
第一节
线性相关的概念
一、散点图
在线性相关分析中,两个变量 X和 Y的值
总是成对的出现,记为( X1,Y1)、( X2,
Y2) … ( Xn,Yn),这些观察值在直角坐标系
中形成一幅散点图,这种散点图可以简单而
直观的表示两变量间的线性关系
例 13-1 为研究中年女性体重指数和收缩
压之间的关系,随机测量了 16名 40岁以
上的女性的体重指数和收缩压,见表 13-
1,试绘制散点图。
解,以体重指数为变量 X,收缩压为变量 Y作散
点图,见图 13-1。可见,体重指数与收缩压有
比较密切的线性相关关系。
图1 3 - 1 1 6 名中年女性体重指数和收缩压的散点图
10
15
20
25
2.5 3 3.5 4 4.5
体重指数
收缩压(k
p
a
)
直线相关 (linear correlation)又称 简单相关 (simple
correlation),用于 双变量正态分布 (bivariate normal
distribution)资料。其性质可由 图 13-1散点图直观的
说明。
目的,研究 两个变量 X,Y数量上的依存(或相关)
关系。
特点,统计关系
二、线性相关
二、线性相关
三、相关系数的意义与计算
1,意义:相关系数 ( correlation coefficient)又
称 Pearson积差相关系数,用来说明具有直线关
系的两变量间相关的密切程度与相关方向。
以符号 r 表示样本相关系数,符号 ? 表示其总体相关系数。
相关系数没有单位,其值为 -1 r 1。 r值为正
表示正相关,r值为负表示负相关,r绝对值反
应两变量间相关关系的密切程度,绝对值越大说
明相关关系越密切,r的绝对值等于 1为完全相
关,r=0为零相关。
? ?
2,计算,样本相关系数的计算公
式为
22
( ) ( )
( ) ( )
XY
X X Y Y
X X Y Y l
r
llX X Y Y
??
??
??
?
??
( 13-1)
例 13-2 ( 续例 13-1) 计算表 13-1中体
重指数和收缩压的相关系数 。
P206
四, 应用线性相关系数 r时应注意的问题:
1,r只表示两个服从正态分布的随机变量之间
线性关系的密切程度和相关方向, r=0只能
说 X与 Y之间无线性关系, 并不能说 X与 Y之
间无任何关系 。
2,相关关系并不一定是因果关系 。 相关分析
的任务就是对相关关系给以定量的计算和
描述 。
第三节 相关系数的假设检验
2
0
,2
1
2
r
rr
tn
S r
n
?
?
? ? ? ?
?
?
( 13-2)
例 13-3 ( 续例 13-1) 根据样本相关系数,
对总体相关系数 =0进行假设检验 。
解:
1,t检验法 检验步骤如下:
① 建立假设, 确定检验水准 。
H0,=0( 变量间不存在线性相关关系 ) ;
H1,0( 变量间有线性相关关系 ) ;
?
?
??
05.0??
检验步骤
本例 n=16,r=0.91,按公式 ( 13-2)
按自由度 14??,查 t 界值表,得 0, 0 1 / 2,1 4 2, 9 7 7t ?,
0,0 1 / 2,1 4r
tt ?,则 P <0, 0 1,按 05.0?? 水准拒绝 H
0,接受 H 1,可
认为体重指数和收缩压之间存 在正相关关系。
? ? ? ?2
0, 9 1 1 0
8, 2 6 5 3
1 0, 9 1 1 0 / 1 6 2
rt ??
??
2,查表法 根据自由度 14??,查附表 13
相关系数 r 界值表,
0, 0 5 / 2,1 4
0, 4 9 7r ?,
0,01 / 2,1 4
0.623r ?, 本 例 r =0.9 1, 所以 P <0.0 1,

05.0??
水准拒绝 H 0,接 受 H 1,与 t 检
验结论相同。
五、直线回归与相关应用的注意事项
1.根据分析目的选择变量及统计方法
? 直线相关用于说明两变量之间直线关系的方向和
密切程度, X与 Y没有主次之分;
? 直线回归则进一步地用于定量刻画应变量 Y对自变
量 X在数值上的依存关系, 其中应变量的定夺主要依
专业要求而定, 可以考虑把易于精确测量的变量作为
X,另一个随机变量作 Y,例如用身高估计体表面积 。
? 两个变量的选择一定要 结合专业背景, 不能把毫
无关联的两种现象勉强作回归或相关分析 。
例如当样本足够大时,身高 Y 与家庭中的每月用电量
X 的线性回归关系具有统计学意义(回归系数的假设检验
0, 0 5P ? ),但这种结果很难说有什么专业上可解释的实际
意义。
同理,相关系数的假设检验只是在冒一定风险情况下
说明 0r 1,总体中仍然可能是 0.01r =, 0, 0 4r = 等,这种相
关并不一定在专业上有意义。如后述重测信度评价的相关
系数,
r
应达到 0.4 0 以上。
2.进行相关、回归分析前应绘制散点图 — 第一步
( 1) 散点图可考察两变量是否有直线趋势;
( 2) 可发现异常点 ( outlier) 。
散点图对异常点的识别与处理需要从专业知识和现有
数据两方面来考虑,结果可能是现有回归模型的假设错
误需要改变模型形式,也可能是抽样误差造成的一次偶
然结果甚至过失误差。需要认真核对原始数据并检查其
产生过程认定是过失误差,或者通过重复测定确定是抽
样误差造成的偶然结果,才可以谨慎地剔除或采用其它
估计方法。
3.资料的要求
直线相关分析要求 X与 Y 服从双变量正态分布;
直线回归要求至少对于每个 X 相应的 Y 要服从正
态分布, X可以是服从正态分布的随机变量也可以是
能精确测量和严格控制的非随机变量;
* 对于双变量正态分布资料, 根据研究目的可选择
由 X 估计 Y 或者由 Y 估计 X, 一般情况下两个回归方
程不相同 ) 。
? 反应两变量关系密切程度或数量上影响大小的统
计量应该是回归系数或相关系数的绝对值, 而不是
假设检验的 P值 。
? P值越小只能说越有理由认为变量间的直线关系
存在, 而不能说关系越密切或越, 显著, 。 另外,
直线回归用于预测时, 其适用范围一般不应超出样
本中自变量的取值范围 。
4.结果解释及正确应用