Linear Regression
线性回归
Chapter 7
7.1概述函数关系与相关关系
y销售额广告费趋势线
x
图 7- 1 相关关系例:
散点图 相关关系的度量:
上图,广告费增加时销售额有增长的趋势
(正相关)。此外还有负相关,不相关:
x
y
图 7- 2 a,负相关
y
x
图 7- 2 b:不相关如何设法使之能定量说明?
y
x
Y-
X-
图 7- 3 新坐标下的散点图先算出 与,平移坐标原点至(,)X Y
X
Y
X Y
I象限 X- >0,Y- >0,∴∑( X- )(Y- )>0
II象限 X- <0,Y- >0,∴∑( X- )(Y- )<0
III象限 X- <0,Y- <0,∴∑( X- )(Y- )>0
IV象限 X- >0,Y- <0,∴∑( X- )(Y- )<0
正相关时,I,III两象限的点比较多,于是
∑(X- )(Y- )>0
负相关时,II,IV两象限的点比较多,于是
∑(X- )(Y- )<0
Y Y
Y
Y
Y
Y
Y
Y
Y
Y
X
X
X
X
X
X
X
X
X
X
但是,用 ∑(x- )(y- )来度量相关性,会因量纲的改变(如从百万元改为亿元)引起数值的急剧变化,为克服这一缺点,可用的方法之一是“归一”化(化为无量纲的系数,
且该系数在 -1至 1之间):
记 为相关系数
可以证明 -1≤R≤1
YYXX
XY
LL
L
YYXX
YYXX
R
22 )()(
))((
X Y
趋势线记为(参见图 7- 1)
注意参数,虽然可认识到它的存在,但是是未知的。
可表达为
此处 E ~ N (0,),常称为,噪音”
xBBy 10
0B 1B
EXBBY 10
7.2 关于 B0,B1估计的最小二乘法图 7.4 ei2与最小二乘法
yi
xi
y
x
ei
b0+b1xi
高斯“定义”了最好的估计直线即整体上最贴近所有点的直线的标准与方法:
min∑,即挑选 b0,b1,使 ∑ 最小者为最佳的 b0,b1
即 minQ(b0,b1)= ∑ =
2ie 2ie
2ie
210 )( ii xbby
由 { 可得到关于 b0与 b1的二元一次线性方程组,从而求出 b0,b1,这样构成的
y=b0+b1x称回归直线。
于是得到了一组关于 B0,B1的估计值,即
可以证明,(,)在回归线上
软件 Excel 可以计算回归问题
0
0
1
0
b
Q
b
Q
1100,bBbB
X
,
Y
·最小二乘法的启示:
适当定义,贴近,即定义距离,进行实证性数据处理,多目标综合评估 。
例:评委给选手打分例:中介服务、余缺调剂等。
·有关线性回归模型的几个常见问题
·变量的选择
·线性关系
·相关性大小 ( R2)
·异方差性
线性回归
Chapter 7
7.1概述函数关系与相关关系
y销售额广告费趋势线
x
图 7- 1 相关关系例:
散点图 相关关系的度量:
上图,广告费增加时销售额有增长的趋势
(正相关)。此外还有负相关,不相关:
x
y
图 7- 2 a,负相关
y
x
图 7- 2 b:不相关如何设法使之能定量说明?
y
x
Y-
X-
图 7- 3 新坐标下的散点图先算出 与,平移坐标原点至(,)X Y
X
Y
X Y
I象限 X- >0,Y- >0,∴∑( X- )(Y- )>0
II象限 X- <0,Y- >0,∴∑( X- )(Y- )<0
III象限 X- <0,Y- <0,∴∑( X- )(Y- )>0
IV象限 X- >0,Y- <0,∴∑( X- )(Y- )<0
正相关时,I,III两象限的点比较多,于是
∑(X- )(Y- )>0
负相关时,II,IV两象限的点比较多,于是
∑(X- )(Y- )<0
Y Y
Y
Y
Y
Y
Y
Y
Y
Y
X
X
X
X
X
X
X
X
X
X
但是,用 ∑(x- )(y- )来度量相关性,会因量纲的改变(如从百万元改为亿元)引起数值的急剧变化,为克服这一缺点,可用的方法之一是“归一”化(化为无量纲的系数,
且该系数在 -1至 1之间):
记 为相关系数
可以证明 -1≤R≤1
YYXX
XY
LL
L
YYXX
YYXX
R
22 )()(
))((
X Y
趋势线记为(参见图 7- 1)
注意参数,虽然可认识到它的存在,但是是未知的。
可表达为
此处 E ~ N (0,),常称为,噪音”
xBBy 10
0B 1B
EXBBY 10
7.2 关于 B0,B1估计的最小二乘法图 7.4 ei2与最小二乘法
yi
xi
y
x
ei
b0+b1xi
高斯“定义”了最好的估计直线即整体上最贴近所有点的直线的标准与方法:
min∑,即挑选 b0,b1,使 ∑ 最小者为最佳的 b0,b1
即 minQ(b0,b1)= ∑ =
2ie 2ie
2ie
210 )( ii xbby
由 { 可得到关于 b0与 b1的二元一次线性方程组,从而求出 b0,b1,这样构成的
y=b0+b1x称回归直线。
于是得到了一组关于 B0,B1的估计值,即
可以证明,(,)在回归线上
软件 Excel 可以计算回归问题
0
0
1
0
b
Q
b
Q
1100,bBbB
X
,
Y
·最小二乘法的启示:
适当定义,贴近,即定义距离,进行实证性数据处理,多目标综合评估 。
例:评委给选手打分例:中介服务、余缺调剂等。
·有关线性回归模型的几个常见问题
·变量的选择
·线性关系
·相关性大小 ( R2)
·异方差性