2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 1
單元十三線性關係的分析迴歸
Regression
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 2
迴歸分析之意義
迴歸分析 (Regression
analysis)係用來分析一個或一個以上自變數與依變數間的數量關係;
以瞭解當自變數為某一水準或數量時,依變數反應的數量或水準。
The technique is used to
predict the value of one
variable (the dependent
variable - y)based on the
value of other variables
(independent variables
x1,x2,…x k.)
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 3
迴歸分析之意義
如探求廣告支出與商品銷售額間之關係時,前者為自變數,後者為依變數,建立銷售額為廣告支出的方程式
(函數);而對方程式中的未知參數,則有賴利用樣本資料以估計之。
程序:從母體中選出樣本並為每個觀察值列出成對的資料;繪製散佈圖來虛擬描繪其相關性;決定其迴歸方程式。
「迴歸」一詞的由來,Galton(1855)發表之論文內容。
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 4
迴歸分析之目的迴歸分析瞭解自變數與依變數的關係及影響方向與程度利用自變數與估計的方程式對依變數作預測
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 5
迴歸分析之基本類型簡單迴歸分析迴歸方程式中只有一個自變數的迴歸分析方法,如家庭設備支出與家庭所得關係的迴歸分析,廣告支出對銷售額的迴歸分析。
複迴歸分析迴歸方程式中有二或多個自變數的迴歸分析方法,又稱為多元迴歸分析。如家庭設備支出與家庭所得、家庭人口數、商品的價格、家庭財富等關係的迴歸分析。
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 6
變數間之線性關係 vs,非線性關係
X
Y
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
X
Y
*
*
* *
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 7
線性關係與相關
線性關係的描述與運用
相關分析旨在 描述 兩個連續變數間於線性關係上的強度與方向。
迴歸基於兩變項間之線性關係,進一步分析兩變項間在 預測 關係方面的探討與運用。
迴歸與相關均以線性關係為基礎,即以兩個連續變項的共變數為基礎,其數學原理相似。
相關係數之計算,需同時考慮兩個變項的變異情形,屬於 對稱性設計,以 X ←→ Y 表示。但迴歸則由於目的在取用某一變項去預測另一變項的變化情形,X,Y 兩個變項各有其角色,在迴歸係數的計算中,X,Y 變項為 不對稱設計,以 X → Y 或 Y → X 表示。
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 8
相關與迴歸分析的圖示
X
Y
c ov( x,y )
SD x
2
X
Y
SD y
2
X
Y
c ov( x,y )
SD
x
2
X
Y
SD
y
2
N
YYXX ))((C o v a r i a n c e
yx
xy
yx SSSS
SP
YYXX
YYXX
ss
yxr?


22 )()(
))((),c o v (
以 X 預測 Y (X → Y),xyxy aXbY,,+?
以 Y 預測 X (Y → X),yxyx aYbX,,+?
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 9
迴歸係數
迴歸方程式 Y = bX + a
B 係數:
為一未標準化的迴歸係數,其意義為每單位
X 值的變動時,Y 所變動的原始量
B 係數適用於實務工作的預測數值的計算
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 10
迴歸係數
係數:
如果將 b值乘以 X變項的標準差再除以 Y變項的標準差,即可去除單位的影響,並控制兩個變項的分散情形,得到新的數值?( Beta),
為不具備特定單位的標準化迴歸係數
係數也是將 X與 Y變項所有數值轉換成 Z分數後,所計算得到的迴歸方程式的斜率,該方程式通過 ZX,ZY的零點,因此截距為 0。
係數具有與相關係數相似的性質,也就是介於 -1至 +1之間,其絕對值越大者,表示預測能力越強,正負向則代表 X與 Y變項的關係方向。
係數適用於變項解釋力的比較,偏向學術用途。
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 11
變異數拆解與 F 考驗
利用迴歸方程式,依變項 Y 變異量當中可以被解釋的部分稱為迴歸變異量
無法被解釋的部分稱為殘差變異量
Ssy = Ssreg + SSres
迴歸離均差誤差原始離均差
Xi
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 12
迴歸可解釋變異量比
迴歸可解釋變異量比,又稱為 R2(R square),表示使用 X
去預測 Y 時的預測釋力,即 Y 變項被自變項所解釋的比率。
反應了由自變項與依變項所形成的線性迴歸模式的契合度
(goodness of fit)
又稱為迴歸模型的決定係數 (coefficient of determination),
R2開方後可得 multiple R,為自變項與依變項的多元相關。
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 13
迴歸可解釋變異量比
此一數值是否具有統計上的意義,反映了此一迴歸分析或預測力是否具有統計上的意義,必頇透過 F考驗來判斷迴歸可解釋變異量比SSreg SSe─── + ───1=
SSt SSt
= + 誤差變異量比 =100%
t
r e g
t
e
SS
SS
SS
SSR 12
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 14
adjusted R square
以樣本統計量推導出來的 R2來評估整體模式的解釋力,並進而推論到母群體時,會有高估的傾向。
樣本數越小,越容易高估,解釋力膨脹效果越明顯,樣本數越大,膨脹情形越輕微 。
校正後 R2(adjusted R2),可以減輕因為樣本估計帶來的 R2
膨脹效果。當樣本數越小,應採用校正後 R2。
Adjusted
1/
1/1
/
/12

NSS
pNSS
dfSS
dfSSR
t
e
tt
ee
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 15
等分散性假設圖示
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 16
迴歸分析的基本假設
固定自變項假設 (fixed variable)
特定自變數的特定數值應可以被重複獲得,然後得以此一特定的 Xi
代入方程式而得到預測值。
線性關係假設 (linear relationship)
當 X 與 Y 的關係被納入研究之後,迴歸分析必頇建立在變項之間具有線性關係的假設成立上。
常態性假設 (normality)
迴歸分析中的所有觀察值 Y是一個常態分配,即 Y來自於一個呈常態分配的母群體。因此經由迴歸方程式所分離的誤差項 e,即由特定
Xi 所預測得到的與實際 Yi 之間的差距,也應呈常態分配。誤差項 e
的平均數為 0。
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 17
迴歸分析的基本假設
誤差獨立性假設 (independence)
誤差項除了應呈隨機化的常態分配,不同的 X 所產生的誤差之間應相互獨立,無相關存在,也就是無自我相關 (non-autocorrelation)。
誤差等分散性假設 (homo-scedasticity)
特定 X 水準的誤差項,除了應呈隨機化的常態分配,且其變異量應相等,稱為誤差等分散性
多元共線性假設
自變項間相關程度過高,不但變項之間的概念區隔模糊,難以解釋之外,在數學上會因為自變項間共變過高,造成自變項與依變項共變分析上的扭曲現象,稱為多元共線性 (multi-collinearnality)
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 18
多元共線性的檢驗
對於某一個自變項共線性的檢驗,可以使用容忍值 (tolerance)
或變異數膨脹因素 (variance inflation factor,VIF)來評估。
Ri2為某一個自變項被其他自變項當作依變項來預測時,該自變項可以被解釋的比例,1- Ri2(容忍值)為該自變項被其他自變項無法解釋的殘差比
Ri2比例越高,容忍值越小,代表預測變項不可解釋殘差比低,
VIF 越大,即預測變項迴歸係數的變異數增加,共變性越明顯。
Tolerance = 1 - Ri2
VIF =1 / Tolerance =1 / (1 - R i2 )
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 19
多元共線性的檢驗
整體迴歸模式的共線性診斷可以透過特徵值 (eigenvalue)與條件指數 (conditional index; CI)來判斷。
各變量相對的變異數比例 (variance proportions),可看出自變項之間多元共線性的結構特性。當任兩變項在同一個特徵值上的變異數比例接近 1 時,表示存在共線性組合。
Tolerance = 1 - Ri2
VIF =1 / Tolerance =1 / (1 - R i2 )
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 20
多元迴歸的進入法
同時分析法 (simultaneous multiple regression):所有的預測變項同時納入迴歸方程式當中。
(一 )強制進入法
在某一顯著水準下,將所有對於依變項具有解釋力的預測變項納入迴歸方程式,不考慮預測變數間的關係,計算所有變數的迴歸係數。
(二 )強制淘汰法
與強迫進入法相反,強制淘汰法之原理為在某一顯著水準下,將所有對於依變項沒有解釋力的預測變項,不考慮預測變數間的關係,一次全部排除在迴歸方程式之外,再計算所有保留在迴歸方程式中的預測變數的迴歸係數。
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 21
多元迴歸的進入法
逐步分析法 (stepwise multiple regression)所有的預測變項並非同時被取用來進行預測,而是依據解釋力的大小,逐步的檢視每一個預測變項的影響,稱為逐步分析法。
(一 )順向進入法 (forward)
預測變項的取用順序,以具有最大預測力且達統計顯著水準的獨變項首先被選用,
然後依序納入方程式中,直到所有達顯著的預測變項均被納入迴歸方程式。
(二 )反向淘汰法 (backword)
與順向進入法相反的程序,所有的預測變項先以同時分析法的方式納入迴歸方程式的運算當中,然後逐步的將未達統計顯著水準的預測變項,以最弱、次弱的順序自方程式中予以排除。直到所有未達顯著的預測變項均被淘汰完畢為止。
(三 )逐步分析法 (stepwise)
綜合順向進入法與反向淘汰法,
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 22
多元迴歸的進入法
階層分析法
預測變項間可能具有特定的先後關係,而需依照研究者的設計,
以特定的順序來進行分析。
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 23
路徑分析 (Path Analysis)
路徑分析由一系列的迴歸分析所組成,除了借用迴歸方程式的原理,並透過假設性的架構,將不同的方程式加以組合,形成結構化的模式。
路徑分析的基本程序是建立一套假設性的相關/因果關係模式,
模型中存在因果關係,利用觀察到的資料與理論數值的比對,分析者可以評估假設出來的路徑模式是否能夠有效解釋觀察到的資料,如果差異過大,假設模型也就被推翻,而如果模型沒有被推翻,路徑模式所假設的各種關係也就自動成立。其虛無假設與對立假設如下:
H0,觀察數據=理論模式
H1,觀察數據 ≠理論模式
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 24
路徑分析 (Path Analysis)
自我效能感社會期待成就動機 學業表現
D 1 D 2
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 25
路徑分析的基本概念
基本元素
外衍變項 (exogenous variable)
內衍變項 (endogenous variable)
獨特變異 (disturbances)
參數估計
直接效果 (direct effect)
間接效果 (indirect effect)
整體效果 (total effect)
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 26
路徑分析的各種變項關係為間接效變項與符號 代表意義 關係類型
X ←→ Y 相關correlation X 與 Y 為共變關係
X → Y 單向因果關係direct causal effect X 對 Y 直接效果
X → 1Y → 2Y 單向因果關係direct causal effect X 對 1Y 為直接效果,X 對 2Y
果,1Y 為中介變項
X Y 回溯因果關係reciprocal causal effect X 與 Y 互為直接效果,X 與 Y 具有回饋循環效果
1Y → 2Y → 3Y → 1Y 循環因果關係indirect loop effect 1Y 對 2Y,2Y 對 3Y,3Y 對 1Y 均為直接效果,1Y,2Y 與 3Y 為間接回饋循環效果
←→
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 27
自我效能感社會期待成就動機 學業表現
.29 * *
.63 * * *
.02
.16 *
.21 * *
.13 *
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 28
路徑分析各項效果分解說明內衍變項自變項 成就動機 學業成績自我效能感直接效果,63***,29**
間接效果 -,13*
整體效果,63***,42**
社會期待直接效果,02,16*
間接效果 -,00
整體效果,02,16*
成就動機直接效果,21**
間接效果 -
整體效果,21**
*< p<.05; ** p<.01; *** p<.001
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 29
廣告支出與銷售額營業單位 廣告支出 年銷售額台北 1400 16800
桃園 1100 14400
新苗 560 12300
台中 650 13200
彰雲 560 12800
台南 880 14400
高雄 1100 15900
花東 350 10000
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 30
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 31
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 32
簡單線性迴歸之模型
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 33
估計的迴歸方程式
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 34
最小平方法的計算
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 35
We are seeking a line that best fit the data
We define,best fit line” as a line for which the
sum of squared differences between it and the
data points is minimized.
2
ii
n
1i
)y?y(M in im iz e
The actual y value of point i
The y value of point i
calculated from the
equation of the line
i10i xbby? +?
最小平方法 (The Least Squares Method)
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 36
Errors
直線不同,產生不等的誤差,
同時亦造成了不等的誤差平方和。
Different lines generate different errors,
thus different sum of squares of errors.
X
Y
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 37
The coefficients b0 and b1 of the line
that minimizes the sum of squares of errors
are calculated from the data.
n
x
xand
n
y
yw h e r e
xbyb,
)xx(
)yy)(xx(
b
n
1i
i
n
1i
i
10n
1i
2
i
n
1i
ii
1





2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 38
迴歸模式 (The Model)
The first order linear model
y = dependent variable
x = independent variable
0 = y-intercept
1 = slope of the line
= error variable
+?+ xy 10
x
y
0 Run
Rise?1 = Rise/Run
0 and?1 are unknown,
therefore,are estimated
from the data.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 39
迴歸直線方程式之涵義
迴歸方程式,Y’= a + bX。其中,
Y’ 是任何 X 的平均預測值。
a 是 Y截距,或者是當 X=0 時的 Y 估計值,也可以說是當 X 為 0
時,迴歸直線與 Y 軸相交的 Y 估計值。
b 是迴歸直線的斜率,或者當獨立變數變動一個單位時,Y’的平均變動值。
最小平方法被用來計算 a 和 b:
b
n XY X Y
n X X
a
Y
n
b
X
n

( ) ( )( )
( ) ( )



2 2
11-16
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 40
範例習題由前揭範例已知的資訊所建立的迴歸方程式,可以根據頁數,來估計其售價。
利用最小平方法,可計算而得知 b=0.01714,
a=16.00175
Y’ =16.00175 +,01714X
11-17 ¥? - °a?ù ( $ )
1 500 28
2 700 25
3 800 33
4 600 24
5 400 23
6 500 27
7 600 21
8 800 31
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 41
估計的標準誤
用以測量觀察值對迴歸直線的散佈或離異程度。
估計的標準誤的計算公式如下:
11-18
S
Y Y
n
Y a Y b XY
n
Y X?


( ' )
( ) ( )
2
2
2
2
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 42
迴歸直線的假設
對每一個 X 值而言,會有一群 Y 值與之相對應,這些 Y 值群呈常態分配。
Y 值群常態分配的平均數,皆分布在迴歸直線上。
每一個 Y 值群的標準差均相同。
Y 值群間相互獨立,相對應於某一個特定 X值的 Y 值,不受其他 X 值對應之 Y 值的影響。
11-19
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 43
信賴區間是用來表示在特定 X值時,其所對應 Y值之平均值。其公式如下:
預測區間是用來表示在特定 X值時,其所對應 Y值的範圍。其公式如下:
11-20
Y t S
n
X X
X
X
n
Y X' ( )
( )
( )
+
1 2
2
2
Y t S
n
X X
X
X
n
Y X' ( )
( )
( )
+ +
1
1 2
2
2
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 44
範例習題
利用前揭範例的資訊,計算估計標準誤:
將所有 650頁的教科書建立 95% 的信賴區間:
[24.03,30.25]
將一本 650頁的教科書建立 95% 的信賴區間:
[18.09,36.19]
S Y X? = 3,4 7 1
11-22
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 45
判定係數的運用
11-23
2
22
2
)(
) ()(
YY
YYYY
r


總變異不可解釋的變異總變異迴歸項,SSR=Σ( Y’ - Y )2
誤差項,SSE= Σ( Y - Y’ )
總變異,SS total=Σ( Y’ – Y )2
2n
SSE
S
t o t a l SS
SSE
1
t o t a l SS
SSR
r
XY
2

2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 46
可解釋變異 vs,隨機變異
11-24
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 47
係數該如何估計 (Estimating the Coefficients)
The estimates are determined by
drawing a sample from the population of interest,
calculating sample statistics.
producing a straight line that cuts into the data.



The question is:
Which straight line fits best?
x
y
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 48
3
3
The best line is the one that minimizes
the sum of squared vertical differences
between the points and the line.
41
1
4
(1,2)
2
2
(2,4)
(3,1.5)
Sum of squared differences = (2 - 1)2 + (4 - 2)2 + (1.5 - 3)2 +
(4,3.2)
(3.2 - 4)2 = 6.89
Sum of squared differences = (2 -2.5)2 + (4 - 2.5)2 + (1.5 - 2.5)2 + (3.2 - 2.5)2 = 3.99
2.5
Let us compare two lines
The second line is horizontal
The smaller the sum of
squared differences
the better the fit of the
line to the data.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 49
To calculate the estimates of the coefficients
that minimize the differences between the data
points and the line,use the formulas,
xbyb
s
)Y,Xc o v (
b
10
2
x
1

The regression equation that estimates
the equation of the first order linear model
is,
xbby? 10 +?
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 50
範例習題
中古汽車代理商想要瞭解汽車行駛里程數與售價間之關係。
隨機選取 100輛中古汽車,
記錄其里程數與售價資料。
請建立里程數與售價間之迴歸直線。
C a r O d o m e t e r P r i c e
1 37388 5318
2 44758 5061
3 45833 5008
4 30862 5795
5 31705 5784
6 34010 5359
.,,
.,,
.,,
Independent variable x
Dependent variable y
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 51
Solving by hand
To calculate b0 and b1 we need to calculate several
statistics first;;41.411,5y;45.009,36x
256,356,1
1n
)yy)(xx(
)Y,Xc o v (
688,528,43
1n
)xx(
s
ii
2
i2
x


where n = 100.
533,6)45.009,36)(0 3 1 2.(41.5 4 1 1xbyb
0 3 1 2.
688,528,43
256,356,1
s
)Y,Xc o v (b
10
2
x
1


x0312.533,6xbby? 10+?
Solution
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 52
4500
5000
5500
6000
19000 29000 39000 49000
O d o m e te r
Pr
ic
e
Using the computer (see file Xm17-01.xls)
S U M M A R Y O U T P U T
R e g r e s s i o n S t a t i s t i c s
M u l t i p l e R 0,8 0 6 3 0 8
R S q u a r e 0,6 5 0 1 3 2
A d j u s t e d R S q u a r e0,6 4 6 5 6 2
S t a n d a r d E r r o r1 5 1,5 6 8 8
O b s e r v a t i o n s 100
A N O V A
df SS MS F S i g n i f i c a n c e F
R e g r e s s i o n 1 4183528 4183528 1 8 2,1 0 5 6 4,4 4 3 5 E - 2 4
R e s i d u a l 98 2251362 2 2 9 7 3,0 9
T o t a l 99 6434890
C o e f f i c i e n t sS t a n d a r d E r r o r t S t a t P - v a l u e
I n t e r c e p t 6 5 3 3,3 8 3 8 4,5 1 2 3 2 7 7,3 0 6 8 7 1,2 2 E - 8 9
O d o m e t e r - 0,0 3 1 1 6 0,0 0 2 3 0 9 - 1 3,4 9 4 7 4,4 4 E - 2 4
x0 3 1 2.5 3 3,6y
Tools > Data analysis > Regression > [Shade the y range and the x range] > OK
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 53
This is the slope of the line.
For each additional mile on the odometer,
the price decreases by an average of $0.0312
4500
5000
5500
6000
19000 29000 39000 49000
O d o m e te r
Pr
ic
e
x0 3 1 2.5 3 3,6y
The intercept is b0 = 6533.
6533
0 No data
Do not interpret the intercept as the
“Price of cars that have not been driven”
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 54
誤差變數 (Error Variable),迴歸分析假設條件之檢測
The error? is a critical part of the regression model.
Four requirements involving the distribution of? must
be satisfied.
The probability distribution of? is normal.
The mean of? is zero,E(?) = 0.
The standard deviation of? is s? for all values of x.
The set of errors associated with different values of y are all
independent.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 55
From the first three assumptions we have:
y is normally distributed with mean
E(y) =?0 +?1x,and a constant standard
deviation s?
m3
0 +?1x1
0 +?1x2
0 +?1x3
E(y|x2)
E(y|x3)
x1 x2 x3
m1
E(y|x1)
m2
The standard deviation remains constant,
but the mean value changes with x
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 56
迴歸模式之衡量 (Assessing the Model)
The least squares method will produce a
regression line whether or not there is a linear
relationship between x and y.
Consequently,it is important to assess how well
the linear model fits the data.
Several methods are used to assess the model:
Testing and/or estimating the coefficients.
Using descriptive measurements.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 57
This is the sum of differences between the
points and the regression line.
It can serve as a measure of how well the line
fits the data.
This statistic plays a role in every statistical
technique we employ to assess the model.
2
x
2
Y s
)Y,Xc o v (s)1n(S S E
.)y?y(S S E
n
1i
2
ii?

誤差變項之離均差平方和 (Sum of squares for errors)
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 58
The mean error is equal to zero.
If s? is small the errors tend to be close to zero
(close to the mean error),Then,the model fits
the data well.
Therefore,we can,use s? as a measure of the
suitability of using a linear model.
An unbiased estimator of s?2 is given by s?2
2n
SSE
s
E s t i m a t eofE r r o rd a r dt a nS

估計標準誤 (Standard error of estimate)
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 59
Example
Calculate the standard error of estimate for
example,and describe what does it tell you
about the model fit?
Solution
6.1 5 1
98
3 6 3,2 5 1,2
2n
SSE
s
,T h u s
3 6 3,2 5 2,2
6 8 8,5 2 8,43
)2 5 6,3 5 6,1(
)9 9 9,64(99
s
)Y,Xc o v (
s)1n(SSE
9 9 9,64
99
8 9 0,4 3 4,6
1n
)y?y(
s
2
2
x
2
Y
2
ii
2
Y


Calculated before
It is hard to assess the model based
on s? even when compared with the
mean value of y.
4.411,5y,6.151s
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 60
斜率之檢測 (Testing the slope)
When no linear relationship exists between two
variables,the regression line should be horizontal.
q
q
q
q
q
q
q
q q
q
q
q
Linear relationship.
Different inputs (x) yield
different outputs (y).
No linear relationship.
Different inputs (x) yield
the same output (y).
The slope is not equal to zero The slope is equal to zero
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 61
We can draw inference about?1 from b1 by testing
H0,?1 = 0
H1,?1 = 0 (or < 0,or > 0)
The test statistic is
If the error variable is normally distributed,the statistic is
Student t distribution with d.f,= n-2.
1b
11
s
bt
The standard error of b1.
2
x
b
s)1n(
ss
1?

where
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 62
Solution
Solving by hand
To compute,t” we need the values of b1 and sb1.
49.13
00 231.
0312.
s
b
t
00 231.
688,528,43)(99(
6.151
s)1n(
s
s
312.b
1
1
b
11
2
x
b
1





Using the
computer C o ef f i ci en t s S t an d ar d E r r o r t S t at P - val u e
I n t er cep t 653 3,383 035 84,512 321 99 77,306 87 1,22E - 89
O d o m et er - 0,031 157 739 0,002 308 896 - 13,494 7 4,44E - 24
There is overwhelming evidence to infer
that the odometer reading affects the
auction selling price.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 63
Coefficient of determination
When we want to measure the strength of the linear
relationship,we use the coefficient of determination.


2
2
22
2
2
)(
1
)],[ c o v (
yy
SSE
Ror
ss
YX
R
iyx
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 64
To understand the significance of this
coefficient note:
Overall variability in y
The regression model
The error
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 65
x1 x2
y1
y2
y
Two data points (x1,y1) and (x2,y2) of a certain sample are shown.
+? 2221 )yy()yy( 2221 )yy?()yy?(?+? 222211 )y?y()y?y(?+?+
Total variation in y = Variation explained by the
regression line)
+ Unexplained variation (error)
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 66
R2 measures the proportion of the variation in y that is
explained by the variation in x.



2
i
2
i
2
i
2
i
2
)yy(
S S R
)yy(
S S E)yy(
)yy(
S S E1R
Variation in y = SSR + SSE
R2 takes on any value between zero and one.
R2 = 1,Perfect match between the line and the data points.
R2 = 0,There are no linear relationship between x and y.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 67
R egr ess i on S t at i st i cs
M ul t ipl e R 0,806 3
R S qua r e 0,650 1
A dj us t ed R S qua r e 0,646 6
S t and ar d E r r or 151,57
O bs er v at ions 100
Find the coefficient of determination for example;
what does this statistic tell you about the model?
Solution
Solving by hand;
Using the computer
From the regression output we have 6501.
ss
)]Y,X[ c o v (R
)9 9 9,64)(6 8 8,5 2 8,43(
]2 5 6,3 5 6,1[
2
y
2
x
2
2 2
65% of the variation in the auction
selling price is explained by the
variation in odometer reading,The
rest (35%) remains unexplained by
this model.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 68
財務上之應用 (Finance Application,Market Model)
One of the most important applications of linear
regression is the market model.
It is assumed that rate of return on a stock (R) is linearly
related to the rate of return on the overall market.
R =?0 +?1Rm +?
Rate of return on a particular stock Rate of return on some major stock index
The beta coefficient measures how sensitive the stock’s rate
of return is to changes in the level of the overall market.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 69
範例習題 (The market model)
S U M M A R Y O U T P U T
R e g r e s s i o n S t a t i s t i c s
M u l t i p l e R 0,5 6 0 0 7 9
R S q u a r e 0,3 1 3 6 8 8
A d j u s t e d R S q u a r e0,3 0 1 8 5 5
S t a n d a r d E r r o r0,0 6 3 1 2 3
O b s e r v a t i o n s 60
A N O V A
df SS MS F S i g n i f i c a n c e F
R e g r e s s i o n 1 0,1 0 5 6 3 0,1 0 5 6 3 2 6,5 0 9 6 9 3,2 7 E - 0 6
R e s i d u a l 58 0,2 3 1 1 0 5 0,0 0 3 9 8 5
T o t a l 59 0,3 3 6 7 3 4
C o e f f i c i e n t sS t a n d a r d E r r o r t S t a t P - v a l u e
I n t e r c e p t 0,0 1 2 8 1 8 0,0 0 8 2 2 3 1,5 5 8 9 0 3 0,1 2 4 4 6
T S E 0,8 8 7 6 9 1 0,1 7 2 4 0 9 5,1 4 8 7 5 6 3,2 7 E - 0 6
Estimate the market model
for Nortel,a stock traded in
the
Toronto Stock Exchange.
Data consisted of monthly
percentage return for Nortel
and monthly percentage
return
for all the stocks.This is a measure of the stock’s
market related risk,In this sample,
for each 1% increase in the TSE
return,the average increase in Nortel’s
return is,8877%.
This is a measure of the total risk embedded
in the Nortel stock,that is market-related.
Specifically,31.37% of the variation in Nortel’s
return are explained by the variation in the
TSE’s returns.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 70
迴歸方程式之應用 (Using the Regression Equation)
2 8 5,5)0 0 0,40(0 3 1 2.6 5 3 3x0 3 1 2.6 5 3 3y
Before using the regression model,we need to assess
how well it fits the data.
If we are satisfied with how well the model fits the data,
we can use it to make predictions for y.
Illustration
Predict the selling price of a three-year-old Taurus with
40,000 miles on the odometer
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 71
Prediction interval and confidence interval
Two intervals can be used to discover how closely the
predicted value will match the true value of y.
Prediction interval - for a particular value of y,
Confidence interval - for the expected value of y.
The confidence
interval

+?
2
i
2
g
2 )xx(
)xx(
n
1sty?
The prediction interval

++?
2
i
2
g
2 )xx(
)xx(
n
11sty?
The prediction interval is wider than the confidence interval
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 72
Example:
interval estimates for the car auction price
Provide an interval estimate for the bidding price on
a Ford Taurus with 40,000 miles on the odometer.
Solution
The dealer would like to predict the price of a single car
The prediction interval(95%) =

++ 2
i
2
g
2 )xx(
)xx(
n
11sty?
303285,5
160,340,309,4
)009,36000,40(
100
11)6.151(984.1)]40000(0312.6533[ 2++
t.025,98
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 73
The car dealer wants to bid on a lot of 250 Ford
Tauruses,where each car has been driven for
about 40,000 miles,
Solution
The dealer needs to estimate the mean price per car.
The confidence interval (95%) =

+?
2
i
2
g
2
)xx(
)xx(
n
1sty?
352 8 5,5
1 6 0,3 4 0,3 0 9,4
)0 0 9,360 0 0,40(
1 0 0
1)6.1 5 1(9 8 4.1)]4 0 0 0 0(0 3 1 2.6 5 3 3[ 2+
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 74

+?
2
i
2
g
2
)xx(
)xx(
n
1sty?
x
+ 2i
2
2
)xx(
2
n
1sty?
+ 2i
2
2
)xx(
1
n
1sty?
The effect of the given value of x on the interval
As xg moves away from x the interval becomes longer,
That is,the shortest interval is found at x.
2x? 2x+
1x)1x( 1x)1x(+
g10 xbby? +?
)1xx(y? g
)1xx(y? g +?
2x)2x( 2x)2x(+
1x+1x?
The confidence interval
when xg = x
The confidence interval
when xg = 1x?
The confidence interval
when xg = 2x?
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 75
Regression Diagnostics - I
The three conditions required for the
validity of the regression analysis are:
the error variable is normally distributed.
the error variance is constant for all values of x.
The errors are independent of each other.
How can we diagnose violations of these
conditions?
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 76
殘差分析 (Residual Analysis)
Examining the residuals (or standardized
residuals),we can identify violations of the
required conditions
Example - continued
Nonnormality,
Use Excel to obtain the standardized residual histogram.
Examine the histogram and look for a bell shaped diagram
with mean close to zero.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 77
For each residual we calculate
the standard deviation as follows:

+?

2
j
2
i
i
ir
)xx(
)xx(
n
1
h
w h e r eh1ss
i
R E S ID U A L O U T P U T
O b s e r v a ti o n R e s i d u a l s S ta n d a r d R e s i d u a l s
1 - 5 0,4 5 7 4 9 9 2 7 - 0,3 3 4 5 9 5 8 9 5
2 - 7 7,8 2 4 9 6 4 8 2 - 0,5 1 6 0 7 6 1 8 6
3 - 9 7,3 3 0 3 9 5 6 8 - 0,6 4 5 4 2 1 4 2 1
4 2 2 3,2 0 7 0 9 7 8 1,4 8 0 1 4 0 3 1 2
5 2 3 8,4 7 3 0 7 1 5 1,5 8 1 3 7 2 6 8
0
10
20
30
40
-2,5 -1,5 -0,5 0,5 1,5 2,5 M o re
A Partial list of
Standard residuals
Standardized residual i =
Residual i / Standard deviation
We can also apply the Lilliefors test
or the?2 test of normality,
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 78
變異數不齊一性 (Heteroscedasticity)
When the requirement of a constant variance is
violated we have heteroscedasticity.
+ + +
+
+ +
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
The spread increases with y^
y^
Residual
^y
+
++
+
+
++
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 79
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
y^
Residual
^y
+
++
+
+
++
+
+
+
+
+++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
The spread of the data points
does not change much.
When the requirement of a constant variance is
not violated we have homoscedasticity.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 80
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
y^
Residual
^y
+
+
+
+
+++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
As far as the even spread,this is
a much better situation
When the requirement of a constant variance is
not violated we have homoscedasticity.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 81
Nonindependence of error variables
A time series is constituted if data were
collected over time.
Examining the residuals over time,no pattern
should be observed if the errors are
independent.
When a pattern is detected,the errors are said
to be autocorrelated.
Autocorrelation can be detected by graphing
the residuals against time.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 82
+
+ ++ +
++
+
+ + +
+ +
+ +
+
+ + +
+
+
+
+
+
+
Time
Residual Residual
Time
+
+
+
Patterns in the appearance of the residuals
over time indicates that autocorrelation exists.
Note the runs of positive residuals,
replaced by runs of negative residuals
Note the oscillating behavior of the
residuals around zero,
0 0
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 83
極端值 (Outliers)
An outlier is an observation that is unusually small
or large.
Several possibilities need to be investigated when
an outlier is observed:
There was an error in recording the value.
The point does not belong in the sample.
The observation is valid.
Identify outliers from the scatter diagram.
It is customary to suspect an observation is an
outlier if its |standard residual| > 2
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 84
+
+
+
+
+ +
+ + ++
+
+
+
+
+
+
+
The outlier causes a shift
in the regression line
… but,some outliers
may be very influential
++++++++++
An outlier An influential observation
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 85
迴歸模式之診斷程序 (Procedure for regression diagnostics)
Develop a model that has a theoretical basis.
Gather data for the two variables in the model.
Draw the scatter diagram to determine whether
a linear model appears to be appropriate.
Check the required conditions for the errors.
Assess the model fit.
If the model fits the data,use the regression
equation.
2009/7/30 數量分析方法講綱:單元 13線性關係的分析 ~~迴歸 86
迴歸模式之診斷程序 (Procedure for regression diagnostics)
模型之建立模型之估計模型之評判模型之解釋以模型預測