多元线性回归分析直线回归概念复习例:为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽10个男孩,共抽60个男孩。资料如下:
60个男孩的身高资料如下年龄
3岁
4岁
5岁
6岁
7岁
8岁
身高
92.5
96.5
106.0
115.5
125.5
121.5
97.0
101.0
104.0
115.5
117.5
128.5
96.0
105.5
107.0
111.5
118.0
124.0
96.5
102.0
109.5
110.0
117.0
125.5
97.0
105.0
111.0
114.5
122.0
122.5
92.0
99.5
107.5
112.5
119.0
123.5
96.5
102.0
107.0
116.5
119.0
120.5
91.0
100.0
111.5
110.0
125.5
123.0
96.0
106.5
103.0
114.5
120.5
124.0
99.0
100.0
109.0
110.0
122.0
126.5
平均身高
95.4
101.8
107.6
113.1
120.6
124.0
从散点图上,我们可以发现样本点(X,Y)随机地出现在一条直线附近,并且从资料背景上考察,同一年龄的儿童身高应近似服从一个正态分布,而儿童身高的总体均数应随着年龄增长而增大,并由每个年龄的身高样本均数与儿童年龄的散点图可以发现:这些点非常接近一条直线以及样本均数存在抽样误差,因此推测儿童身高的总体均数与年龄可能呈直线关系。故假定身高Y在年龄X点上的总体均数与X呈直线关系。
其中y表示身高,x表示年龄。由于身高的总体均数与年龄有关,所以更准确地标记应为
表示在固定年龄情况下的身高总体均数。
身高的样本均数与年龄的散点图故有理由认为身高的总体均数与年龄的关系可能是一条直线关系上述公式称为直线回归方程。其中(为回归系数(regression coefficient),或称为斜率(slope);(称为常数项(constant),或称为截距(intercept)。回归系数(表示x变化一个单位y平均变化(个单位。当x和y都是随机的,x、y间呈正相关时(>0,x、y间呈负相关时(<0,x、y间独立时(=0。
一般情况而言,参数(和(是未知的。对于本例而言,不同民族和不同地区,(和(往往是不同的,因此需要进行估计的。由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即:实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数(和(进行估计,一般采用最小二乘法进行参数估计。我们将借助Stata软件对本例资料进行直线回归。
数据格式
x
y
3
92.5
3
97.0
3
96.0
3
96.5
3
97.0
3
92.0
3
96.5
3
91.0
3
96.0
3
99.0
4
96.5
4
101.0
4
105.5
4
102.0
4
105.0
4
99.5
4
102.0
4
100.0
4
106.5
4
100.0
5
106.0
5
104.0
5
107.0
5
109.5
5
111.0
5
107.5
5
107.0
5
111.5
5
103.0
5
109.0
6
115.5
6
115.5
6
111.5
6
110.0
6
114.5
6
112.5
6
116.5
6
110.0
6
114.5
6
110.0
7
125.5
7
117.5
7
118.0
7
117.0
7
122.0
7
119.0
7
119.0
7
125.5
7
120.5
7
122.0
8
121.5
8
128.5
8
124.0
8
125.5
8
122.5
8
123.5
8
120.5
8
123.0
8
124.0
8
126.5
回归命令
regress y x
Source | SS df MS Number of obs = 60
-------------+------------------------------ F( 1,58) = 777.41
Model | 5997.71571 1 5997.71571 Prob > F = 0.0000
Residual | 447.467619 58 7.71495895 R-squared = 0.9306
-------------+------------------------------ Adj R-squared = 0.9294
Total | 6445.18333 59 109.240395 Root MSE = 2.7776
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
x | 5.854286,2099654 27.88 0.000 5.433994 6.274577
_cons | 78.18476 1.209202 64.66 0.000 75.76428 80.60524
------------------------------------------------------------------------------
回归方程
b=5.854286,a= 78.18476
se(b)= 0.2099654
回归系数检验:H0:(=0 vs H1:((0
回归系数统计量t=b/se(b)= 5.854286/,2099654=27.88,P值<0.001,
95%CI of ( 为 (5.433994,6.274577)
简述单因素线性回归方程y=(+(x在实际分析中要注意的问题残差(i=yi-a-bxi,引入回归模型yi=(+(xi+(i
(i~N(0,()且{(i}相互独立:说明有三个条件:
(i服从正态分布
{(i}相同的方差(2。
{(i}相互独立。
不满足上述3个条件时,反映在实际回归分析时,有如下情况:
散点在直线一侧较多而且靠直线很近,当在直线的另一侧,散点较少,而且离直线较远,反映在误差项(偏态分布。
散点随着自变量x增大而离散程度增大或减小(喇叭口状),反映了误差项(方差随着x变而变,即不满足相同方差(方差齐性)。
随着xi变化而(i呈某种规律性的变化。反映(还含有x的信息未利用到,还可以继续改进回归模型。
问题1:在同一总体中随机抽取2个相同样本量的样本,每个样本中都含有变量x和y,并以y为因变量和x为自变量,作线性回归,请问:两个样本作出的回归方程一样吗?它们之间什么关系?
问题2:回归方程所示的直线与原始数据的关系是什么?
不同,它们之间存在抽样误差回归分析统计背景:对于固定自变量x,对y所在的总体进行抽样,得到在固定x情况下,y的样本值,因此对于每个xi,得到对应的抽样值yi。即:资料为:(x1,y1),(x2,y2),…,(xn,yn)。
因此对于同一个x值,y所对应的总体均数相同,不同的x值,y所对应的总体均数可能不同。
如果y的总体均数值与x的关系呈直线关系,则样本资料(x1,y1),(x2,y2),…,(xn,yn)呈带状直线散点图。
由于抽样资料y=总体均数+抽样误差
因此如果y的总体均数值与x呈直线关系,则抽样资料
当,则对于固定x,,而用样本资料(x1,y1),(x2,y2),…,(xn,yn)所估计得到的回归方程是固定x情况下,y的总体均数与x的线性方程的表达式。
即:b是β的样本估计值(无偏估计),a是α的样本估计值(无偏估计),是的样本估计值。
抽样误差(估计值)=样本资料-(a+bx) (即,的估计值:残差)
所以要求回归分析的资料,其残差服从正态分布,且与x无关、方差齐性。
引入多元线性回归模型定义例3-1,研究女中学生的肺活量与体重和胸围的关系,随机抽样了10名女中学生的体重x1(kg),胸围x2(cm)和肺活量y(ml),资料如表3-1,试建立一个因变量为y对自变量x1,x2的线性回归方程。
对于相同的体重x1和胸围x2,考查女中学生的肺活量y总是有一定的变异的,但总对应有一个总体均数(y|X,而且总体均数(y|X可能与体重x1和胸围x2有关。x1和x2与总体均数(y|X最简单的关系为线性关系:
同样的x1和x2,观察值y与总体均数(y总有一定的随机误差(,即y-(y|X=(,因此
若(~N(0,(2)分布且独立,而观察值,则称肺活量y、体重x1和胸围x2符合线性回归模型
对于一般的线性回归模型定义为:
设有p个观察自变量x1,x2,…,xp,并用向量
X=( x1,x2,…,xp)’,因变量为y,且记y的总体均数为,随机误差(~N(0,(2)且独立,则线性回归模型可以表示为
对于观察值(y1,X1),(y2,X2),…,(yn,Xn),其中Xi=(xi1,xi2,…,xip),i=1,2,…,n。对应的线性回归模型为
且独立。
在本例中,作线性回归如下:(介绍一下数据结构)
,regress y x1 x2
Source
SS
df
MS
Number of obs = 10
F( 2,7) = 6.75
回归平方和
回归均方和
Model
1895106.55
2
947553.275
Prob > F = 0.0232
残差平方和
残差均方和
决定系数
Residual
982143.45
7
140306.207
R-squared = 0.6587
校正和决定系数
Adj R-squared = 0.5611
Total
2877250.00
9
319694.444
Root MSE = 374.57
总平方和SS总描述样本量为n=10的因变量y总的变异。回归平方和SSR描述了样本量为n时,由自变量x1,x2变化而引起的因变量y的这部分变异,SSe描述了样本量为n时,由随机误差项(所引起的因变量y的一部分变异,因此:
总变异=自变量引起y的变异+随机误差(引起变异对应:SS总=SS回归+SS误差由于SS总,SS回归和SS误差均与样本量n有关,样本量n越大,对应变异就越大。所以取平均变异指标:均方差MS
,
回归系数
回归系数标准误
t值
P值
95%可信区间
y
Coef.
Std.Err.
t
P>|t|
[95% Conf,Interval]
x1
113.9987
38.31109
2.976
0.021
23.40741
204.5901
x2
45.48368
28.18428
1.614
0.151
-21.16155
112.1289
_cons
-5545.806
2293.933
-2.418
0.046
-10970.1
-121.5156
回归方程
解释回归系数的意义简述SST总=SSR回归+SSE残差,
自由度df回归=模型中的回归系数个数(不含常数项),df残差=n-df回归-1
,
模型的假设检验H0:(1=(2=0 vs (1,(2不全为0
当H0成立时,~F(df回归,df残差)
单个回归系数检验:H0:(=0 vs H1:((0
当H0:(=0成立时,
简述回归系数(的95%CI 意义与t检验的对应关系。
假设检验一般情况叙述决定系数
复相关系数R
H0:(1=(2=…=(r=0 vs (1,(2,…,(r不全为0。当H0成立时
((x1,x2,…,xp)的估计及其误差
(STATA命令:predict y1)
(STATA命令:predict meansd,stdp)(因为有抽样误差)
95%CI ,自由度v=n-1-p
个体预测值和标准误
(STATA命令:predict y1)
线性回归模型应用的条件总结理论上
且独立。
具体检查是否复合线性回归模型步骤先做线性回归计算残差(i
检查残差(i是否服从正态分布(引起正态分布)
检查残差(i的离散程度是否与其它自变量呈某种趋势关系。(要求无任何趋势关系)
检查残差(i变化是否与其它自变量呈某种对应趋势关系。(要求无任何趋势关系)
多元线性回归常见的应用以及应用中的问题全回归模型(析因分析)
多重共线对分析的影响VIFs (variance inflation factors)
对于自变量p个自变量x1,x2,…,xp中,以其中一个xi作为因变量作回归以及其它p-1个变量为自变量,得到相应的决定系数Ri。定义xi的膨胀因子
VIFi=1对应说明xi与其它p-1个自变量无共线。
当对应VIFi>1
当,说明xi与其它p-1个自变量完全共线,对应VIFi成为无穷大。
通常认为在p个自变量x1,x2,…,xp中,最大的VIF>10,则认为严重共线,最小二乘估计受到较严重的影响。
平均VIF=>>1,则认为寻找影响因变量的主要因素。
用回归进行两组或多组的均数比较并校正混杂因素的影响。
全回归分析举例例:据儿童保健部门的考察,4至7岁儿童的身高与年龄近似呈线性关系,且男女身高也有差异。下列收集了50名男孩和50名女孩的身高,年龄均在4岁至7岁之间。请试建立回归方程描述年龄与身高的关系(其中sex=1表示男,sex=0表示女)
sex
age
y
1
4.5
90
1
6.5
111
1
6.2
107
1
6.4
107
1
6.7
114
1
4.4
88
1
6.4
109
1
4.2
86
1
6.2
107
1
7.4
122
1
5
95
1
4.1
85
1
5.6
100
1
7.5
121
1
6
106
1
7.3
120
1
4.8
93
1
6.2
105
1
5
94
1
7.7
125
1
5.1
96
1
4.4
88
1
5.6
101
1
6.8
113
1
7.4
121
1
5.8
105
1
5.6
102
1
7.5
122
1
4.2
84
1
6.7
113
1
6.8
115
1
6.7
114
1
4.9
93
1
4.3
86
1
6.3
108
1
5.4
99
1
7.2
116
1
4.4
87
1
6.3
109
1
4.4
89
1
7.8
125
1
4.8
92
1
5
95
1
4.6
90
1
7
117
1
5.4
99
1
5.5
102
1
7.8
127
1
6.3
110
1
7.1
119
0
4.3
87
0
7.2
114
0
5
95
0
5.8
100
0
4.5
90
0
4.9
91
0
4.1
86
0
4.6
90
0
5.1
94
0
6.5
109
0
7.5
116
0
5.9
104
0
4.9
94
0
7.7
118
0
7.5
116
0
7.4
117
0
4.7
91
0
6.5
107
0
6.9
112
0
6.1
105
0
4.3
89
0
5.5
99
0
4.1
85
0
7.2
113
0
5.6
101
0
6
104
0
5.4
98
0
5.1
95
0
5.6
101
0
4.7
90
0
7.9
120
0
4.7
90
0
5.1
95
0
4.9
94
0
6.4
108
0
4.3
88
0
6.2
107
0
6.8
110
0
5
94
0
4.8
94
0
5.9
104
0
6.4
107
0
4.7
93
0
7.4
116
0
6.8
110
0
5.4
99
0
5.4
99
0
5.1
96
0
7.3
115
0
7.8
121
考虑身高总体均数为
模型为:
用拟合上述模型
gen sexage=sex*age
regress y age sex sexage
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
sex | -9.513794 1.119899 -8.50 0.000 -11.73678 -7.290813
age | 9.075835,1337354 67.86 0.000 8.810372 9.341298
sexage | 1.929241,1883106 10.24 0.000 1.555447 2.303035
_cons | 48.97983,7869668 62.24 0.000 47.41771 50.54194
回归方程为
则女孩为身高与年龄的回归方程为(sex=0)
age的回归系数的意义为每年身高增长的速度则男孩为身高与年龄的回归方程为(sex=1)
age的回归系数的意义为每年身高增长的速度因此女孩身高的增长速度为(2,样本估计值为9.075835
男孩身高的增长数为(2+(3,样本估计值为11.005076
男孩与女孩身高的增长速度差异为(3,(3>0说明男孩身高增长速度快,(3<0说明女孩身高增长速度快,(3说明女孩与男孩的身高增长速度是一样的。样本估计值为1.929241>0,P值<0.001。因此男孩身高速度高于女孩,并且差别有统计学意义。
例:治疗缺铁性贫血100人,随机分为2组,给予不同疗法治疗:经过一个月治疗后,治疗前后的红细胞数(万/(l)如下:
A组
B组
治疗前
y1
治疗后
y2
组别
group
治疗前
y1
治疗后
y2
组别
group
325
337
1
327
348
0
312
325
1
334
354
0
331
343
1
347
368
0
328
341
1
317
337
0
316
330
1
351
371
0
367
380
1
299
319
0
354
367
1
336
357
0
311
325
1
317
338
0
364
378
1
305
326
0
345
360
1
362
382
0
335
348
1
315
333
0
329
344
1
370
394
0
336
349
1
346
368
0
293
306
1
324
345
0
345
358
1
324
346
0
364
378
1
362
383
0
311
325
1
318
338
0
347
360
1
329
350
0
350
364
1
356
378
0
295
308
1
356
376
0
369
383
1
356
378
0
323
336
1
340
362
0
385
399
1
322
342
0
324
338
1
310
330
0
312
325
1
357
378
0
322
336
1
345
365
0
340
353
1
340
361
0
330
344
1
330
351
0
347
361
1
358
380
0
361
374
1
306
329
0
374
389
1
322
342
0
327
340
1
304
325
0
335
349
1
327
348
0
363
377
1
353
374
0
338
350
1
355
376
0
328
344
1
346
369
0
303
316
1
369
390
0
329
342
1
326
348
0
317
331
1
333
355
0
334
346
1
367
389
0
334
348
1
363
384
0
335
348
1
337
360
0
330
343
1
368
389
0
338
353
1
339
361
0
353
366
1
337
358
0
332
345
1
369
390
0
303
317
1
358
380
0
369
384
1
357
378
0
328
343
1
345
368
0
治疗前
治疗后
第一组
335.28(20.840541
348.82(21.04678
第二组
339.98(19.875623
361.14(20.188914
考虑以治疗前后的改变量为评价的效应指标先不考虑校正基线则可以用成组t检验进行统计分析
gen y=y2-y1
ttest y,by(group)
结果如下:
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std,Err,Std,Dev,[95% Conf,Interval]
---------+--------------------------------------------------------------------
0 | 49 21.16327,1524933 1.067453 20.85666 21.46987
1 | 49 13.57143,1271081,8897565 13.31586 13.827
---------+--------------------------------------------------------------------
combined | 98 17.36735,3978661 3.938674 16.57769 18.157
---------+--------------------------------------------------------------------
diff | 7.591837,1985212 7.197775 7.985898
------------------------------------------------------------------------------
Degrees of freedom,96
Ho,mean(0) - mean(1) = diff = 0
Ha,diff < 0 Ha,diff ~= 0 Ha,diff > 0
t = 38.2419 t = 38.2419 t = 38.2419
P < t = 1.0000 P > |t| = 0.0000 P > t = 0.0000
现用线性回归完成上述分析设B组(group=0)受试者的红细胞数改变量的总体均数为(d=(,
设A组(group=1)受试者的红细胞数改变量的总体均数为(d=(+(
因此两组的总体均数可以表示为(d=(+(group
用线性回归
,regress y group
Source | SS df MS Number of obs = 98
-------------+------------------------------ F( 1,96) = 1462.45
Model | 1412.08163 1 1412.08163 Prob > F = 0.0000
Residual | 92.6938776 96,965561224 R-squared = 0.9384
-------------+------------------------------ Adj R-squared = 0.9378
Total | 1504.77551 97 15.5131496 Root MSE =,98263
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
group | -7.591837,1985212 -38.24 0.000 -7.985898 -7.197775
_cons | 21.16327,1403757 150.76 0.000 20.88462 21.44191
------------------------------------------------------------------------------
(的估计值为21.16327,正是B组的样本均数
(的估计值为-7.591837,(+(=21.16327-7.591837=13.571433,正是A组的样本均数
(的估计值为两组样本均数的差值,(的检验统计量t=-38.24,与t检验结果对应,P值也对应。
可以证明:成组t检验也可以用线性回归分析进行。
从本例中可以发现回归系数(的意义就是两组总体均数的差值,其估计值同样为两组样本均数的差值。
gen y=y2-y1
regress y group y1
Source | SS df MS Number of obs = 98
-------------+------------------------------ F( 2,95) = 769.69
Model | 1417.30895 2 708.654475 Prob > F = 0.0000
Residual | 87.4665611 95,920700644 R-squared = 0.9419
-------------+------------------------------ Adj R-squared = 0.9407
Total | 1504.77551 97 15.5131496 Root MSE =,95953
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
group | -7.546723,194777 -38.75 0.000 -7.933405 -7.160042
y1 |,0114537,0048069 2.38 0.019,0019108,0209966
_cons | 17.27509 1.637541 10.55 0.000 14.02416 20.52602
------------------------------------------------------------------------------
predict e,residual 计算残差值(i
sktest e 残差正态性检验
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
e | 0.233 0.221 3.00 0.2230
gen ee=abs(e) 产生残差e的绝对值,放在变量ee
(检验方差齐性:Leven’s方差检验)
anova ee group
Number of obs = 98 R-squared = 0.0042
Root MSE =,589872 Adj R-squared = -0.0061
Source | Partial SS df MS F Prob > F
-----------+----------------------------------------------------
Model |,141918237 1,141918237 0.41 0.5246
group |,141918237 1,141918237 0.41 0.5246
Residual | 33.4030971 96,347948928
-----------+----------------------------------------------------
Total | 33.5450153 97,3458249
(=0.1,P值>>(,因此说明两组残差的平均幅度差别无统计意义。说明残差方差齐性。
析因分析举例例 为了研究A药和B药治疗患免疫球蛋白偏低的儿童的疗效,采用随机对照试验(RCT)和析因分析的研究设计方案:
第一组:仅是加强营养(作为对照组);
第二组:加强营养并服用A药;
第三组:加强营养并服用B药;
第四组:加强营养并服用A药且B药。
每组随机收集了25名患者进行治疗
评价药物疗效的指标为IgA(mg/dl 血清)并用y表示定义协变量
a=1表示服用A药,a=0表示未服用A药;
b=1表示服用A药,b=0表示未服用B药;
y
a
b
44.53015
0
0
51.8354
0
0
50.72699
0
0
51.32889
0
0
52.39704
0
0
43.83178
0
0
51.50717
0
0
42.27048
0
0
50.69454
0
0
55.66634
0
0
46.70815
0
0
41.49752
0
0
49.04363
0
0
56.36092
0
0
50.27493
0
0
55.00134
0
0
45.98535
0
0
50.81079
0
0
46.85695
0
0
58.11675
0
0
47.03985
0
0
44.07518
0
0
48.83615
0
0
52.94321
0
0
55.67211
0
0
59.51223
1
0
59.01192
1
0
66.2534
1
0
52.14392
1
0
62.282
1
0
62.84439
1
0
62.60862
1
0
56.34302
1
0
53.54026
1
0
61.20007
1
0
58.11905
1
0
64.33759
1
0
53.66106
1
0
60.97609
1
0
53.84545
1
0
69.76657
1
0
56.07521
1
0
56.79982
1
0
55.12985
1
0
63.54123
1
0
58.359
1
0
58.46656
1
0
69.2521
1
0
61.03927
1
0
64.12475
1
0
48.32073
0
1
59.51184
0
1
51.86812
0
1
54.40755
0
1
49.39411
0
1
51.23224
0
1
46.06244
0
1
50.26468
0
1
52.23868
0
1
56.63779
0
1
61.27808
0
1
54.81761
0
1
51.26158
0
1
62.67386
0
1
61.26489
0
1
60.40732
0
1
50.62864
0
1
56.61593
0
1
58.20361
0
1
55.52191
0
1
48.20736
0
1
53.52513
0
1
46.57814
0
1
59.37329
0
1
53.89015
0
1
70.06242
1
1
68.33412
1
1
67.24548
1
1
68.92453
1
1
65.732
1
1
79.91953
1
1
65.73748
1
1
67.13339
1
1
66.22453
1
1
71.42136
1
1
62.8155
1
1
70.7141
1
1
72.84426
1
1
66.69666
1
1
66.02016
1
1
69.71373
1
1
71.57328
1
1
65.56564
1
1
75.72329
1
1
72.74133
1
1
68.24663
1
1
68.3869
1
1
67.07391
1
1
74.80067
1
1
79.48926
1
1
对照组
(a=b=0)
服A药组
(a=1,b=0)
服B药组
(a=0,b=1)
服A药且B药组(a=b=1)
49.76(4.568
59.97(4.770
54.17(4.868
69.72(4.309
gen ab=a*b 产生交互作用变量
,regress y a b ab
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 3,96) = 86.66
Model | 5582.20784 3 1860.73595 Prob > F = 0.0000
Residual | 2061.17815 96 21.4706057 R-squared = 0.7303
-------------+------------------------------ Adj R-squared = 0.7219
Total | 7643.38599 99 77.2059191 Root MSE = 4.6336
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
a | 10.20887 1.310591 7.79 0.000 7.607371 12.81038
b | 4.406964 1.310591 3.36 0.001 1.805461 7.008466
ab | 5.349306 1.853455 2.89 0.005 1.670226 9.028386
_cons | 49.76046,9267277 53.69 0.000 47.92092 51.6
------------------------------------------------------------------------------
三组均数的比较,资料正态分布且方差齐性(reg3.dta)
分组变量g1和g2定义方差分析中的分组变量表示
回归模型中的分组变量表示
对应总体均数
A组group=0
g1=0
g2=0
μA
B组group=1
g1=1
g2=0
μB
C组group=2
g1=0
g2=1
μC
数据结构
观察数据变量
回归分析的分组变量
方差分析的分组变量
y
g1
g2
group
A组观察数据
38
0
0
0
g1=0,g2=0
(或group=0)
表示A组
67
0
0
0
46
0
0
0
B组观察数据
87
1
0
1
g1=1,g2=0
(或group=1)
表示B组
73
1
0
1
115
1
0
1
C组观察数据
124
0
1
2
g1=0,g2=1
(或group=2)
表示C组
155
0
1
2
132
0
1
2
回归模型: 且独立。
即:总体均数
A组:g1=0,g2=0,对应的总体均数
B组:g1=1,g2=0,对应的总体均数
C组:g1=0,g2=1,对应的总体均数
因此,所以检验的问题就是检验的问题。
因此,所以检验的问题就是检验的问题。
因为,
所以检验就是检验
数据格式
y
g1
g2
38.1206
0
0
67.34162
0
0
62.90796
0
0
65.31556
0
0
69.58817
0
0
35.32714
0
0
66.02868
0
0
29.0819
0
0
62.77817
0
0
82.66535
0
0
46.83258
0
0
25.99007
0
0
56.17453
0
0
85.44369
0
0
61.0997
0
0
80.00535
0
0
43.9414
0
0
63.24315
0
0
47.42779
0
0
92.46699
0
0
48.15941
0
0
36.30072
0
0
55.34461
0
0
71.77283
0
0
82.68842
0
0
58.0489
0
0
56.04767
0
0
85.01362
0
0
28.57566
0
0
69.128
0
0
71.37756
0
0
70.43449
0
0
45.37209
0
0
34.16106
0
0
64.80029
0
0
52.47618
0
0
77.35036
0
0
34.64425
0
0
63.90434
0
0
35.38181
0
0
99.06628
0
0
44.30083
0
0
47.19928
0
0
40.51939
0
0
74.16494
0
0
53.43601
0
0
53.86626
0
0
97.00839
0
0
64.15707
0
0
76.49899
0
0
84.5477
1
0
91.23988
1
0
104.8202
1
0
74.45151
1
0
108.0161
1
0
56.5021
1
0
93.86721
1
0
74.38637
1
0
62.59698
1
0
119.0835
1
0
72.28974
1
0
127.2765
1
0
103.4422
1
0
81.04057
1
0
81.69185
1
0
119.4486
1
0
75.34035
1
0
86.02144
1
0
113.6014
1
0
113.0365
1
0
113.1696
1
0
97.55296
1
0
79.58298
1
0
67.82103
1
0
114.8356
1
0
102.2754
1
0
97.39229
1
0
87.3518
1
0
115.5197
1
0
63.32135
1
0
79.149
1
0
61.65344
1
0
84.6485
1
0
110.9125
1
0
112.1211
1
0
103.7256
1
0
126.054
1
0
83.21771
1
0
90.76663
1
0
124.1369
1
0
120.5148
1
0
94.88055
1
0
125.5382
1
0
96.21667
1
0
94.16242
1
0
126.0081
1
0
115.0638
1
0
114.6435
1
0
102.1354
1
0
122.7107
1
0
131.1421
0
1
113.887
0
1
132.688
0
1
156.6752
0
1
118.1638
0
1
124.4931
0
1
94.90628
0
1
126.1432
0
1
135.7218
0
1
130.0799
0
1
128.5986
0
1
148.2903
0
1
103.9155
0
1
165.8997
0
1
153.2499
0
1
161.03
0
1
125.686
0
1
111.0262
0
1
143.2489
0
1
129.2844
0
1
148.2694
0
1
148.5397
0
1
139.504
0
1
146.5549
0
1
117.8908
0
1
107.7085
0
1
147.92
0
1
122.929
0
1
125.9652
0
1
111.2631
0
1
136.6548
0
1
144.5779
0
1
148.6958
0
1
142.7774
0
1
154.355
0
1
104.3635
0
1
154.4462
0
1
134.9218
0
1
143.6892
0
1
93.53427
0
1
158.2044
0
1
103.7953
0
1
120.9746
0
1
125.5946
0
1
134.1759
0
1
120.3256
0
1
134.8724
0
1
103.4812
0
1
151.5524
0
1
121.8205
0
1
组别
均数
标准差
A组
= 59.46
18.49
B组
= 97.40
19.83
C组
=131.67
18.18
regress y g1 g2
Source | SS df MS Number of obs = 150
-------------+------------------------------ F( 2,147) = 183.67
Model | 130469.346 2 65234.673 Prob > F = 0.0000
Residual | 52211.739 147 355.181898 R-squared = 0.7142
-------------+------------------------------ Adj R-squared = 0.7103
Total | 182681.085 149 1226.04755 Root MSE = 18.846
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
g1 | 37.93605 3.769254 10.06 0.000 30.48713 45.38498
g2 | 72.21014 3.769254 19.16 0.000 64.76121 79.65906
_cons | 59.4596 2.665265 22.31 0.000 54.19242 64.72679
------------------------------------------------------------------------------
得到回归方程
A组:g1=g2=0,
正好等于
B组:g1=1,g2=0,
正好等于
C组:g1=0,g2=1,
正好等于
g1的总体回归系数β1=μB-μA,对应样本估计值
g2的总体回归系数β2=μC-μA,对应样本估计值
H0:μA=μB对应H0:β1=0,相应的检验值t=10.06,P<0.001
可以认为μA(μB,μB-μA=β1的95%CI为[30.48713,45.38498]
因此至少有95%可能性可以肯定μB-μA>0,即:μB>μA。
H0:μA=μC对应H0:β2=0,相应的检验值t=19.16,P<0.001
可以认为μA(μC,μC-μA=β2的95%CI为[64.76121,79.65906]
因此至少有95%可能性可以肯定μC-μA>0,即:μC>μA。
为了检验H0:μB=μC vs μB(μC,
对应检验H0:β1=β2 vs H1,β1(β2,
因此在STATA软件中输入命令:
test g1=g2
( 1) g1 - g2 = 0.0
F( 1,147) = 82.68
Prob > F = 0.0000
P<0.001,因此可以认为μB(μC。可以证明相应的μB-μC的95%CI不包含0,若,则相应的95%CI的下限大于0;若,则相应的95%CI的上限小于0。
为了考察某指标y对冠心病患病是否有关。通过病例对照研究,比较病例组(用group=1表示)和对照组(用group=0表示)的总体均数比较,并考虑该因素y可能受年龄age的影响:
数据结构
g
age
y
0
41
24.94407
0
45
24.64047
0
33
19.20827
0
44
25.05363
0
41
25.0708
0
44
24.10382
0
31
21.59892
0
39
23.85115
0
34
22.46088
0
32
21.87037
0
38
22.64923
0
38
22.49829
0
44
26.38823
0
37
21.68497
0
45
26.31705
0
32
19.92455
0
36
21.61224
0
39
23.03382
0
34
23.43288
0
34
21.25991
0
46
27.31522
0
31
20.43799
0
45
25.13584
0
31
20.65471
0
40
26.05978
0
38
22.14487
0
41
25.42599
0
46
26.50913
0
43
24.05161
0
42
23.46782
0
40
24.19807
0
32
20.45943
0
40
23.48565
0
41
23.58829
0
39
22.34054
0
39
23.75778
0
43
27.43651
0
43
25.7033
0
33
20.08526
0
41
23.03668
0
34
22.47298
0
37
22.12897
0
44
25.20341
0
39
23.87881
0
32
19.23366
0
45
26.12749
0
43
23.29624
0
33
22.08334
0
35
21.89737
0
38
23.51324
1
53
23.39897
1
54
24.3774
1
54
23.86706
1
47
21.93024
1
48
23.37609
1
46
21.09182
1
54
24.69827
1
52
23.92228
1
51
21.95323
1
52
24.34829
1
47
21.82058
1
53
24.62826
1
46
21.65068
1
49
22.34383
1
55
23.69631
1
49
24.66773
1
45
20.8268
1
46
22.34239
1
51
23.00325
1
56
24.22594
1
56
26.01834
1
47
20.25248
1
55
23.31365
1
45
19.4241
1
47
20.5601
1
52
22.79094
1
54
22.94952
1
51
22.56448
1
50
23.38203
1
58
26.48532
1
44
20.19375
1
51
23.59503
1
56
25.71875
1
51
23.40669
1
58
26.60265
1
58
23.97177
1
58
24.52535
1
53
23.83046
1
49
21.10761
1
47
21.71655
1
56
25.57454
1
45
22.27683
1
53
25.53465
1
54
26.51828
1
47
22.40336
1
49
22.44885
1
50
22.85915
1
51
25.34406
1
44
21.09632
1
50
23.95883
先进行两组均数的比较
,sktest y if g==0
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
y | 0.973 0.306 1.09 0.5785
,sktest y if g==1
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
y | 0.973 0.457 0.57 0.7520
(=0.1,可以认为资料近似服从正态分布。
sdtest y,by(g)
Variance ratio test
------------------------------------------------------------------------------
Group | Obs Mean Std,Err,Std,Dev,[95% Conf,Interval]
---------+--------------------------------------------------------------------
0 | 50 23.33467,2936639 2.076517 22.74453 23.92481
1 | 50 23.25188,2475036 1.750115 22.7545 23.74925
---------+--------------------------------------------------------------------
combined | 100 23.29327,1910994 1.910994 22.91409 23.67246
------------------------------------------------------------------------------
Ho,sd(0) = sd(1)
F(49,49) observed = F_obs = 1.408
F(49,49) lower tail = F_L = 1/F_obs = 0.710
F(49,49) upper tail = F_U = F_obs = 1.408
Ha,sd(0) < sd(1) Ha,sd(0) ~= sd(1) Ha,sd(0) > sd(1)
P < F_obs = 0.8826 P < F_L + P > F_U = 0.2348 P > F_obs = 0.1174
(=0.1,可以认为两组方差齐性
,ttest y,by(g)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std,Err,Std,Dev,[95% Conf,Interval]
---------+--------------------------------------------------------------------
0 | 50 23.33467,2936639 2.076517 22.74453 23.92481
1 | 50 23.25188,2475036 1.750115 22.7545 23.74925
---------+--------------------------------------------------------------------
combined | 100 23.29327,1910994 1.910994 22.91409 23.67246
---------+--------------------------------------------------------------------
diff |,0827939,3840527 -.6793463,844934
------------------------------------------------------------------------------
Degrees of freedom,98
Ho,mean(0) - mean(1) = diff = 0
Ha,diff < 0 Ha,diff ~= 0 Ha,diff > 0
t = 0.2156 t = 0.2156 t = 0.2156
P < t = 0.5851 P > |t| = 0.8298 P > t = 0.4149
(=0.05,两组均数的差异无统计学意义。
考虑下列线性回归模型
因此病例组group=1的总体均数为
对照组group=0的总体均数为
因此对于相同的年龄,两组总体均数的差值为
用上述模型进行回归分析,结果如下:
reg y g age
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 2,97) = 127.99
Model | 262.185738 2 131.092869 Prob > F = 0.0000
Residual | 99.3520757 97 1.0242482 R-squared = 0.7252
-------------+------------------------------ Adj R-squared = 0.7195
Total | 361.537813 99 3.65189711 Root MSE = 1.0121
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
g | -4.672662,351174 -13.31 0.000 -5.369646 -3.975679
age |,3749893,0234455 15.99 0.000,3284565,421522
_cons | 8.822586,9185587 9.60 0.000 6.999501 10.64567
------------------------------------------------------------------------------
得到回归方程
病例组group=1代入上述回归方程,得到病例组的回归方程
对照组group=0代入上述回归方程,得到对照组的回归方程
两组方程的斜率相同,两组的截距差为group的回归系数(1,对应检验表明差别有统计意义,由于(1为在相同的年龄下,两组均数的差值,因此可以认为病例组患者的y指标比对照组平均低((1背景意义)4.673个单位。
考虑另一种典型情况:
研究背景同上例类似,考查另一指标y在病例对照研究中两组均数的比较。
数据结构与上例相同
g
age
y
0
41
24.21337
0
45
24.88294
0
33
19.36679
0
44
23.46762
0
41
25.73558
0
44
25.24361
0
31
21.39481
0
39
23.18912
0
34
21.20419
0
32
21.43232
0
38
24.23981
0
38
22.31686
0
44
26.31606
0
37
23.28342
0
45
23.94337
0
32
19.86609
0
36
21.70771
0
39
22.38951
0
34
21.42768
0
34
21.90865
0
46
26.45627
0
31
18.58
0
45
25.14674
0
31
20.6971
0
40
22.5633
0
38
23.29622
0
41
24.06831
0
46
27.79794
0
43
26.54116
0
42
24.79964
0
40
23.60192
0
32
20.14838
0
40
24.29846
0
41
24.29752
0
39
22.99795
0
39
23.86215
0
43
25.92762
0
43
25.79781
0
33
19.637
0
41
23.96939
0
34
21.07463
0
37
21.078
0
44
25.23777
0
39
24.21729
0
32
20.80099
0
45
28.13935
0
43
26.77838
0
33
21.47319
0
35
22.42599
0
38
23.5753
1
53
26.88459
1
54
28.96615
1
54
29.52883
1
47
27.55424
1
48
28.05626
1
46
27.32139
1
54
29.30366
1
52
28.50096
1
51
27.76499
1
52
30.01915
1
47
26.69682
1
53
28.35326
1
46
26.21111
1
49
27.08439
1
55
30.15783
1
49
28.82116
1
45
26.10023
1
46
25.67737
1
51
28.71856
1
56
30.24984
1
56
30.39481
1
47
27.03056
1
55
29.88958
1
45
26.30326
1
47
26.63717
1
52
29.92446
1
54
30.39066
1
51
28.91824
1
50
27.90691
1
58
31.36464
1
44
25.13896
1
51
28.07631
1
56
32.56833
1
51
26.32878
1
58
30.60498
1
58
30.66919
1
58
33.20078
1
53
27.77008
1
49
27.20773
1
47
28.76362
1
56
32.02333
1
45
26.45706
1
53
30.24512
1
54
28.15062
1
47
28.44679
1
49
29.32327
1
50
26.84916
1
51
26.76248
1
44
25.16171
1
50
28.9908
同样先用t检验比较两组均数,再用上述模型进行回归分析并考虑年龄对这两组均数的影响:
,sktest y if g==0
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
y | 0.966 0.364 0.86 0.6513
,sktest y if g==1
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
y | 0.232 0.807 1.56 0.4589
,sdtest y,by(g)
Variance ratio test
------------------------------------------------------------------------------
Group | Obs Mean Std,Err,Std,Dev,[95% Conf,Interval]
---------+--------------------------------------------------------------------
0 | 50 23.33631,3183926 2.251376 22.69647 23.97614
1 | 50 28.4694,2666049 1.885181 27.93364 29.00517
---------+--------------------------------------------------------------------
combined | 100 25.90285,3304763 3.304763 25.24712 26.55859
------------------------------------------------------------------------------
Ho,sd(0) = sd(1)
F(49,49) observed = F_obs = 1.426
F(49,49) lower tail = F_L = 1/F_obs = 0.701
F(49,49) upper tail = F_U = F_obs = 1.426
Ha,sd(0) < sd(1) Ha,sd(0) ~= sd(1) Ha,sd(0) > sd(1)
P < F_obs = 0.8912 P < F_L + P > F_U = 0.2175 P > F_obs = 0.1088
(=0.1,可以认为资料近似服从正态分布,方差齐性。
,ttest y,by(g)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std,Err,Std,Dev,[95% Conf,Interval]
---------+--------------------------------------------------------------------
0 | 50 23.33631,3183926 2.251376 22.69647 23.97614
1 | 50 28.4694,2666049 1.885181 27.93364 29.00517
---------+--------------------------------------------------------------------
combined | 100 25.90285,3304763 3.304763 25.24712 26.55859
---------+--------------------------------------------------------------------
diff | -5.133097,4152734 -5.957194 -4.309001
------------------------------------------------------------------------------
Degrees of freedom,98
Ho,mean(0) - mean(1) = diff = 0
Ha,diff < 0 Ha,diff ~= 0 Ha,diff > 0
t = -12.3608 t = -12.3608 t = -12.3608
P < t = 0.0000 P > |t| = 0.0000 P > t = 1.0000
(=0.05,t检验结果为两组差别有统计学意义。
,reg y g age
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 2,97) = 481.25
Model | 982.235203 2 491.117601 Prob > F = 0.0000
Residual | 98.989421 97 1.0205095 R-squared = 0.9084
-------------+------------------------------ Adj R-squared = 0.9066
Total | 1081.22462 99 10.9214608 Root MSE = 1.0102
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
g |,0329006,3505324 0.09 0.925 -.6628092,7286105
age |,4166827,0234026 17.80 0.000,370235,4631305
_cons | 7.210684,9168807 7.86 0.000 5.390929 9.030438
------------------------------------------------------------------------------
得到回归方程
对照组group=0代入上式:得到对照组的回归方程
病例组group=1代入上式:得到病例组的回归方程
两组方程的斜率相同,两组的截距差为group的回归系数(1,对应检验差别无统计意义,所以对于相同的年龄,两组y的平均数无统计意义。说明作t检验得到差别有统计意义的结果受到年龄的混杂作用。
析因分析举例(析因分析.dta)
例 为了研究A药和B药治疗患免疫球蛋白偏低的儿童的疗效,采用随机对照试验(RCT)和析因分析的研究设计方案:
第一组:仅是加强营养(作为对照组);
第二组:加强营养并服用A药;
第三组:加强营养并服用B药;
第四组:加强营养并服用A药且B药。
每组随机收集了25名患者进行治疗
评价药物疗效的指标为IgA(mg/dl 血清)并用y表示定义协变量
a=1表示服用A药,a=0表示未服用A药;
b=1表示服用A药,b=0表示未服用B药;
gen ab=a*b 产生交互作用变量用回归模型,
其中
数据结构
y
a
b
40
0
0
41
0
0
42
0
0
44
0
0
45
0
0
46
0
0
47
0
0
47
0
0
48
0
0
49
0
0
50
0
0
50
0
0
51
0
0
51
0
0
51
0
0
51
0
0
51
0
0
52
0
0
53
0
0
53
0
0
53
0
0
54
0
0
55
0
0
57
0
0
59
0
0
47
1
0
50
1
0
50
1
0
53
1
0
57
1
0
57
1
0
58
1
0
58
1
0
59
1
0
59
1
0
59
1
0
59
1
0
61
1
0
61
1
0
61
1
0
61
1
0
61
1
0
61
1
0
62
1
0
62
1
0
62
1
0
64
1
0
64
1
0
65
1
0
70
1
0
42
0
1
46
0
1
47
0
1
48
0
1
50
0
1
51
0
1
51
0
1
52
0
1
55
0
1
55
0
1
55
0
1
55
0
1
56
0
1
56
0
1
57
0
1
58
0
1
58
0
1
58
0
1
59
0
1
59
0
1
59
0
1
60
0
1
60
0
1
61
0
1
63
0
1
56
1
1
57
1
1
60
1
1
64
1
1
65
1
1
65
1
1
66
1
1
66
1
1
66
1
1
68
1
1
68
1
1
68
1
1
68
1
1
70
1
1
70
1
1
71
1
1
71
1
1
71
1
1
72
1
1
73
1
1
73
1
1
74
1
1
77
1
1
78
1
1
81
1
1
对照组
(a=b=0)
服A药组
(a=1,b=0)
服B药组
(a=0,b=1)
服A药且B药组(a=b=1)
49.6(4.77842
59.24(5.03554
54.84(5.24150
68.72(5.94783
(=(0
(=(0+(1
(=(0+(2
(=(0+(1+(2+(3
,regress y a b ab
Source
SS
df
MS
Number of obs = 100
F( 3,96) = 59.13
Model
4924.04
3
1641.34667
Prob > F = 0.0000
Residual
2664.96
96
27.76
R-squared = 0.6488
Adj R-squared = 0.6379
Total
7589.00
99
76.6565657
Root MSE = 5.2688
y
Coef.
Std.Err.
t
P>|t|
[95%Conf,Interval]
a
9.64
1.490235
6.469
0.000
6.681907
12.59809
b
5.24
1.490235
3.516
0.001
2.281907
8.198093
ab
4.24
2.10751
2.012
0.047
.0566251
8.423375
_cons
49.6
1.053755
47.070
0.000
47.50831
51.69169
得到回归方程:
对照组a=b=0,
A药组:a=1,b=0,
B药组:a=0,b=1,
A药+B药组,a=b=1,
研究问题1:单独用A药,效应如何?
单独用B药,效应如何?
同时用A同时用B药的效应是否大于或小于单独用A药的效应+单独用B药效应?
A药的样本效应值为9.64
B药的样本效应值为5.24
A药+B药的样本效应值为9.64+5.24+4.24=19.12>A药和B药单独使用的效应值的和9.64+5.24=14.88,两者相差,且有统计意义。即有协同作用。
研究问题2:单独用A药和单独用B药,哪个药效果好?
H0:(1=(2 vs Ha:(1((2
STATA命令:test a=b
test a=b
( 1) a - b = 0.0
F( 1,96) = 8.72
Prob > F = 0.0040,说明差别有统计意义且A药优于B要。
多个回归系数检验问题例3-2 健康女性身体各部位脂肪分布情况用x1表示三头肌皮褶厚度,x2表示大腿围,x3表示中臂围,用y表示身体脂肪。试用线性回归分析的方法分析身体脂肪与三头肌皮褶厚度,大腿围和中臂围之间的关系。
no
x1
x2
x3
y
no
x1
x2
x3
y
1
19.5
43.1
29.1
11.9
11
31.1
56.6
30
25.4
2
24.7
49.8
28.2
22.8
12
30.4
56.7
28.3
27.2
3
30.7
51.9
37
18.7
13
18.7
46.5
23
11.7
4
29.8
54.3
31.1
20.1
14
19.7
44.2
28.6
17.8
5
19.1
42.2
30.9
12.9
15
14.6
42.7
21.3
12.8
6
25.6
53.9
23.7
21.7
16
29.5
54.4
30.1
23.9
7
31.4
58.5
27.6
27.1
17
27.7
55.3
25.7
22.6
8
27.9
52.1
30.6
25.4
18
30.2
56.6
24.6
25.4
9
22.1
49.9
23.2
21.3
19
22.7
48.2
27.1
14.8
10
25.5
53.5
24.8
19.3
20
25.2
51
27.5
21.1
STATA命令
regress y x1 x2 x3
Source
SS
df
MS
Number of obs=20
F(3,16)=19.63
Model
389.544775
3
129.848258
Prob>F=0.0000
Residual
105.844739
16
6.61529616
R-squared=0.7863
AdjR-squared=0.7463
Total
495.389513
19
26.0731323
Root MSE=2.572
H0:(1=(2=(3=0 vs H1:(1,(2,(3不全为0
P<0.0001,因此拒绝H0,并认为至少有一个回归系数不为0。
y
Coef.
Std.Err.
t
P>|t|
[95%Conf.
Interval]
x1
1.157647
1.357375
0.853
0.406
-1.719859
4.035153
x2
-.1388739
1.194493
-0.116
0.909
-2.671085
2.393337
x3
-.5102747
.7020557
-0.727
0.478
-1.998566
.978017
_cons
12.08683
45.77971
0.264
0.795
-84.96181
109.1355
虽然所有单个回归系数的检验P>0.05,但是单个回归系数的检验是指其它回归系数均在模型中的条件下,而该因素的回归系数(=0的检验。事实上,出现这种情况,很可能是自变量之间高度相关且某一个自变量可以被其它自变量线性表示。称为多重共线问题。
多重共线对分析的影响VIFs (variance inflation factors)
对于自变量p个自变量x1,x2,…,xp中,以其中一个xi作为因变量作回归以及其它p-1个变量为自变量,得到相应的决定系数Ri。定义xi的膨胀因子
VIFi=1对应说明xi与其它p-1个自变量无共线。
当对应VIFi>1
当,说明xi与其它p-1个自变量完全共线,对应VIFi成为无穷大。
通常认为在p个自变量x1,x2,…,xp中,最大的VIF>10,则认为严重共线,最小二乘估计受到较严重的影响。
平均VIF=>>1,则认为多重共线。
在本例中,自变量x1,x2,x3可能多重共线。因此在运行regress命令后,再输入计算膨胀因子的计算vif
Variable | VIF 1/VIF
x1 | 133.53 0.007489
x2 | 106.70 0.009372
x3 | 18.83 0.053106
Mean VIF | 86.35
因此可以认为严重的多重共线。
,sw regress y x1 x2 x3,pe(0.05) pr(0.051)
begin with full model
p = 0.9089 >= 0.0510 removing x2
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 2,17) = 31.25
Model | 389.455357 2 194.727678 Prob > F = 0.0000
Residual | 105.934156 17 6.23142096 R-squared = 0.7862
-------------+------------------------------ Adj R-squared = 0.7610
Total | 495.389513 19 26.0731323 Root MSE = 2.4963
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
x1 | 1.000585,1282321 7.80 0.000,7300389 1.271131
x3 | -.431442,1766156 -2.44 0.026 -.8040683 -.0588157
_cons | 6.791625 4.488287 1.51 0.149 -2.677833 16.26108
------------------------------------------------------------------------------
当x2剔除模型后,x1和x3的回归系数均有统计意义。
所以模型中,出现多个回归系数的P值>0.05,不能立刻断定这些P值大于0.05的回归系数所对应的变量均无统计意义而剔除模型。
逐步回归也分为二种方式:前进法和后推法筛选变量。
以例3-3(pp46)为例分别说明逐步回归的前进法和逐步回归的后退法过程。
为了使资料较好地正态分布,对y取对数
gen yy=ln(y)/ln(10)
第一步:
寻找最佳的单变量线性回归模型模型1 得到相应的F1=7.09 P值=0.01
模型2 得到相应的F2=28.19 P值<0.001
模型3 得到相应的F3=41.25 P值<0.001
模型4 得到相应的F4=50.05 P值<0.001
因此就单变量的线性回归模型而言,模型4是相对最好的。
第二步
考虑回归模型中引进第2个变量:
模型 5 得到相应的F1=0.003 P值>0.05
模型 6 得到相应的F2=19.46 P值<0.001
模型 7 得到相应的F3=26.93 P值<0.001
因此选用模型7(既引进变量x3)
第三步考虑回归模型中引进第3个变量:
模型 8
得到相应的F1=6.891 P值<0.02
模型 9
得到相应的F2=88.83 P值<0.001
因此选用模型9(既引进变量x2)
考虑回归模型中引进第4个变量:
模型 10
得到相应的F1=163.84 P值<0.001,但是x4的P值=0.805,相应F4=0.0615,因此x4应从模型10中剔除。因此得到模型11
模型 11
最后得到模型为的变量已经不能在引进模型并且模型中的变量也不能被剔除出模型。该模型具体结果为
Source
SS
df
MS
Number of obs=54
F(3,50)=585.89
Model
3.86284309
3
1.28761436
Prob>F=0.0000
Residual
.109885494
50
.00219771
R-squared=0.9723
Adj R-squared=0.9707
Total
3.97272859
53
.074957143
RootMSE=.04688
yy
Coef.
Std.Err.
t
P>|t|
[95%Conf.
Interval]
x1
.0692287
.0040784
16.974
0.000
.0610369
.0774205
x2
.0092946
.0003826
24.296
0.000
.0085262
.010063
x3
.0095233
.0003064
31.077
0.000
.0089078
.0101388
_cons
.4836226
.0426339
11.344
0.000
.3979898
.5692553
应用回归结果前,应检查残差是否近似正态分布(要求基本对称就可以了,大样本时要求可以更低一些)。
残差的离散程度是否各个自变量变化无关?若残差的离散程度与某个自变量的变化有关,则应采用某种变换或用关于方差稳健的回归分析(robust regression):在STATA软件中:如本例
regress yy x1 x2 x3,robust
若满足上述二条,回归系数的检验结果是可靠的。
若要应用回归模型进行预测,则还应满足各个自变量与残差无任何明显趋势变化。
在引入模型的自变量中,若有亚元变量,则亚元变量是一组变量(认为向量变量),所以对于某一组的亚元变量,则要么该组亚元变量全引进模型,要么该组亚元变量全剔除出模型。不能亚元变量的某几个成分的变量进入模型,另外几个成分的亚元变量未进入模型。
60个男孩的身高资料如下年龄
3岁
4岁
5岁
6岁
7岁
8岁
身高
92.5
96.5
106.0
115.5
125.5
121.5
97.0
101.0
104.0
115.5
117.5
128.5
96.0
105.5
107.0
111.5
118.0
124.0
96.5
102.0
109.5
110.0
117.0
125.5
97.0
105.0
111.0
114.5
122.0
122.5
92.0
99.5
107.5
112.5
119.0
123.5
96.5
102.0
107.0
116.5
119.0
120.5
91.0
100.0
111.5
110.0
125.5
123.0
96.0
106.5
103.0
114.5
120.5
124.0
99.0
100.0
109.0
110.0
122.0
126.5
平均身高
95.4
101.8
107.6
113.1
120.6
124.0
从散点图上,我们可以发现样本点(X,Y)随机地出现在一条直线附近,并且从资料背景上考察,同一年龄的儿童身高应近似服从一个正态分布,而儿童身高的总体均数应随着年龄增长而增大,并由每个年龄的身高样本均数与儿童年龄的散点图可以发现:这些点非常接近一条直线以及样本均数存在抽样误差,因此推测儿童身高的总体均数与年龄可能呈直线关系。故假定身高Y在年龄X点上的总体均数与X呈直线关系。
其中y表示身高,x表示年龄。由于身高的总体均数与年龄有关,所以更准确地标记应为
表示在固定年龄情况下的身高总体均数。
身高的样本均数与年龄的散点图故有理由认为身高的总体均数与年龄的关系可能是一条直线关系上述公式称为直线回归方程。其中(为回归系数(regression coefficient),或称为斜率(slope);(称为常数项(constant),或称为截距(intercept)。回归系数(表示x变化一个单位y平均变化(个单位。当x和y都是随机的,x、y间呈正相关时(>0,x、y间呈负相关时(<0,x、y间独立时(=0。
一般情况而言,参数(和(是未知的。对于本例而言,不同民族和不同地区,(和(往往是不同的,因此需要进行估计的。由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即:实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数(和(进行估计,一般采用最小二乘法进行参数估计。我们将借助Stata软件对本例资料进行直线回归。
数据格式
x
y
3
92.5
3
97.0
3
96.0
3
96.5
3
97.0
3
92.0
3
96.5
3
91.0
3
96.0
3
99.0
4
96.5
4
101.0
4
105.5
4
102.0
4
105.0
4
99.5
4
102.0
4
100.0
4
106.5
4
100.0
5
106.0
5
104.0
5
107.0
5
109.5
5
111.0
5
107.5
5
107.0
5
111.5
5
103.0
5
109.0
6
115.5
6
115.5
6
111.5
6
110.0
6
114.5
6
112.5
6
116.5
6
110.0
6
114.5
6
110.0
7
125.5
7
117.5
7
118.0
7
117.0
7
122.0
7
119.0
7
119.0
7
125.5
7
120.5
7
122.0
8
121.5
8
128.5
8
124.0
8
125.5
8
122.5
8
123.5
8
120.5
8
123.0
8
124.0
8
126.5
回归命令
regress y x
Source | SS df MS Number of obs = 60
-------------+------------------------------ F( 1,58) = 777.41
Model | 5997.71571 1 5997.71571 Prob > F = 0.0000
Residual | 447.467619 58 7.71495895 R-squared = 0.9306
-------------+------------------------------ Adj R-squared = 0.9294
Total | 6445.18333 59 109.240395 Root MSE = 2.7776
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
x | 5.854286,2099654 27.88 0.000 5.433994 6.274577
_cons | 78.18476 1.209202 64.66 0.000 75.76428 80.60524
------------------------------------------------------------------------------
回归方程
b=5.854286,a= 78.18476
se(b)= 0.2099654
回归系数检验:H0:(=0 vs H1:((0
回归系数统计量t=b/se(b)= 5.854286/,2099654=27.88,P值<0.001,
95%CI of ( 为 (5.433994,6.274577)
简述单因素线性回归方程y=(+(x在实际分析中要注意的问题残差(i=yi-a-bxi,引入回归模型yi=(+(xi+(i
(i~N(0,()且{(i}相互独立:说明有三个条件:
(i服从正态分布
{(i}相同的方差(2。
{(i}相互独立。
不满足上述3个条件时,反映在实际回归分析时,有如下情况:
散点在直线一侧较多而且靠直线很近,当在直线的另一侧,散点较少,而且离直线较远,反映在误差项(偏态分布。
散点随着自变量x增大而离散程度增大或减小(喇叭口状),反映了误差项(方差随着x变而变,即不满足相同方差(方差齐性)。
随着xi变化而(i呈某种规律性的变化。反映(还含有x的信息未利用到,还可以继续改进回归模型。
问题1:在同一总体中随机抽取2个相同样本量的样本,每个样本中都含有变量x和y,并以y为因变量和x为自变量,作线性回归,请问:两个样本作出的回归方程一样吗?它们之间什么关系?
问题2:回归方程所示的直线与原始数据的关系是什么?
不同,它们之间存在抽样误差回归分析统计背景:对于固定自变量x,对y所在的总体进行抽样,得到在固定x情况下,y的样本值,因此对于每个xi,得到对应的抽样值yi。即:资料为:(x1,y1),(x2,y2),…,(xn,yn)。
因此对于同一个x值,y所对应的总体均数相同,不同的x值,y所对应的总体均数可能不同。
如果y的总体均数值与x的关系呈直线关系,则样本资料(x1,y1),(x2,y2),…,(xn,yn)呈带状直线散点图。
由于抽样资料y=总体均数+抽样误差
因此如果y的总体均数值与x呈直线关系,则抽样资料
当,则对于固定x,,而用样本资料(x1,y1),(x2,y2),…,(xn,yn)所估计得到的回归方程是固定x情况下,y的总体均数与x的线性方程的表达式。
即:b是β的样本估计值(无偏估计),a是α的样本估计值(无偏估计),是的样本估计值。
抽样误差(估计值)=样本资料-(a+bx) (即,的估计值:残差)
所以要求回归分析的资料,其残差服从正态分布,且与x无关、方差齐性。
引入多元线性回归模型定义例3-1,研究女中学生的肺活量与体重和胸围的关系,随机抽样了10名女中学生的体重x1(kg),胸围x2(cm)和肺活量y(ml),资料如表3-1,试建立一个因变量为y对自变量x1,x2的线性回归方程。
对于相同的体重x1和胸围x2,考查女中学生的肺活量y总是有一定的变异的,但总对应有一个总体均数(y|X,而且总体均数(y|X可能与体重x1和胸围x2有关。x1和x2与总体均数(y|X最简单的关系为线性关系:
同样的x1和x2,观察值y与总体均数(y总有一定的随机误差(,即y-(y|X=(,因此
若(~N(0,(2)分布且独立,而观察值,则称肺活量y、体重x1和胸围x2符合线性回归模型
对于一般的线性回归模型定义为:
设有p个观察自变量x1,x2,…,xp,并用向量
X=( x1,x2,…,xp)’,因变量为y,且记y的总体均数为,随机误差(~N(0,(2)且独立,则线性回归模型可以表示为
对于观察值(y1,X1),(y2,X2),…,(yn,Xn),其中Xi=(xi1,xi2,…,xip),i=1,2,…,n。对应的线性回归模型为
且独立。
在本例中,作线性回归如下:(介绍一下数据结构)
,regress y x1 x2
Source
SS
df
MS
Number of obs = 10
F( 2,7) = 6.75
回归平方和
回归均方和
Model
1895106.55
2
947553.275
Prob > F = 0.0232
残差平方和
残差均方和
决定系数
Residual
982143.45
7
140306.207
R-squared = 0.6587
校正和决定系数
Adj R-squared = 0.5611
Total
2877250.00
9
319694.444
Root MSE = 374.57
总平方和SS总描述样本量为n=10的因变量y总的变异。回归平方和SSR描述了样本量为n时,由自变量x1,x2变化而引起的因变量y的这部分变异,SSe描述了样本量为n时,由随机误差项(所引起的因变量y的一部分变异,因此:
总变异=自变量引起y的变异+随机误差(引起变异对应:SS总=SS回归+SS误差由于SS总,SS回归和SS误差均与样本量n有关,样本量n越大,对应变异就越大。所以取平均变异指标:均方差MS
,
回归系数
回归系数标准误
t值
P值
95%可信区间
y
Coef.
Std.Err.
t
P>|t|
[95% Conf,Interval]
x1
113.9987
38.31109
2.976
0.021
23.40741
204.5901
x2
45.48368
28.18428
1.614
0.151
-21.16155
112.1289
_cons
-5545.806
2293.933
-2.418
0.046
-10970.1
-121.5156
回归方程
解释回归系数的意义简述SST总=SSR回归+SSE残差,
自由度df回归=模型中的回归系数个数(不含常数项),df残差=n-df回归-1
,
模型的假设检验H0:(1=(2=0 vs (1,(2不全为0
当H0成立时,~F(df回归,df残差)
单个回归系数检验:H0:(=0 vs H1:((0
当H0:(=0成立时,
简述回归系数(的95%CI 意义与t检验的对应关系。
假设检验一般情况叙述决定系数
复相关系数R
H0:(1=(2=…=(r=0 vs (1,(2,…,(r不全为0。当H0成立时
((x1,x2,…,xp)的估计及其误差
(STATA命令:predict y1)
(STATA命令:predict meansd,stdp)(因为有抽样误差)
95%CI ,自由度v=n-1-p
个体预测值和标准误
(STATA命令:predict y1)
线性回归模型应用的条件总结理论上
且独立。
具体检查是否复合线性回归模型步骤先做线性回归计算残差(i
检查残差(i是否服从正态分布(引起正态分布)
检查残差(i的离散程度是否与其它自变量呈某种趋势关系。(要求无任何趋势关系)
检查残差(i变化是否与其它自变量呈某种对应趋势关系。(要求无任何趋势关系)
多元线性回归常见的应用以及应用中的问题全回归模型(析因分析)
多重共线对分析的影响VIFs (variance inflation factors)
对于自变量p个自变量x1,x2,…,xp中,以其中一个xi作为因变量作回归以及其它p-1个变量为自变量,得到相应的决定系数Ri。定义xi的膨胀因子
VIFi=1对应说明xi与其它p-1个自变量无共线。
当对应VIFi>1
当,说明xi与其它p-1个自变量完全共线,对应VIFi成为无穷大。
通常认为在p个自变量x1,x2,…,xp中,最大的VIF>10,则认为严重共线,最小二乘估计受到较严重的影响。
平均VIF=>>1,则认为寻找影响因变量的主要因素。
用回归进行两组或多组的均数比较并校正混杂因素的影响。
全回归分析举例例:据儿童保健部门的考察,4至7岁儿童的身高与年龄近似呈线性关系,且男女身高也有差异。下列收集了50名男孩和50名女孩的身高,年龄均在4岁至7岁之间。请试建立回归方程描述年龄与身高的关系(其中sex=1表示男,sex=0表示女)
sex
age
y
1
4.5
90
1
6.5
111
1
6.2
107
1
6.4
107
1
6.7
114
1
4.4
88
1
6.4
109
1
4.2
86
1
6.2
107
1
7.4
122
1
5
95
1
4.1
85
1
5.6
100
1
7.5
121
1
6
106
1
7.3
120
1
4.8
93
1
6.2
105
1
5
94
1
7.7
125
1
5.1
96
1
4.4
88
1
5.6
101
1
6.8
113
1
7.4
121
1
5.8
105
1
5.6
102
1
7.5
122
1
4.2
84
1
6.7
113
1
6.8
115
1
6.7
114
1
4.9
93
1
4.3
86
1
6.3
108
1
5.4
99
1
7.2
116
1
4.4
87
1
6.3
109
1
4.4
89
1
7.8
125
1
4.8
92
1
5
95
1
4.6
90
1
7
117
1
5.4
99
1
5.5
102
1
7.8
127
1
6.3
110
1
7.1
119
0
4.3
87
0
7.2
114
0
5
95
0
5.8
100
0
4.5
90
0
4.9
91
0
4.1
86
0
4.6
90
0
5.1
94
0
6.5
109
0
7.5
116
0
5.9
104
0
4.9
94
0
7.7
118
0
7.5
116
0
7.4
117
0
4.7
91
0
6.5
107
0
6.9
112
0
6.1
105
0
4.3
89
0
5.5
99
0
4.1
85
0
7.2
113
0
5.6
101
0
6
104
0
5.4
98
0
5.1
95
0
5.6
101
0
4.7
90
0
7.9
120
0
4.7
90
0
5.1
95
0
4.9
94
0
6.4
108
0
4.3
88
0
6.2
107
0
6.8
110
0
5
94
0
4.8
94
0
5.9
104
0
6.4
107
0
4.7
93
0
7.4
116
0
6.8
110
0
5.4
99
0
5.4
99
0
5.1
96
0
7.3
115
0
7.8
121
考虑身高总体均数为
模型为:
用拟合上述模型
gen sexage=sex*age
regress y age sex sexage
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
sex | -9.513794 1.119899 -8.50 0.000 -11.73678 -7.290813
age | 9.075835,1337354 67.86 0.000 8.810372 9.341298
sexage | 1.929241,1883106 10.24 0.000 1.555447 2.303035
_cons | 48.97983,7869668 62.24 0.000 47.41771 50.54194
回归方程为
则女孩为身高与年龄的回归方程为(sex=0)
age的回归系数的意义为每年身高增长的速度则男孩为身高与年龄的回归方程为(sex=1)
age的回归系数的意义为每年身高增长的速度因此女孩身高的增长速度为(2,样本估计值为9.075835
男孩身高的增长数为(2+(3,样本估计值为11.005076
男孩与女孩身高的增长速度差异为(3,(3>0说明男孩身高增长速度快,(3<0说明女孩身高增长速度快,(3说明女孩与男孩的身高增长速度是一样的。样本估计值为1.929241>0,P值<0.001。因此男孩身高速度高于女孩,并且差别有统计学意义。
例:治疗缺铁性贫血100人,随机分为2组,给予不同疗法治疗:经过一个月治疗后,治疗前后的红细胞数(万/(l)如下:
A组
B组
治疗前
y1
治疗后
y2
组别
group
治疗前
y1
治疗后
y2
组别
group
325
337
1
327
348
0
312
325
1
334
354
0
331
343
1
347
368
0
328
341
1
317
337
0
316
330
1
351
371
0
367
380
1
299
319
0
354
367
1
336
357
0
311
325
1
317
338
0
364
378
1
305
326
0
345
360
1
362
382
0
335
348
1
315
333
0
329
344
1
370
394
0
336
349
1
346
368
0
293
306
1
324
345
0
345
358
1
324
346
0
364
378
1
362
383
0
311
325
1
318
338
0
347
360
1
329
350
0
350
364
1
356
378
0
295
308
1
356
376
0
369
383
1
356
378
0
323
336
1
340
362
0
385
399
1
322
342
0
324
338
1
310
330
0
312
325
1
357
378
0
322
336
1
345
365
0
340
353
1
340
361
0
330
344
1
330
351
0
347
361
1
358
380
0
361
374
1
306
329
0
374
389
1
322
342
0
327
340
1
304
325
0
335
349
1
327
348
0
363
377
1
353
374
0
338
350
1
355
376
0
328
344
1
346
369
0
303
316
1
369
390
0
329
342
1
326
348
0
317
331
1
333
355
0
334
346
1
367
389
0
334
348
1
363
384
0
335
348
1
337
360
0
330
343
1
368
389
0
338
353
1
339
361
0
353
366
1
337
358
0
332
345
1
369
390
0
303
317
1
358
380
0
369
384
1
357
378
0
328
343
1
345
368
0
治疗前
治疗后
第一组
335.28(20.840541
348.82(21.04678
第二组
339.98(19.875623
361.14(20.188914
考虑以治疗前后的改变量为评价的效应指标先不考虑校正基线则可以用成组t检验进行统计分析
gen y=y2-y1
ttest y,by(group)
结果如下:
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std,Err,Std,Dev,[95% Conf,Interval]
---------+--------------------------------------------------------------------
0 | 49 21.16327,1524933 1.067453 20.85666 21.46987
1 | 49 13.57143,1271081,8897565 13.31586 13.827
---------+--------------------------------------------------------------------
combined | 98 17.36735,3978661 3.938674 16.57769 18.157
---------+--------------------------------------------------------------------
diff | 7.591837,1985212 7.197775 7.985898
------------------------------------------------------------------------------
Degrees of freedom,96
Ho,mean(0) - mean(1) = diff = 0
Ha,diff < 0 Ha,diff ~= 0 Ha,diff > 0
t = 38.2419 t = 38.2419 t = 38.2419
P < t = 1.0000 P > |t| = 0.0000 P > t = 0.0000
现用线性回归完成上述分析设B组(group=0)受试者的红细胞数改变量的总体均数为(d=(,
设A组(group=1)受试者的红细胞数改变量的总体均数为(d=(+(
因此两组的总体均数可以表示为(d=(+(group
用线性回归
,regress y group
Source | SS df MS Number of obs = 98
-------------+------------------------------ F( 1,96) = 1462.45
Model | 1412.08163 1 1412.08163 Prob > F = 0.0000
Residual | 92.6938776 96,965561224 R-squared = 0.9384
-------------+------------------------------ Adj R-squared = 0.9378
Total | 1504.77551 97 15.5131496 Root MSE =,98263
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
group | -7.591837,1985212 -38.24 0.000 -7.985898 -7.197775
_cons | 21.16327,1403757 150.76 0.000 20.88462 21.44191
------------------------------------------------------------------------------
(的估计值为21.16327,正是B组的样本均数
(的估计值为-7.591837,(+(=21.16327-7.591837=13.571433,正是A组的样本均数
(的估计值为两组样本均数的差值,(的检验统计量t=-38.24,与t检验结果对应,P值也对应。
可以证明:成组t检验也可以用线性回归分析进行。
从本例中可以发现回归系数(的意义就是两组总体均数的差值,其估计值同样为两组样本均数的差值。
gen y=y2-y1
regress y group y1
Source | SS df MS Number of obs = 98
-------------+------------------------------ F( 2,95) = 769.69
Model | 1417.30895 2 708.654475 Prob > F = 0.0000
Residual | 87.4665611 95,920700644 R-squared = 0.9419
-------------+------------------------------ Adj R-squared = 0.9407
Total | 1504.77551 97 15.5131496 Root MSE =,95953
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
group | -7.546723,194777 -38.75 0.000 -7.933405 -7.160042
y1 |,0114537,0048069 2.38 0.019,0019108,0209966
_cons | 17.27509 1.637541 10.55 0.000 14.02416 20.52602
------------------------------------------------------------------------------
predict e,residual 计算残差值(i
sktest e 残差正态性检验
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
e | 0.233 0.221 3.00 0.2230
gen ee=abs(e) 产生残差e的绝对值,放在变量ee
(检验方差齐性:Leven’s方差检验)
anova ee group
Number of obs = 98 R-squared = 0.0042
Root MSE =,589872 Adj R-squared = -0.0061
Source | Partial SS df MS F Prob > F
-----------+----------------------------------------------------
Model |,141918237 1,141918237 0.41 0.5246
group |,141918237 1,141918237 0.41 0.5246
Residual | 33.4030971 96,347948928
-----------+----------------------------------------------------
Total | 33.5450153 97,3458249
(=0.1,P值>>(,因此说明两组残差的平均幅度差别无统计意义。说明残差方差齐性。
析因分析举例例 为了研究A药和B药治疗患免疫球蛋白偏低的儿童的疗效,采用随机对照试验(RCT)和析因分析的研究设计方案:
第一组:仅是加强营养(作为对照组);
第二组:加强营养并服用A药;
第三组:加强营养并服用B药;
第四组:加强营养并服用A药且B药。
每组随机收集了25名患者进行治疗
评价药物疗效的指标为IgA(mg/dl 血清)并用y表示定义协变量
a=1表示服用A药,a=0表示未服用A药;
b=1表示服用A药,b=0表示未服用B药;
y
a
b
44.53015
0
0
51.8354
0
0
50.72699
0
0
51.32889
0
0
52.39704
0
0
43.83178
0
0
51.50717
0
0
42.27048
0
0
50.69454
0
0
55.66634
0
0
46.70815
0
0
41.49752
0
0
49.04363
0
0
56.36092
0
0
50.27493
0
0
55.00134
0
0
45.98535
0
0
50.81079
0
0
46.85695
0
0
58.11675
0
0
47.03985
0
0
44.07518
0
0
48.83615
0
0
52.94321
0
0
55.67211
0
0
59.51223
1
0
59.01192
1
0
66.2534
1
0
52.14392
1
0
62.282
1
0
62.84439
1
0
62.60862
1
0
56.34302
1
0
53.54026
1
0
61.20007
1
0
58.11905
1
0
64.33759
1
0
53.66106
1
0
60.97609
1
0
53.84545
1
0
69.76657
1
0
56.07521
1
0
56.79982
1
0
55.12985
1
0
63.54123
1
0
58.359
1
0
58.46656
1
0
69.2521
1
0
61.03927
1
0
64.12475
1
0
48.32073
0
1
59.51184
0
1
51.86812
0
1
54.40755
0
1
49.39411
0
1
51.23224
0
1
46.06244
0
1
50.26468
0
1
52.23868
0
1
56.63779
0
1
61.27808
0
1
54.81761
0
1
51.26158
0
1
62.67386
0
1
61.26489
0
1
60.40732
0
1
50.62864
0
1
56.61593
0
1
58.20361
0
1
55.52191
0
1
48.20736
0
1
53.52513
0
1
46.57814
0
1
59.37329
0
1
53.89015
0
1
70.06242
1
1
68.33412
1
1
67.24548
1
1
68.92453
1
1
65.732
1
1
79.91953
1
1
65.73748
1
1
67.13339
1
1
66.22453
1
1
71.42136
1
1
62.8155
1
1
70.7141
1
1
72.84426
1
1
66.69666
1
1
66.02016
1
1
69.71373
1
1
71.57328
1
1
65.56564
1
1
75.72329
1
1
72.74133
1
1
68.24663
1
1
68.3869
1
1
67.07391
1
1
74.80067
1
1
79.48926
1
1
对照组
(a=b=0)
服A药组
(a=1,b=0)
服B药组
(a=0,b=1)
服A药且B药组(a=b=1)
49.76(4.568
59.97(4.770
54.17(4.868
69.72(4.309
gen ab=a*b 产生交互作用变量
,regress y a b ab
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 3,96) = 86.66
Model | 5582.20784 3 1860.73595 Prob > F = 0.0000
Residual | 2061.17815 96 21.4706057 R-squared = 0.7303
-------------+------------------------------ Adj R-squared = 0.7219
Total | 7643.38599 99 77.2059191 Root MSE = 4.6336
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
a | 10.20887 1.310591 7.79 0.000 7.607371 12.81038
b | 4.406964 1.310591 3.36 0.001 1.805461 7.008466
ab | 5.349306 1.853455 2.89 0.005 1.670226 9.028386
_cons | 49.76046,9267277 53.69 0.000 47.92092 51.6
------------------------------------------------------------------------------
三组均数的比较,资料正态分布且方差齐性(reg3.dta)
分组变量g1和g2定义方差分析中的分组变量表示
回归模型中的分组变量表示
对应总体均数
A组group=0
g1=0
g2=0
μA
B组group=1
g1=1
g2=0
μB
C组group=2
g1=0
g2=1
μC
数据结构
观察数据变量
回归分析的分组变量
方差分析的分组变量
y
g1
g2
group
A组观察数据
38
0
0
0
g1=0,g2=0
(或group=0)
表示A组
67
0
0
0
46
0
0
0
B组观察数据
87
1
0
1
g1=1,g2=0
(或group=1)
表示B组
73
1
0
1
115
1
0
1
C组观察数据
124
0
1
2
g1=0,g2=1
(或group=2)
表示C组
155
0
1
2
132
0
1
2
回归模型: 且独立。
即:总体均数
A组:g1=0,g2=0,对应的总体均数
B组:g1=1,g2=0,对应的总体均数
C组:g1=0,g2=1,对应的总体均数
因此,所以检验的问题就是检验的问题。
因此,所以检验的问题就是检验的问题。
因为,
所以检验就是检验
数据格式
y
g1
g2
38.1206
0
0
67.34162
0
0
62.90796
0
0
65.31556
0
0
69.58817
0
0
35.32714
0
0
66.02868
0
0
29.0819
0
0
62.77817
0
0
82.66535
0
0
46.83258
0
0
25.99007
0
0
56.17453
0
0
85.44369
0
0
61.0997
0
0
80.00535
0
0
43.9414
0
0
63.24315
0
0
47.42779
0
0
92.46699
0
0
48.15941
0
0
36.30072
0
0
55.34461
0
0
71.77283
0
0
82.68842
0
0
58.0489
0
0
56.04767
0
0
85.01362
0
0
28.57566
0
0
69.128
0
0
71.37756
0
0
70.43449
0
0
45.37209
0
0
34.16106
0
0
64.80029
0
0
52.47618
0
0
77.35036
0
0
34.64425
0
0
63.90434
0
0
35.38181
0
0
99.06628
0
0
44.30083
0
0
47.19928
0
0
40.51939
0
0
74.16494
0
0
53.43601
0
0
53.86626
0
0
97.00839
0
0
64.15707
0
0
76.49899
0
0
84.5477
1
0
91.23988
1
0
104.8202
1
0
74.45151
1
0
108.0161
1
0
56.5021
1
0
93.86721
1
0
74.38637
1
0
62.59698
1
0
119.0835
1
0
72.28974
1
0
127.2765
1
0
103.4422
1
0
81.04057
1
0
81.69185
1
0
119.4486
1
0
75.34035
1
0
86.02144
1
0
113.6014
1
0
113.0365
1
0
113.1696
1
0
97.55296
1
0
79.58298
1
0
67.82103
1
0
114.8356
1
0
102.2754
1
0
97.39229
1
0
87.3518
1
0
115.5197
1
0
63.32135
1
0
79.149
1
0
61.65344
1
0
84.6485
1
0
110.9125
1
0
112.1211
1
0
103.7256
1
0
126.054
1
0
83.21771
1
0
90.76663
1
0
124.1369
1
0
120.5148
1
0
94.88055
1
0
125.5382
1
0
96.21667
1
0
94.16242
1
0
126.0081
1
0
115.0638
1
0
114.6435
1
0
102.1354
1
0
122.7107
1
0
131.1421
0
1
113.887
0
1
132.688
0
1
156.6752
0
1
118.1638
0
1
124.4931
0
1
94.90628
0
1
126.1432
0
1
135.7218
0
1
130.0799
0
1
128.5986
0
1
148.2903
0
1
103.9155
0
1
165.8997
0
1
153.2499
0
1
161.03
0
1
125.686
0
1
111.0262
0
1
143.2489
0
1
129.2844
0
1
148.2694
0
1
148.5397
0
1
139.504
0
1
146.5549
0
1
117.8908
0
1
107.7085
0
1
147.92
0
1
122.929
0
1
125.9652
0
1
111.2631
0
1
136.6548
0
1
144.5779
0
1
148.6958
0
1
142.7774
0
1
154.355
0
1
104.3635
0
1
154.4462
0
1
134.9218
0
1
143.6892
0
1
93.53427
0
1
158.2044
0
1
103.7953
0
1
120.9746
0
1
125.5946
0
1
134.1759
0
1
120.3256
0
1
134.8724
0
1
103.4812
0
1
151.5524
0
1
121.8205
0
1
组别
均数
标准差
A组
= 59.46
18.49
B组
= 97.40
19.83
C组
=131.67
18.18
regress y g1 g2
Source | SS df MS Number of obs = 150
-------------+------------------------------ F( 2,147) = 183.67
Model | 130469.346 2 65234.673 Prob > F = 0.0000
Residual | 52211.739 147 355.181898 R-squared = 0.7142
-------------+------------------------------ Adj R-squared = 0.7103
Total | 182681.085 149 1226.04755 Root MSE = 18.846
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
g1 | 37.93605 3.769254 10.06 0.000 30.48713 45.38498
g2 | 72.21014 3.769254 19.16 0.000 64.76121 79.65906
_cons | 59.4596 2.665265 22.31 0.000 54.19242 64.72679
------------------------------------------------------------------------------
得到回归方程
A组:g1=g2=0,
正好等于
B组:g1=1,g2=0,
正好等于
C组:g1=0,g2=1,
正好等于
g1的总体回归系数β1=μB-μA,对应样本估计值
g2的总体回归系数β2=μC-μA,对应样本估计值
H0:μA=μB对应H0:β1=0,相应的检验值t=10.06,P<0.001
可以认为μA(μB,μB-μA=β1的95%CI为[30.48713,45.38498]
因此至少有95%可能性可以肯定μB-μA>0,即:μB>μA。
H0:μA=μC对应H0:β2=0,相应的检验值t=19.16,P<0.001
可以认为μA(μC,μC-μA=β2的95%CI为[64.76121,79.65906]
因此至少有95%可能性可以肯定μC-μA>0,即:μC>μA。
为了检验H0:μB=μC vs μB(μC,
对应检验H0:β1=β2 vs H1,β1(β2,
因此在STATA软件中输入命令:
test g1=g2
( 1) g1 - g2 = 0.0
F( 1,147) = 82.68
Prob > F = 0.0000
P<0.001,因此可以认为μB(μC。可以证明相应的μB-μC的95%CI不包含0,若,则相应的95%CI的下限大于0;若,则相应的95%CI的上限小于0。
为了考察某指标y对冠心病患病是否有关。通过病例对照研究,比较病例组(用group=1表示)和对照组(用group=0表示)的总体均数比较,并考虑该因素y可能受年龄age的影响:
数据结构
g
age
y
0
41
24.94407
0
45
24.64047
0
33
19.20827
0
44
25.05363
0
41
25.0708
0
44
24.10382
0
31
21.59892
0
39
23.85115
0
34
22.46088
0
32
21.87037
0
38
22.64923
0
38
22.49829
0
44
26.38823
0
37
21.68497
0
45
26.31705
0
32
19.92455
0
36
21.61224
0
39
23.03382
0
34
23.43288
0
34
21.25991
0
46
27.31522
0
31
20.43799
0
45
25.13584
0
31
20.65471
0
40
26.05978
0
38
22.14487
0
41
25.42599
0
46
26.50913
0
43
24.05161
0
42
23.46782
0
40
24.19807
0
32
20.45943
0
40
23.48565
0
41
23.58829
0
39
22.34054
0
39
23.75778
0
43
27.43651
0
43
25.7033
0
33
20.08526
0
41
23.03668
0
34
22.47298
0
37
22.12897
0
44
25.20341
0
39
23.87881
0
32
19.23366
0
45
26.12749
0
43
23.29624
0
33
22.08334
0
35
21.89737
0
38
23.51324
1
53
23.39897
1
54
24.3774
1
54
23.86706
1
47
21.93024
1
48
23.37609
1
46
21.09182
1
54
24.69827
1
52
23.92228
1
51
21.95323
1
52
24.34829
1
47
21.82058
1
53
24.62826
1
46
21.65068
1
49
22.34383
1
55
23.69631
1
49
24.66773
1
45
20.8268
1
46
22.34239
1
51
23.00325
1
56
24.22594
1
56
26.01834
1
47
20.25248
1
55
23.31365
1
45
19.4241
1
47
20.5601
1
52
22.79094
1
54
22.94952
1
51
22.56448
1
50
23.38203
1
58
26.48532
1
44
20.19375
1
51
23.59503
1
56
25.71875
1
51
23.40669
1
58
26.60265
1
58
23.97177
1
58
24.52535
1
53
23.83046
1
49
21.10761
1
47
21.71655
1
56
25.57454
1
45
22.27683
1
53
25.53465
1
54
26.51828
1
47
22.40336
1
49
22.44885
1
50
22.85915
1
51
25.34406
1
44
21.09632
1
50
23.95883
先进行两组均数的比较
,sktest y if g==0
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
y | 0.973 0.306 1.09 0.5785
,sktest y if g==1
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
y | 0.973 0.457 0.57 0.7520
(=0.1,可以认为资料近似服从正态分布。
sdtest y,by(g)
Variance ratio test
------------------------------------------------------------------------------
Group | Obs Mean Std,Err,Std,Dev,[95% Conf,Interval]
---------+--------------------------------------------------------------------
0 | 50 23.33467,2936639 2.076517 22.74453 23.92481
1 | 50 23.25188,2475036 1.750115 22.7545 23.74925
---------+--------------------------------------------------------------------
combined | 100 23.29327,1910994 1.910994 22.91409 23.67246
------------------------------------------------------------------------------
Ho,sd(0) = sd(1)
F(49,49) observed = F_obs = 1.408
F(49,49) lower tail = F_L = 1/F_obs = 0.710
F(49,49) upper tail = F_U = F_obs = 1.408
Ha,sd(0) < sd(1) Ha,sd(0) ~= sd(1) Ha,sd(0) > sd(1)
P < F_obs = 0.8826 P < F_L + P > F_U = 0.2348 P > F_obs = 0.1174
(=0.1,可以认为两组方差齐性
,ttest y,by(g)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std,Err,Std,Dev,[95% Conf,Interval]
---------+--------------------------------------------------------------------
0 | 50 23.33467,2936639 2.076517 22.74453 23.92481
1 | 50 23.25188,2475036 1.750115 22.7545 23.74925
---------+--------------------------------------------------------------------
combined | 100 23.29327,1910994 1.910994 22.91409 23.67246
---------+--------------------------------------------------------------------
diff |,0827939,3840527 -.6793463,844934
------------------------------------------------------------------------------
Degrees of freedom,98
Ho,mean(0) - mean(1) = diff = 0
Ha,diff < 0 Ha,diff ~= 0 Ha,diff > 0
t = 0.2156 t = 0.2156 t = 0.2156
P < t = 0.5851 P > |t| = 0.8298 P > t = 0.4149
(=0.05,两组均数的差异无统计学意义。
考虑下列线性回归模型
因此病例组group=1的总体均数为
对照组group=0的总体均数为
因此对于相同的年龄,两组总体均数的差值为
用上述模型进行回归分析,结果如下:
reg y g age
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 2,97) = 127.99
Model | 262.185738 2 131.092869 Prob > F = 0.0000
Residual | 99.3520757 97 1.0242482 R-squared = 0.7252
-------------+------------------------------ Adj R-squared = 0.7195
Total | 361.537813 99 3.65189711 Root MSE = 1.0121
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
g | -4.672662,351174 -13.31 0.000 -5.369646 -3.975679
age |,3749893,0234455 15.99 0.000,3284565,421522
_cons | 8.822586,9185587 9.60 0.000 6.999501 10.64567
------------------------------------------------------------------------------
得到回归方程
病例组group=1代入上述回归方程,得到病例组的回归方程
对照组group=0代入上述回归方程,得到对照组的回归方程
两组方程的斜率相同,两组的截距差为group的回归系数(1,对应检验表明差别有统计意义,由于(1为在相同的年龄下,两组均数的差值,因此可以认为病例组患者的y指标比对照组平均低((1背景意义)4.673个单位。
考虑另一种典型情况:
研究背景同上例类似,考查另一指标y在病例对照研究中两组均数的比较。
数据结构与上例相同
g
age
y
0
41
24.21337
0
45
24.88294
0
33
19.36679
0
44
23.46762
0
41
25.73558
0
44
25.24361
0
31
21.39481
0
39
23.18912
0
34
21.20419
0
32
21.43232
0
38
24.23981
0
38
22.31686
0
44
26.31606
0
37
23.28342
0
45
23.94337
0
32
19.86609
0
36
21.70771
0
39
22.38951
0
34
21.42768
0
34
21.90865
0
46
26.45627
0
31
18.58
0
45
25.14674
0
31
20.6971
0
40
22.5633
0
38
23.29622
0
41
24.06831
0
46
27.79794
0
43
26.54116
0
42
24.79964
0
40
23.60192
0
32
20.14838
0
40
24.29846
0
41
24.29752
0
39
22.99795
0
39
23.86215
0
43
25.92762
0
43
25.79781
0
33
19.637
0
41
23.96939
0
34
21.07463
0
37
21.078
0
44
25.23777
0
39
24.21729
0
32
20.80099
0
45
28.13935
0
43
26.77838
0
33
21.47319
0
35
22.42599
0
38
23.5753
1
53
26.88459
1
54
28.96615
1
54
29.52883
1
47
27.55424
1
48
28.05626
1
46
27.32139
1
54
29.30366
1
52
28.50096
1
51
27.76499
1
52
30.01915
1
47
26.69682
1
53
28.35326
1
46
26.21111
1
49
27.08439
1
55
30.15783
1
49
28.82116
1
45
26.10023
1
46
25.67737
1
51
28.71856
1
56
30.24984
1
56
30.39481
1
47
27.03056
1
55
29.88958
1
45
26.30326
1
47
26.63717
1
52
29.92446
1
54
30.39066
1
51
28.91824
1
50
27.90691
1
58
31.36464
1
44
25.13896
1
51
28.07631
1
56
32.56833
1
51
26.32878
1
58
30.60498
1
58
30.66919
1
58
33.20078
1
53
27.77008
1
49
27.20773
1
47
28.76362
1
56
32.02333
1
45
26.45706
1
53
30.24512
1
54
28.15062
1
47
28.44679
1
49
29.32327
1
50
26.84916
1
51
26.76248
1
44
25.16171
1
50
28.9908
同样先用t检验比较两组均数,再用上述模型进行回归分析并考虑年龄对这两组均数的影响:
,sktest y if g==0
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
y | 0.966 0.364 0.86 0.6513
,sktest y if g==1
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
y | 0.232 0.807 1.56 0.4589
,sdtest y,by(g)
Variance ratio test
------------------------------------------------------------------------------
Group | Obs Mean Std,Err,Std,Dev,[95% Conf,Interval]
---------+--------------------------------------------------------------------
0 | 50 23.33631,3183926 2.251376 22.69647 23.97614
1 | 50 28.4694,2666049 1.885181 27.93364 29.00517
---------+--------------------------------------------------------------------
combined | 100 25.90285,3304763 3.304763 25.24712 26.55859
------------------------------------------------------------------------------
Ho,sd(0) = sd(1)
F(49,49) observed = F_obs = 1.426
F(49,49) lower tail = F_L = 1/F_obs = 0.701
F(49,49) upper tail = F_U = F_obs = 1.426
Ha,sd(0) < sd(1) Ha,sd(0) ~= sd(1) Ha,sd(0) > sd(1)
P < F_obs = 0.8912 P < F_L + P > F_U = 0.2175 P > F_obs = 0.1088
(=0.1,可以认为资料近似服从正态分布,方差齐性。
,ttest y,by(g)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std,Err,Std,Dev,[95% Conf,Interval]
---------+--------------------------------------------------------------------
0 | 50 23.33631,3183926 2.251376 22.69647 23.97614
1 | 50 28.4694,2666049 1.885181 27.93364 29.00517
---------+--------------------------------------------------------------------
combined | 100 25.90285,3304763 3.304763 25.24712 26.55859
---------+--------------------------------------------------------------------
diff | -5.133097,4152734 -5.957194 -4.309001
------------------------------------------------------------------------------
Degrees of freedom,98
Ho,mean(0) - mean(1) = diff = 0
Ha,diff < 0 Ha,diff ~= 0 Ha,diff > 0
t = -12.3608 t = -12.3608 t = -12.3608
P < t = 0.0000 P > |t| = 0.0000 P > t = 1.0000
(=0.05,t检验结果为两组差别有统计学意义。
,reg y g age
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 2,97) = 481.25
Model | 982.235203 2 491.117601 Prob > F = 0.0000
Residual | 98.989421 97 1.0205095 R-squared = 0.9084
-------------+------------------------------ Adj R-squared = 0.9066
Total | 1081.22462 99 10.9214608 Root MSE = 1.0102
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
g |,0329006,3505324 0.09 0.925 -.6628092,7286105
age |,4166827,0234026 17.80 0.000,370235,4631305
_cons | 7.210684,9168807 7.86 0.000 5.390929 9.030438
------------------------------------------------------------------------------
得到回归方程
对照组group=0代入上式:得到对照组的回归方程
病例组group=1代入上式:得到病例组的回归方程
两组方程的斜率相同,两组的截距差为group的回归系数(1,对应检验差别无统计意义,所以对于相同的年龄,两组y的平均数无统计意义。说明作t检验得到差别有统计意义的结果受到年龄的混杂作用。
析因分析举例(析因分析.dta)
例 为了研究A药和B药治疗患免疫球蛋白偏低的儿童的疗效,采用随机对照试验(RCT)和析因分析的研究设计方案:
第一组:仅是加强营养(作为对照组);
第二组:加强营养并服用A药;
第三组:加强营养并服用B药;
第四组:加强营养并服用A药且B药。
每组随机收集了25名患者进行治疗
评价药物疗效的指标为IgA(mg/dl 血清)并用y表示定义协变量
a=1表示服用A药,a=0表示未服用A药;
b=1表示服用A药,b=0表示未服用B药;
gen ab=a*b 产生交互作用变量用回归模型,
其中
数据结构
y
a
b
40
0
0
41
0
0
42
0
0
44
0
0
45
0
0
46
0
0
47
0
0
47
0
0
48
0
0
49
0
0
50
0
0
50
0
0
51
0
0
51
0
0
51
0
0
51
0
0
51
0
0
52
0
0
53
0
0
53
0
0
53
0
0
54
0
0
55
0
0
57
0
0
59
0
0
47
1
0
50
1
0
50
1
0
53
1
0
57
1
0
57
1
0
58
1
0
58
1
0
59
1
0
59
1
0
59
1
0
59
1
0
61
1
0
61
1
0
61
1
0
61
1
0
61
1
0
61
1
0
62
1
0
62
1
0
62
1
0
64
1
0
64
1
0
65
1
0
70
1
0
42
0
1
46
0
1
47
0
1
48
0
1
50
0
1
51
0
1
51
0
1
52
0
1
55
0
1
55
0
1
55
0
1
55
0
1
56
0
1
56
0
1
57
0
1
58
0
1
58
0
1
58
0
1
59
0
1
59
0
1
59
0
1
60
0
1
60
0
1
61
0
1
63
0
1
56
1
1
57
1
1
60
1
1
64
1
1
65
1
1
65
1
1
66
1
1
66
1
1
66
1
1
68
1
1
68
1
1
68
1
1
68
1
1
70
1
1
70
1
1
71
1
1
71
1
1
71
1
1
72
1
1
73
1
1
73
1
1
74
1
1
77
1
1
78
1
1
81
1
1
对照组
(a=b=0)
服A药组
(a=1,b=0)
服B药组
(a=0,b=1)
服A药且B药组(a=b=1)
49.6(4.77842
59.24(5.03554
54.84(5.24150
68.72(5.94783
(=(0
(=(0+(1
(=(0+(2
(=(0+(1+(2+(3
,regress y a b ab
Source
SS
df
MS
Number of obs = 100
F( 3,96) = 59.13
Model
4924.04
3
1641.34667
Prob > F = 0.0000
Residual
2664.96
96
27.76
R-squared = 0.6488
Adj R-squared = 0.6379
Total
7589.00
99
76.6565657
Root MSE = 5.2688
y
Coef.
Std.Err.
t
P>|t|
[95%Conf,Interval]
a
9.64
1.490235
6.469
0.000
6.681907
12.59809
b
5.24
1.490235
3.516
0.001
2.281907
8.198093
ab
4.24
2.10751
2.012
0.047
.0566251
8.423375
_cons
49.6
1.053755
47.070
0.000
47.50831
51.69169
得到回归方程:
对照组a=b=0,
A药组:a=1,b=0,
B药组:a=0,b=1,
A药+B药组,a=b=1,
研究问题1:单独用A药,效应如何?
单独用B药,效应如何?
同时用A同时用B药的效应是否大于或小于单独用A药的效应+单独用B药效应?
A药的样本效应值为9.64
B药的样本效应值为5.24
A药+B药的样本效应值为9.64+5.24+4.24=19.12>A药和B药单独使用的效应值的和9.64+5.24=14.88,两者相差,且有统计意义。即有协同作用。
研究问题2:单独用A药和单独用B药,哪个药效果好?
H0:(1=(2 vs Ha:(1((2
STATA命令:test a=b
test a=b
( 1) a - b = 0.0
F( 1,96) = 8.72
Prob > F = 0.0040,说明差别有统计意义且A药优于B要。
多个回归系数检验问题例3-2 健康女性身体各部位脂肪分布情况用x1表示三头肌皮褶厚度,x2表示大腿围,x3表示中臂围,用y表示身体脂肪。试用线性回归分析的方法分析身体脂肪与三头肌皮褶厚度,大腿围和中臂围之间的关系。
no
x1
x2
x3
y
no
x1
x2
x3
y
1
19.5
43.1
29.1
11.9
11
31.1
56.6
30
25.4
2
24.7
49.8
28.2
22.8
12
30.4
56.7
28.3
27.2
3
30.7
51.9
37
18.7
13
18.7
46.5
23
11.7
4
29.8
54.3
31.1
20.1
14
19.7
44.2
28.6
17.8
5
19.1
42.2
30.9
12.9
15
14.6
42.7
21.3
12.8
6
25.6
53.9
23.7
21.7
16
29.5
54.4
30.1
23.9
7
31.4
58.5
27.6
27.1
17
27.7
55.3
25.7
22.6
8
27.9
52.1
30.6
25.4
18
30.2
56.6
24.6
25.4
9
22.1
49.9
23.2
21.3
19
22.7
48.2
27.1
14.8
10
25.5
53.5
24.8
19.3
20
25.2
51
27.5
21.1
STATA命令
regress y x1 x2 x3
Source
SS
df
MS
Number of obs=20
F(3,16)=19.63
Model
389.544775
3
129.848258
Prob>F=0.0000
Residual
105.844739
16
6.61529616
R-squared=0.7863
AdjR-squared=0.7463
Total
495.389513
19
26.0731323
Root MSE=2.572
H0:(1=(2=(3=0 vs H1:(1,(2,(3不全为0
P<0.0001,因此拒绝H0,并认为至少有一个回归系数不为0。
y
Coef.
Std.Err.
t
P>|t|
[95%Conf.
Interval]
x1
1.157647
1.357375
0.853
0.406
-1.719859
4.035153
x2
-.1388739
1.194493
-0.116
0.909
-2.671085
2.393337
x3
-.5102747
.7020557
-0.727
0.478
-1.998566
.978017
_cons
12.08683
45.77971
0.264
0.795
-84.96181
109.1355
虽然所有单个回归系数的检验P>0.05,但是单个回归系数的检验是指其它回归系数均在模型中的条件下,而该因素的回归系数(=0的检验。事实上,出现这种情况,很可能是自变量之间高度相关且某一个自变量可以被其它自变量线性表示。称为多重共线问题。
多重共线对分析的影响VIFs (variance inflation factors)
对于自变量p个自变量x1,x2,…,xp中,以其中一个xi作为因变量作回归以及其它p-1个变量为自变量,得到相应的决定系数Ri。定义xi的膨胀因子
VIFi=1对应说明xi与其它p-1个自变量无共线。
当对应VIFi>1
当,说明xi与其它p-1个自变量完全共线,对应VIFi成为无穷大。
通常认为在p个自变量x1,x2,…,xp中,最大的VIF>10,则认为严重共线,最小二乘估计受到较严重的影响。
平均VIF=>>1,则认为多重共线。
在本例中,自变量x1,x2,x3可能多重共线。因此在运行regress命令后,再输入计算膨胀因子的计算vif
Variable | VIF 1/VIF
x1 | 133.53 0.007489
x2 | 106.70 0.009372
x3 | 18.83 0.053106
Mean VIF | 86.35
因此可以认为严重的多重共线。
,sw regress y x1 x2 x3,pe(0.05) pr(0.051)
begin with full model
p = 0.9089 >= 0.0510 removing x2
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 2,17) = 31.25
Model | 389.455357 2 194.727678 Prob > F = 0.0000
Residual | 105.934156 17 6.23142096 R-squared = 0.7862
-------------+------------------------------ Adj R-squared = 0.7610
Total | 495.389513 19 26.0731323 Root MSE = 2.4963
------------------------------------------------------------------------------
y | Coef,Std,Err,t P>|t| [95% Conf,Interval]
-------------+----------------------------------------------------------------
x1 | 1.000585,1282321 7.80 0.000,7300389 1.271131
x3 | -.431442,1766156 -2.44 0.026 -.8040683 -.0588157
_cons | 6.791625 4.488287 1.51 0.149 -2.677833 16.26108
------------------------------------------------------------------------------
当x2剔除模型后,x1和x3的回归系数均有统计意义。
所以模型中,出现多个回归系数的P值>0.05,不能立刻断定这些P值大于0.05的回归系数所对应的变量均无统计意义而剔除模型。
逐步回归也分为二种方式:前进法和后推法筛选变量。
以例3-3(pp46)为例分别说明逐步回归的前进法和逐步回归的后退法过程。
为了使资料较好地正态分布,对y取对数
gen yy=ln(y)/ln(10)
第一步:
寻找最佳的单变量线性回归模型模型1 得到相应的F1=7.09 P值=0.01
模型2 得到相应的F2=28.19 P值<0.001
模型3 得到相应的F3=41.25 P值<0.001
模型4 得到相应的F4=50.05 P值<0.001
因此就单变量的线性回归模型而言,模型4是相对最好的。
第二步
考虑回归模型中引进第2个变量:
模型 5 得到相应的F1=0.003 P值>0.05
模型 6 得到相应的F2=19.46 P值<0.001
模型 7 得到相应的F3=26.93 P值<0.001
因此选用模型7(既引进变量x3)
第三步考虑回归模型中引进第3个变量:
模型 8
得到相应的F1=6.891 P值<0.02
模型 9
得到相应的F2=88.83 P值<0.001
因此选用模型9(既引进变量x2)
考虑回归模型中引进第4个变量:
模型 10
得到相应的F1=163.84 P值<0.001,但是x4的P值=0.805,相应F4=0.0615,因此x4应从模型10中剔除。因此得到模型11
模型 11
最后得到模型为的变量已经不能在引进模型并且模型中的变量也不能被剔除出模型。该模型具体结果为
Source
SS
df
MS
Number of obs=54
F(3,50)=585.89
Model
3.86284309
3
1.28761436
Prob>F=0.0000
Residual
.109885494
50
.00219771
R-squared=0.9723
Adj R-squared=0.9707
Total
3.97272859
53
.074957143
RootMSE=.04688
yy
Coef.
Std.Err.
t
P>|t|
[95%Conf.
Interval]
x1
.0692287
.0040784
16.974
0.000
.0610369
.0774205
x2
.0092946
.0003826
24.296
0.000
.0085262
.010063
x3
.0095233
.0003064
31.077
0.000
.0089078
.0101388
_cons
.4836226
.0426339
11.344
0.000
.3979898
.5692553
应用回归结果前,应检查残差是否近似正态分布(要求基本对称就可以了,大样本时要求可以更低一些)。
残差的离散程度是否各个自变量变化无关?若残差的离散程度与某个自变量的变化有关,则应采用某种变换或用关于方差稳健的回归分析(robust regression):在STATA软件中:如本例
regress yy x1 x2 x3,robust
若满足上述二条,回归系数的检验结果是可靠的。
若要应用回归模型进行预测,则还应满足各个自变量与残差无任何明显趋势变化。
在引入模型的自变量中,若有亚元变量,则亚元变量是一组变量(认为向量变量),所以对于某一组的亚元变量,则要么该组亚元变量全引进模型,要么该组亚元变量全剔除出模型。不能亚元变量的某几个成分的变量进入模型,另外几个成分的亚元变量未进入模型。