§7—4 病人对医院的评价如何(建模、求解)
前面§7—4包含了“问题分析”。
1.模型假设
(1)病人的三项指标年龄、病情严重程度、忧虑程度作为回归模型的自变量;
(2)病人对医院服务工作的满意程度作为回归模型的因变量;
(3)自变量与因变量Y之间具有显著的线性关系;
(4)实际观测值与估计值之间的偏差之均值为0、方差为,实际观测值的统计规律为正态分布。
2.模型建立
根据假设,可直接给出线性回归模型:
3.模型求解
用Matlab软件计算,程序(syp96.m)内容如下:
clear
x0=[50,36,40,41,28,49,42,45,52,29,29,43,38,34,53,36,33,29,33,55,29,44,43
51,46,48,44,43,54,50,48,62,50,48,53,55,51,54,49,56,46,49,51,52,58,50
2.3,2.3,2.2,1.8,1.8,2.9,2.2,2.4,2.9,2.1,2.4,2.4,2.2,2.3,2.2,2.0,2.5,1.9,2.1,2.4,2.3,2.9,2.3];
y0=[48,57,66,70,89,36,46,54,26,77,89,67,47,51,57,66,79,88,60,49,77,52,60];
x=[ones(23,1),x0'];y=y0';alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha)
说明:x0是自变量数据,y0是因变量数据;
x是矩阵,列数是自变量个数m再加1,行数是采集数据的样本个数n,第一列都是1;y必须是列向量;
alpha就是,是人为给定的一个数据,通常介于1%至10%,简称为置信度;
用Matlab做线性回归计算的命令格式是
[b,bint,r,rint,stats]=regress(列向量,矩阵,置信度)
执行结果如下:
b =
162.8759
-1.2103
-0.6659
-8.6130
bint =
108.9268 216.8250
-1.8413 -0.5794
-2.3843 1.0525
-34.2343 17.0082
r =
-0.5888
-11.8628
2.4490
1.5504
4.1504
-6.6336
-13.7986
-1.7768
-7.6754
0.6060
13.8581
12.1321
-14.3103
-16.9539
13.1785
-3.4490
14.8879
7.2197
-12.2187
7.3241
3.6604
5.9784
2.2730
rint =
-21.1751 19.9974
-30.8642 7.1386
-18.8532 23.7511
-17.7839 20.8848
-15.4866 23.7874
-24.5995 11.3323
-34.1448 6.5476
-21.8701 18.3165
-25.2656 9.9147
-19.9419 21.1538
-4.1139 31.8301
-8.5005 32.7646
-32.4001 3.7794
-36.5611 2.6532
-3.9704 30.3274
-24.3283 17.4303
-3.3681 33.1439
-12.9548 27.3943
-32.5903 8.1530
-11.7424 26.3905
-16.5656 23.8864
-13.1113 25.0681
-19.1591 23.7052
stats =
0.6727 13.0145 0.0001
说明:b是参数估计值;
r可用来估计方差:
stats的三个数分别是:
相关系数的平方,方差,值。
4.结果分析
(1)参数,以及方差的估计值
分别是:
162.8759,-1.2103,-0.6659,-8.6130
在程序最后加一句:fc=r'*r/(23-3-1) 可得方差的估计值为 fc =105.8729
(2)模型检验
(a)F检验法:=13.0145
另外,查“F---分布”表:
因为13.0145明显大于3.13,所以认为Y与之间存在显著的线性回归关系。
(b)相关系数的评价
通常,当相关系数大于0.8时,就认为Y与有较强的线性关系。
(c)值检验
p=0.0001,远远小于置信数的取值0.05,这也表明Y与线性关系显著。
以上三种检验法,都得到Y与线性关系显著,说明本模型基本反映了病人对医院评价的真实关系。
(3)残差分析
得到回归模型之后,需进一步考察模型对所给数据的适用性。
对于第个样本,残差为
(a)残差向量的正态性图形检验
前面Matlab计算输出结果中的r、rint分别代表残差向量、残差向量的区间估计,继续下命令
normplot(r)
可得如下“残差向量的正态性图形检验”:
理论上已经有结论:若图中的“+”分布在一条直线上,则残差就服从正态分布。
(b)残差图分析以残差为纵坐标,以“与残差有关的任意一个量”为横坐标,得到的散点图,称为残差图。通常,横坐标可选择为:(1)样本点的序号;(2)根据模型算出的近似值;(3)某个自变量的值。
利用残差图,可以对奇异点进行分析,可以直观检验误差的等方差性、是否应该增加或减少模型中的自变量、等项目。
例如1:时序残差图,命令为:rcoplot(r,rint)
好的模型的“时序残差图”应该是以横轴y=0为中心的带状区域。若有个别偏离很远,则该样本点是奇异点,剔除它。此图无奇异点。
例如2:其它类型的残差图读书 P99倒5行------P1015行。
画P100页图7.4(a):以根据模型算出的近似值为横坐标。注意到 近似值等于自变量乘参数向量,所以Matlab命令为
plot((x*b)',r,'*')
画P100页图7.4(b):以第一个自变量为横坐标。Matlab命令为 plot(x0(1,:),r,'+')
画P100页图7.4(c)、(d)的Matlab命令为是什么?
若散点图呈现“带状区域”,就表明模型对所给数据是适用的。若有极个别点例外,则可以认为该点是奇异点,剔除它。
本题中:全部23个散点基本集中在一个方形区域内,故模型对所给数据适用,无奇异点。
(4)最优回归方程的选取
stepwise(x,y,[2,3,4],0.1)
(5)回归模型的应用
前面§7—4包含了“问题分析”。
1.模型假设
(1)病人的三项指标年龄、病情严重程度、忧虑程度作为回归模型的自变量;
(2)病人对医院服务工作的满意程度作为回归模型的因变量;
(3)自变量与因变量Y之间具有显著的线性关系;
(4)实际观测值与估计值之间的偏差之均值为0、方差为,实际观测值的统计规律为正态分布。
2.模型建立
根据假设,可直接给出线性回归模型:
3.模型求解
用Matlab软件计算,程序(syp96.m)内容如下:
clear
x0=[50,36,40,41,28,49,42,45,52,29,29,43,38,34,53,36,33,29,33,55,29,44,43
51,46,48,44,43,54,50,48,62,50,48,53,55,51,54,49,56,46,49,51,52,58,50
2.3,2.3,2.2,1.8,1.8,2.9,2.2,2.4,2.9,2.1,2.4,2.4,2.2,2.3,2.2,2.0,2.5,1.9,2.1,2.4,2.3,2.9,2.3];
y0=[48,57,66,70,89,36,46,54,26,77,89,67,47,51,57,66,79,88,60,49,77,52,60];
x=[ones(23,1),x0'];y=y0';alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha)
说明:x0是自变量数据,y0是因变量数据;
x是矩阵,列数是自变量个数m再加1,行数是采集数据的样本个数n,第一列都是1;y必须是列向量;
alpha就是,是人为给定的一个数据,通常介于1%至10%,简称为置信度;
用Matlab做线性回归计算的命令格式是
[b,bint,r,rint,stats]=regress(列向量,矩阵,置信度)
执行结果如下:
b =
162.8759
-1.2103
-0.6659
-8.6130
bint =
108.9268 216.8250
-1.8413 -0.5794
-2.3843 1.0525
-34.2343 17.0082
r =
-0.5888
-11.8628
2.4490
1.5504
4.1504
-6.6336
-13.7986
-1.7768
-7.6754
0.6060
13.8581
12.1321
-14.3103
-16.9539
13.1785
-3.4490
14.8879
7.2197
-12.2187
7.3241
3.6604
5.9784
2.2730
rint =
-21.1751 19.9974
-30.8642 7.1386
-18.8532 23.7511
-17.7839 20.8848
-15.4866 23.7874
-24.5995 11.3323
-34.1448 6.5476
-21.8701 18.3165
-25.2656 9.9147
-19.9419 21.1538
-4.1139 31.8301
-8.5005 32.7646
-32.4001 3.7794
-36.5611 2.6532
-3.9704 30.3274
-24.3283 17.4303
-3.3681 33.1439
-12.9548 27.3943
-32.5903 8.1530
-11.7424 26.3905
-16.5656 23.8864
-13.1113 25.0681
-19.1591 23.7052
stats =
0.6727 13.0145 0.0001
说明:b是参数估计值;
r可用来估计方差:
stats的三个数分别是:
相关系数的平方,方差,值。
4.结果分析
(1)参数,以及方差的估计值
分别是:
162.8759,-1.2103,-0.6659,-8.6130
在程序最后加一句:fc=r'*r/(23-3-1) 可得方差的估计值为 fc =105.8729
(2)模型检验
(a)F检验法:=13.0145
另外,查“F---分布”表:
因为13.0145明显大于3.13,所以认为Y与之间存在显著的线性回归关系。
(b)相关系数的评价
通常,当相关系数大于0.8时,就认为Y与有较强的线性关系。
(c)值检验
p=0.0001,远远小于置信数的取值0.05,这也表明Y与线性关系显著。
以上三种检验法,都得到Y与线性关系显著,说明本模型基本反映了病人对医院评价的真实关系。
(3)残差分析
得到回归模型之后,需进一步考察模型对所给数据的适用性。
对于第个样本,残差为
(a)残差向量的正态性图形检验
前面Matlab计算输出结果中的r、rint分别代表残差向量、残差向量的区间估计,继续下命令
normplot(r)
可得如下“残差向量的正态性图形检验”:
理论上已经有结论:若图中的“+”分布在一条直线上,则残差就服从正态分布。
(b)残差图分析以残差为纵坐标,以“与残差有关的任意一个量”为横坐标,得到的散点图,称为残差图。通常,横坐标可选择为:(1)样本点的序号;(2)根据模型算出的近似值;(3)某个自变量的值。
利用残差图,可以对奇异点进行分析,可以直观检验误差的等方差性、是否应该增加或减少模型中的自变量、等项目。
例如1:时序残差图,命令为:rcoplot(r,rint)
好的模型的“时序残差图”应该是以横轴y=0为中心的带状区域。若有个别偏离很远,则该样本点是奇异点,剔除它。此图无奇异点。
例如2:其它类型的残差图读书 P99倒5行------P1015行。
画P100页图7.4(a):以根据模型算出的近似值为横坐标。注意到 近似值等于自变量乘参数向量,所以Matlab命令为
plot((x*b)',r,'*')
画P100页图7.4(b):以第一个自变量为横坐标。Matlab命令为 plot(x0(1,:),r,'+')
画P100页图7.4(c)、(d)的Matlab命令为是什么?
若散点图呈现“带状区域”,就表明模型对所给数据是适用的。若有极个别点例外,则可以认为该点是奇异点,剔除它。
本题中:全部23个散点基本集中在一个方形区域内,故模型对所给数据适用,无奇异点。
(4)最优回归方程的选取
stepwise(x,y,[2,3,4],0.1)
(5)回归模型的应用