第七章 怎样让医院的服务更好----回归分析在实际中,经常会遇到这样的问题:一个变量(或多个变量)是以怎样的规律影响另一个变量的?
回归分析就是用统计数据寻求变量间关系的近似表达式的一种方法,并利用所得表达式进行统计描述、分析和推断,解决预测、控制和优化问题。
§7—1 问题提出某医院的管理部门希望了解病人对医院服务工作的满意程度Y和病人的年龄X1、病情的严重程度X2、忧虑程度X3之间的关系。
现有如下23例统计数据,其中分别表示第个病人的年龄、病情的严重程度、忧虑程度、对医院服务的满意度。
---------------------------------------------------------------------
1 2 3 4 5 …… 21 22 23
50 36 40 41 28 …… 29 44 43
51 46 48 44 43 …… 52 58 50
2.3 2.3 2.2 1.8 1.8 …… 2.3 2.9 2.3
48 57 66 70 89 …… 77 52 60
---------------------------------------------------------------------
这些病人对医院服务的评价是否真实可信? 是否年龄偏大的、病情严重的病人对医院服务不满意?
§7—2 如何定量分析病人与医院之间关系关系分类:确定性关系;不确定性关系(相关关系)。
在不确定性关系中:处于主动地位的因素称为自变量(或称解释变量),如本题,通常用X表示解释变量;处于被动地位的因素(受X的取值影响)称为因变量,如本题,通常用Y表示因变量。
用分别表示病人的年龄、病情的严重程度、忧虑程度这三个解释变量,用Y表示满意度,回归分析的数学模型为
(7.1)式其中,称为理论回归函数,称为偏差。导致偏差存在的原因很多,如对Y的数据采集有误差,除了外还有别的影响因素没考虑到,等等。通常,偏差满足均值为0的正态分布。
回归分析处理不确定性关系的基本思想是:有了表达式,就可以从数量上掌握与Y之间复杂关系的大趋势,进而利用这种趋势来研究回归模型的预测问题和控制问题。
在模型(7.1)式中,若特别假设Y与是线性函数关系,则(7.1)式可写成
(7.2)式称为线性回归模型,其中为待定参数,需要用统计数据来确定。
回归分析的任务是:用统计数据来估计理论回归函数,并讨论与此有关的种种统计推断问题,需要解决的基本问题是:
(1)如何根据抽样信息确定回归函数类型及其参数的估计量;
(2)如何判断Y与间的关系是否密切;
(3)变量是否都对指标Y影响显著;
(4)如何应用回归分析进行预测或控制。
§7—3 回归分析
7.3.1 线性回归模型基本假设:(1)自变量与因变量Y构成线性关系;(2)偏差服从正态分布,期望0,
根据此假设,写出线性回归模型:
(7.3)式特别,若只有一个自变量,则称为一元线性回归模型:
或写成 (7.4)式
1.如何确定回归系数
根据统计数据,用最小二乘法确定回归系数,
将数据代入(7.3)式得
建立优化目标:
最优解记为,算法如下(推导过程略):
得到回归方程:
2.回归模型的检验
(1) F检验法
,,
查“F—分布”表中的数值,若F大于此数,则认为Y与之间存在显著的线性回归关系。(疑问:是什么? 猜:平均值,显著性指标)
(2)相关系数的评价
若接近1,则表明Y与之间的线性关系显著;若接近0,则表明Y与之间无线性关系,可能是非线性关系,也可能是随机因素起主要作用。
(3)值检验
若概率接近0,则认为Y与之间有线性关系。
3.回归系数的检验,最优回归方程的确定
共有m个自变量,还需逐个检验每个对Y的影响程度。
,是的主对角线若接近0,则表明对Y的影响程度很小,可以从回归模型中剔除
4.回归模型的应用
两个应用:(1)预测;(2)控制。
现在简介“预测的基本原理”:
再采集新数据,代入模型所得的最优回归方程算出,这就是关于因变量Y的估计值。
7.3.2 非线性回归模型
函数为非线性函数形式。此时,对模型进行统计分析较为困难。若已知函数形式(如:指数函数、分式函数等),则只需确定参数即可,可用Matlab做数据拟合。
回归分析就是用统计数据寻求变量间关系的近似表达式的一种方法,并利用所得表达式进行统计描述、分析和推断,解决预测、控制和优化问题。
§7—1 问题提出某医院的管理部门希望了解病人对医院服务工作的满意程度Y和病人的年龄X1、病情的严重程度X2、忧虑程度X3之间的关系。
现有如下23例统计数据,其中分别表示第个病人的年龄、病情的严重程度、忧虑程度、对医院服务的满意度。
---------------------------------------------------------------------
1 2 3 4 5 …… 21 22 23
50 36 40 41 28 …… 29 44 43
51 46 48 44 43 …… 52 58 50
2.3 2.3 2.2 1.8 1.8 …… 2.3 2.9 2.3
48 57 66 70 89 …… 77 52 60
---------------------------------------------------------------------
这些病人对医院服务的评价是否真实可信? 是否年龄偏大的、病情严重的病人对医院服务不满意?
§7—2 如何定量分析病人与医院之间关系关系分类:确定性关系;不确定性关系(相关关系)。
在不确定性关系中:处于主动地位的因素称为自变量(或称解释变量),如本题,通常用X表示解释变量;处于被动地位的因素(受X的取值影响)称为因变量,如本题,通常用Y表示因变量。
用分别表示病人的年龄、病情的严重程度、忧虑程度这三个解释变量,用Y表示满意度,回归分析的数学模型为
(7.1)式其中,称为理论回归函数,称为偏差。导致偏差存在的原因很多,如对Y的数据采集有误差,除了外还有别的影响因素没考虑到,等等。通常,偏差满足均值为0的正态分布。
回归分析处理不确定性关系的基本思想是:有了表达式,就可以从数量上掌握与Y之间复杂关系的大趋势,进而利用这种趋势来研究回归模型的预测问题和控制问题。
在模型(7.1)式中,若特别假设Y与是线性函数关系,则(7.1)式可写成
(7.2)式称为线性回归模型,其中为待定参数,需要用统计数据来确定。
回归分析的任务是:用统计数据来估计理论回归函数,并讨论与此有关的种种统计推断问题,需要解决的基本问题是:
(1)如何根据抽样信息确定回归函数类型及其参数的估计量;
(2)如何判断Y与间的关系是否密切;
(3)变量是否都对指标Y影响显著;
(4)如何应用回归分析进行预测或控制。
§7—3 回归分析
7.3.1 线性回归模型基本假设:(1)自变量与因变量Y构成线性关系;(2)偏差服从正态分布,期望0,
根据此假设,写出线性回归模型:
(7.3)式特别,若只有一个自变量,则称为一元线性回归模型:
或写成 (7.4)式
1.如何确定回归系数
根据统计数据,用最小二乘法确定回归系数,
将数据代入(7.3)式得
建立优化目标:
最优解记为,算法如下(推导过程略):
得到回归方程:
2.回归模型的检验
(1) F检验法
,,
查“F—分布”表中的数值,若F大于此数,则认为Y与之间存在显著的线性回归关系。(疑问:是什么? 猜:平均值,显著性指标)
(2)相关系数的评价
若接近1,则表明Y与之间的线性关系显著;若接近0,则表明Y与之间无线性关系,可能是非线性关系,也可能是随机因素起主要作用。
(3)值检验
若概率接近0,则认为Y与之间有线性关系。
3.回归系数的检验,最优回归方程的确定
共有m个自变量,还需逐个检验每个对Y的影响程度。
,是的主对角线若接近0,则表明对Y的影响程度很小,可以从回归模型中剔除
4.回归模型的应用
两个应用:(1)预测;(2)控制。
现在简介“预测的基本原理”:
再采集新数据,代入模型所得的最优回归方程算出,这就是关于因变量Y的估计值。
7.3.2 非线性回归模型
函数为非线性函数形式。此时,对模型进行统计分析较为困难。若已知函数形式(如:指数函数、分式函数等),则只需确定参数即可,可用Matlab做数据拟合。