2009-7-30 1
数据的统计描述和分析实验目的实验内容
2、掌握用数学软件包求解统计问题。
1、直观了解统计基本内容。
1、统计的基本理论。
3、实验作业。
2、用数学软件包求解统计问题。
2009-7-30 3
统计的基本概念参数估计假设检验数据的统计描述和分析
2009-7-30 4
统计工具箱中的基本统计命令
1.数据的录入、保存和调用
2.基本统计量
3.常见概率分布的函数
4.频 数 直 方 图 的 描 绘
5.参数估计
6.假设检验
7.综合实例返回
2009-7-30 5
一、数据的录入、保存和调用例 1 上海市区社会商品零售总额和全民所有制职工工资总额的数据如下年份 78 79 80 81 82 82 84 85 86 87
职工工资总额
(亿元)
23,8 27,6 31,6 32,4 33,7 34,9 43,2 52,8 63,8 73,4
商品零售总额
(亿元)
41,4 51,8 61,7 67,9 68,7 77,5 95,9 137,4 155,0 175,0
统计工具箱中的基本统计命令
2009-7-30 6
1,年份数据以 1为增量,用产生向量的方法输入。
命令格式,x=a:h:b
t=78:87
2,分别以 x和 y代表变量职工工资总额和商品零售总额。
x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4]
y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]
3、将变量 t,x,y的数据保存在文件 data中。
save data t x y
4、进行统计分析时,调用数据文件 data中的数据。
load data
To MATLAB(txy)
2009-7-30 7
1,输入矩阵:
data=[78,79,80,81,82,83,84,85,86,87,88;
23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;
41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]
2、将矩阵 data的数据保存在文件 data1中,save data1 data
3、进行统计分析时,先用命令,load data1
调用数据文件 data1中的数据,再用以下命令分别将矩阵
data的第一、二、三行的数据赋给变量 t,x,y:
t=data(1,:)
x=data(2,:)
y=data(3,:)
若要调用矩阵 data的第 j列的数据,可用命令:
data(:,j)
To MATLAB(data)
返回
2009-7-30 8
二、基本统计量对随机变量 x,计算其基本统计量的命令如下:
均值,mean(x)
中位数,median(x)
标准差,std(x)
方差,var(x)
偏度,skewness(x)
峰度,kurtosis(x)
例 对例 1中的职工工资总额 x,
可计算上述基本统计量。
To MATLAB(tjl) 返回
2009-7-30 9
三,常见概率分布的函数常见的几种分布的命令字符为:
正态分布,norm 指数分布,ex p
帕松分布,poi s s? 分布,beta
威布尔分布,w ei b
2
分布,c hi 2
t 分布,t F 分布,F
Matlab工具箱对每一种分布都提供五类函数,其命令字符为:
概率密度,pdf 概率分布,cdf
逆概率分布,inv 均值与方差,stat
随机数生成,rnd
(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)
和参数即可,)
2009-7-30 10
例 2 画出正态分布 )1,0(N 和 )2,0(
2
N 的概率密度函数图形,
在 Matlab中输入以下命令:
x=-6:0.01:6;
y=normpdf(x);
z=normpdf(x,0,2);
plot(x,y,x,z)
1、密度函数,p=normpdf(x,mu,sigma) (当 mu=0,sigma=1时可缺省 )
To MATLAB(liti2)
如对均值为 mu、标准差为 sigma的正态分布,举例如下:
2009-7-30 11
例 3,计算标准正态分布的概率 P{-1<X<1}.
命令为,P=normcdf(1)- normcdf(-1)
结果为,P = 0,6 8 2 7To MATLAB(liti3)
3、逆概率分布,x=norminv(P,mu,sigma),即求出 x,使得
P{X<x}=P.此命令可用来求分位数,
2、概率分布,P=normcdf(x,mu,sigma)
例 4 取 05.0,求
2
1
u
2
1
u 的含义是,)1,0(~ NX,P{X<
2
1
u }=
2
1
05.0 时,P = 0,975,?9 7 5.0u nor m i nv( 0,975 ) = 1,96
To MATLAB(liti4)
2009-7-30 12
To MATLAB(liti5)
4、均值与方差,[m,v]=normstat(mu,sigma)
例 5 求正态分布 N(3,52)的均值与方差,
命令为,[m,v]=normstat(3,5)
结果为,m=3,v=25
5、随机数生成,normrnd(mu,sigma,m,n).产生 m?n阶的正态分布随机数矩阵,
例 6 命令,M=normrnd([1 2 3;4 5 6],0.1,2,3)
结果为,M=0.9567 2.0125 2.8854
3.8334 5.0288 6.1191
To MATLAB( liti6)
此命令产生了 2?3的正态分布随机数矩阵,各数分别服从 N(1,0.12),N(2,22),N(3,32),N(4,0.12),N(5,22),N(6,32)
返回
2009-7-30 13
1,给出数组 data的 频数表 的命令为:
[N,X]=hist(data,k)
此命令将区间 [min(data),max(data)]分为 k个小区间(缺省为 10),返回数组 data落在每一个小区间的频数 N和每一个小区间的中点 X.
2、描绘数组 data的 频数直方图 的命令为:
hist(data,k)
四、频 数 直 方 图 的 描 绘返回
2009-7-30 14
五、参数估计
1,正态总体的参数估计设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:
[muhat,sigmahat,muci,sigmaci] = normfit(X,alpha)
此命令在显著性水平 alpha下估计数据 X的参数( alpha
缺省时设定为 0.05),返回值 muhat是 X的均值的点估计值,
sigmahat是标准差的点估计值,muci是均值的区间估计,sigmaci是标准差的区间估计,
2009-7-30 15
2、其它分布的参数估计有两种处理办法,
一,取容量充分大的样本 ( n>50),按中心极限定理,它近似地服从正态分布;
二,使用 Matlab工具箱中具有特定分布总体的估计命令,
( 1) [muhat,muci] = expfit(X,alpha)----- 在显著性水平 alpha下,求 指数分布的数据 X的 均值的点估计及其区间估计,
( 2) [lambdahat,lambdaci] = poissfit(X,alpha)-
---- 在显著性水平 alpha下,求 泊松分布的数据 X 的参数的点估计及其区间估计,
( 3) [phat,pci] = weibfit(X,alpha)----- 在显著性水平 alpha下,求 Weibull分布的数据 X 的参数的点估计及其区间估计,返回
2009-7-30 16
六、假设检验在总体服从正态分布的情况下,可用以下命令进行假设检验,
1,总体方差 sigma2已知时,总体均值的检验使用 z-检验
[h,sig,ci] = ztest(x,m,sigma,alpha,tail)
检验数据 x 的关于均值的某一假设是否成立,其中 sigma 为已知方差,alpha 为显著性水平,究竟检验什么假设取决于
tail 的取值:
tail = 0,检验假设,x 的均值等于 m,
tail = 1,检验假设,x 的均值大于 m,
tail =-1,检验假设,x 的均值小于 m,
tail的缺省值为 0,alpha的缺省值为 0.05.
返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0
表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的
1-alpha 置信区间,
2009-7-30 17
例 7 Matlab统计工具箱中的数据文件 gas.mat.中提供了美国 1993年一月份和二月份的汽油平均价格( price1,price2分别是一,二月份的油价,单位为美分),
它是容量为 20的双样本,假设一月份油价的标准偏差是一加仑四分币(?=4),
试检验一月份油价的均值是否等于 115.
解 作假设,m = 115.
首先取出数据,用以下命令:
load gas
然后用以下命令检验
[h,sig,ci] = ztest(price1,115,4)
返回,h = 0,sig = 0.8668,ci = [113.3970
116.9030].
检验结果,1,布尔变量 h=0,表示不拒绝零假设,说明提出的假设均值 115
是合理的,
2,sig-值为 0.8668,远超过 0.5,不能拒绝零假设
3,95%的置信区间为 [113.4,116.9],它完全包括 115,且精度很高,
.
To MATLAB( liti7)
2009-7-30 18
2,总体方差 sigma2未知时,总体均值的检验使用 t-检验
[h,sig,ci] = ttest(x,m,alpha,tail)
检验数据 x 的关于均值的某一假设是否成立,其中
alpha 为显著性水平,究竟检验什么假设取决于 tail
的取值:
tail = 0,检验假设,x 的均值等于 m,
tail = 1,检验假设,x 的均值大于 m,
tail =-1,检验假设,x 的均值小于 m,
tail的缺省值为 0,alpha的缺省值为 0.05.
返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0
表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的
1-alpha 置信区间,
2009-7-30 19
返回,h = 1,sig = 4.9517e-004,ci =[116.8 120.2].
检验结果,1,布尔变量 h=1,表示拒绝零假设,说明提出的假设油价均值 115是不合理的,
2,95%的置信区间为 [116.8 120.2],它不包括
115,故不能接受假设,
3,sig-值为 4.9517e-004,远小于 0.5,不能接受零假设,
To MATLAB( liti8)
例 8 试检验例 8中二月份油价 Price2的均值是否等于 115.
解 作假设,m = 115,
price2为二月份的油价,不知其方差,故用以下命令检验
[h,sig,ci] = ttest( price2,115)
2009-7-30 20
3,两总体均值的假设检验 使用 t-检验
[h,sig,ci] = ttest2(x,y,alpha,tail)
检验数据 x,y 的关于均值的某一假设是否成立,其中
alpha 为显著性水平,究竟检验什么假设取决于 tail
的取值:
tail = 0,检验假设,x 的均值等于 y 的均值,
tail = 1,检验假设,x 的均值大于 y 的均值,
tail =-1,检验假设,x 的均值小于 y 的均值,
tail的缺省值为 0,alpha的缺省值为 0.05.
返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0
表示不可以拒绝假设,sig 为假设成立的概率,ci 为与 x与 y
均值差的的 1-alpha 置信区间,
2009-7-30 21
返回,h = 1,sig = 0.0083,ci =[-5.8,-0.9].
检验结果,1,布尔变量 h=1,表示拒绝零假设,说明提出的假设,油价均值相同,是不合理的,
2,95%的置信区间为 [-5.8,-0.9],说明一月份油价比二月份油价约低 1至 6分,
3,sig-值为 0.0083,远小于 0.5,不能接受,油价均相同,假设,
To MATLAB( liti9)
例 9 试检验例 8中一月份油价 Price1与二月份的油价 Price2均值是否相同,
解 用以下命令检验
[h,sig,ci] = ttest2(price1,price2)
2009-7-30 22
4,非参数检验:总体分布的检验
Matlab工具箱提供了两个对总体分布进行检验的命令,
( 1) h = normplot(x)
( 2) h = weibplot(x)
此命令显示数据矩阵 x的正态概率图,如果数据来自于正态分布,则图形显示出直线性形态,而其它概率分布函数显示出曲线形态,
此命令显示数据矩阵 x的 Weibull概率图,如果数据来自于 Weibull分布,则图形将显示出直线性形态,而其它概率分布函数将显示出曲线形态,
返回
2009-7-30 23
例 10 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障,
故障是完全随机的,并假定生产任一零件时出现故障机会均相同,工作人员是通过检查零件来确定工序是否出现故障的,现积累有 100次故障纪录,故障出现时该刀具完成的零件数如下:
459 362 624 542 509 584 433 748 815 505
612 452 434 982 640 742 565 706 593 680
926 653 164 487 734 608 428 1153 593 844
527 552 513 781 474 388 824 538 862 659
775 859 755 49 697 515 628 954 771 609
402 960 885 610 292 837 473 677 358 638
699 634 555 570 84 416 606 1062 484 120
447 654 564 339 280 246 687 539 790 581
621 724 531 512 577 496 468 499 544 645
764 558 378 765 666 763 217 715 310 851
试观察该刀具出现故障时完成的零件数属于哪种分布,
2009-7-30 24
解 1、数据输入 To MATLAB( liti101)
2、作频数直方图
hist(x,10)
3、分布的正态性检验
normplot(x)
4、参数估计:
[muhat,sigmahat,muci,sigmaci] = normfit(x)
(看起来刀具寿命服从正态分布)
(刀具寿命近似服从正态分布)
估计出该刀具的均值为 594,方差 204,均值的
0.95置信区间为 [ 553.4962,634.5038],方差的
0.95置信区间为 [ 179.2276,237.1329].
To MATLAB( liti104)
To MATLAB( liti102)
To MATLAB( liti103)
2009-7-30 25
5、假设检验 To MATLAB( liti105)
已知刀具的寿命服从正态分布,现在方差未知的情况下,检验其均值 m 是否等于 594.
结果,h = 0,sig = 1,ci =[553.4962,634.5038].
检验结果,1,布尔变量 h=0,表示不拒绝零假设,说明提出的假设寿命均值 594是合理的,
2,95%的置信区间为 [553.5,634.5],它完全包括 594,且精度很高,
3,sig-值为 1,远超过 0.5,不能拒绝零假设,
返回
2009-7-30 26
1,某校 60名学生的一次考试成绩如下,
93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86
83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70
94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86
73 80 94 79 78 77 63 53 55
1)计算均值、标准差、极差、偏度、峰度,画出直方图;
2)检验分布的正态性;
3)若检验符合正态分布,估计正态分布的参数并检验参数,
2009-7-30 27
2,据说某地汽油的价格是每加仑 115美分,为了验证这种说法,一位学者开车随机选择了一些加油站,得到某年一月和二月的数据如下:
一月,119 117 115 116 112 121 115 122 116 118 109 112
119 112 117 113 114 109 109 118
二月,118 119 115 122 118 121 120 122 128 116 120
123 121 119 117 119 128 126 118 125
1) 分别用两个月的数据验证这种说法的可靠性;
2) 分别给出 1月和 2月汽油价格的置信区间;
3)给出 1月和 2月汽油价格差的置信区间,
确定性模型和随机性模型随机因素可以忽略随机因素影响可以简单地以平均值的作用出现随机因素影响必须考虑概率模型 统计回归模型 马氏链模型确定性模型随机性模型概 率 模 型例,报童的利润为了获得最大的利润,报童每天应购进多少份报纸?
162天报纸需求量的调查报童早上购进报纸零售,晚上将未卖掉的报纸退回。
购进价 b
(=0.8元 )
零售价 a
(=1元 )
退回价 c
(=0.75元 )
售出一份赚 a-b 退回一份赔 b-c
199 136 214 195 219 224 197 213 187 187?
230 172 227 157 114 156
问题分析购进太多?卖不完退回?赔钱购进太少?不够销售?赚钱少应根据需求确定购进量每天需求量是随机的目标函数应是长期的日平均利润每天收入是随机的存在一个合适的购进量
= 每天收入的期望值随机性优化模型需求量的随机规律由 162天报纸需求量的调查得到每天需求量为 r 的概率 f(r),r=0,1,2…
模型建立
设每天购进 n 份,日平均收入为 G(n);不退回赚售出若需求量 nbannr )(



n
r nr
rnfbarfrncbrbanG
0 1
)()()()])(()[()(
求 n 使 G(n) 最大
已知售出一份赚 a-b;退回一份赔 b-c
))((
)(
rncbrn
rbarnr


赔退回;赚售出若需求量
))(()( rncbrba利润:
n n drrnpbadrrprncbrbanG 0 )()()()])(()[()(
dndG
r视为连续变量 概率密度)()()( rprf?
0?dndG
cb
ba
drrp
drrp
n
n
)(
)(
0
n n drrpbadrrpcb 0 )()()()(
n drrpbannpba )()()()(
n drrpcbnnpba 0 )()()()(
模型建立模型建立
nn dxxpdxxp )()(0 nn dxxpdxxp )(1)(
)1(
)(
)(
0
cb
ba
drrp
drrp
n
n
)2()(
ca
badxxpn


02
2
dn Gd
由( 1)或( 2)得到的 n是每天平均利润最大的最佳购进量。
cb
ba
drrp
drrp
n
n
)(
)(
0结果解释
nn PdrrpPdrrp 20 1 )(,)(
n
P1 P2
cb
ba
P
P

2
1
取 n使
a-b ~售出一份赚的钱
b-c ~退回一份赔的钱
nba )(
0 r
p
ncb )(
MATLAB 统计工具箱常用命令 (一 )
命令 名称 输入 输出
[n,y]=hist(x,k) 频数表 x,原始数据行向量
k:等分区间数
n,频数行向量
y,区间中点行向量
hist(x,k) 直方图 同上 直方图
m=mean(x) 均值 x,原始数据行向量均值 m
s=std(x) 标准差 同上 标准差 s
n
i
ixnm
1
1 2/12
1
])(11[ mxns
n
i
i
功能 概率密度分布函数逆概率分布均值与方差随机数生成字符 pdf cdf inv stat rnd
分布 均匀分布指数分布正态分布
2
分布
t
分布
F
分布二项分布泊松分布字符 unif exp nor
m
chi2 t f bino pois
s
MATLAB 统计工具箱常用命令 (一 )
y=normpdf(1.5,1,2) 正态分布 x=1.5的概率密度 (?=1,?=2)
y=fcdf(1,10,50) F分布 x= 1的分布函数 (自由度 n1=10,n2=50)
y =tinv(0.9,10) 概率?=0.9的逆 t分布 (?分位数,自由度 n=10)
由 计算 n
用 MATLAB 统计工具箱求解报童模型
根据数据确定需求量的概率分布 p(x)
baotongdata.m
)2()( ca badxxpn

baotong1.m
回 归 模 型拟合问题实例给药方案 ——
1,在快速静脉注射的给药方式下,研究血药浓度(单位体积血液中的药物含量)的变化规律。
问题
2,给定药物的最小有效浓度和最大治疗浓度,
设计给药方案 (每次注射剂量,间隔时间 ) 。
分析
t (h) 0.25 0.5 1 1.5 2 3 4 6 8
c (?g/ml) 19.21 18.15 15.36 14.10 12.89 9.32 7.45 5.24 3.01
实验:血药浓度数据 c(t) (t=0注射 300mg)
0 2 4 6 8
10
0
10
1
10
2
半对数坐标系 (semilogy)下 c(t)的图形理论:用一室模型研究血药浓度变化规律为待定系数kc
ectc kt
,
)( 0
负指数规律拟合问题实例给药方案 ——
实验数据
t
c
c0
0
xueyao1.m实验数据作图
3.血液容积 v,t=0注射剂量 d,血药浓度立即为 d/v
2.药物排除速率与血药浓度成正比,比例系数 k(>0)
模型假设
1.机体看作一个房室,室内血药浓度均匀 ——一室模型模型建立由假设 2
kc
dt
dc
kte
v
d
tc)(由假设 3
vdc /)0(?
)(,1220 ccvDvcD
给药方案 设计
设每次注射剂量 D,间隔时间?
血药浓度 c(t) 应 c1? c(t)? c2
初次剂量 D0 应加大
},,{ 0?DD给药方案记作给定 c1=10,c2=25,为确定 只需确定参数 k,v},,{
0?DD
1
2ln1
c
c
k
kecc 21
c
c2
c1
0? t
参数估计 由实验数据拟合曲线 c(t)以估计 k,v
kte
v
dtc)( ktvdc )/l n (ln
参数 线性化
)/l n (,,ln 21 vdakacy 21 atay
9943.2,2347.0 21 aa
用实验数据作线性最小二乘拟合
)(02.15),/1(2 3 4 7.0 lvhk)300(?d
xueyao2.m
)(4),(2 2 5),(3 7 50 hmgDmgD
思考,取对数化为线性最小二乘,对结果有影响吗?
9.3,3.2 2 5,5.3 7 50DD
)(,1220 ccvDvcD
1
2ln1
c
c
k

)(02.15),/1(2 3 4 7.0 lvhk c1=10,c2=25
给药方案 设计
kte
v
dtc)( ktvdc )/l n (ln
直线拟合:
a=polyfit(x,y,1),
b=polyfit(x,z,1),
同一条直线 y=0.33x+0.96(z=0.33x+0.96)
从拟合到回归
x=[ 0 1 2 3 4 ],y=[ 1.0 1.3 1.5 2.0 2.3 ] ( + 号 )
x=[ 0 1 2 3 4 ],z=[ 0.6 1.95 0.9 2.85 1.8 ]( *号 )
问题:你相信哪个拟合结果?怎样给以定量评价?
0 0,5 1 1,5 2 2,5 3 3,5 4
0,5
1
1,5
2
2,5
3
得到
a= 0.33 0.96
b= 0.33 0.96
收集一组包含因变量和自变量的数据;
选定因变量与自变量之间的模型,利用数据按照最小二乘准则计算模型中的系数;
利用统计分析方法对不同的模型进行比较,
找出与数据拟合得最好的模型;
判断得到的模型是否适合于这组数据,诊断有无不适合回归模型的异常数据;
利用模型对因变量作出预测或解释。
回归分析的主要步骤
2004 B题 电力市场的输电阻塞管理确定各线路上潮流关于各发电机组出力的近似表达式
8,6,1),,,( 21 nmjpppfu njj
当前时段各发电机组出力 p1(0),?,pn(0),线路潮流 uj(0)
)(
)(
)0(
)0(
11
1
)0(
)0(
)0(
nnp
n
j
p
j
jj
pp
p
f
pp
p
f
uu


nn papaa110
a0
答卷中的问题:没有常数项 a0;没有统计检验
p(0)
+
++
+ +
p0
u a0=0
例 1,血压与年龄、体重指数、吸烟习惯序号血压年龄体重指数吸烟习惯序号血压年龄体重指数吸烟习惯
1 144 39 24.2 0 21 136 36 25.0 0
2 215 47 31.1 1 22 142 50 26.2 1
3 138 45 22.6 0 23 120 39 23.5 0

10 154 56 19.3 0 30 175 69 27.4 1
体重指数 = 体重 (kg) / 身高 (m) 的平方吸烟习惯,0表示不吸烟,1表示吸烟建立血压与年龄、体重指数、吸烟习惯之间的回归模型模型建立血压 y,年龄 x1,体重指数 x2,吸烟习惯 x3
3322110 xxxy
y与 x1的散点图 y与 x2的散点图线性回归模型回归系数?0,?1,?2,?3 由数据估计,?是随机误差
MATLAB 统计工具箱常用命令 (二 )
b=regress(y,X)
[b,bint,r,rint,s]=regress(y,X,alpha)
输入,y~因变量 (列向量 ),X~1与自变量组成的矩阵,
Alpha~显著性水平?(缺省时设定为 0.05)
s,3个统计量,决定系数 R2,F值,F(1,n-2)分布大于
F值的概率 p,p<?时 回归 模型有效,
输出,b=( ),bint,b的 置信区间,
r:残差 (列向量 ),rint,r的 置信区间
,?,? 10
rcoplot(r,rint) 残差 及其 置信区间作图
MATLAB7.0版本 s增加一个统计量,剩余方差 s2.
回归系数 回归系数 估计值 回归系数 置信区间
0 45.3636 [3.5537 87.1736]
1 0.3604 [-0.0758 0.7965 ]
2 3.0906 [1.0530 5.1281]
3 11.8246 [-0.1482 23.7973]
R2= 0.6855 F= 18.8906 p<0.0001 s2 =169.7917
模型求解回归系数 回归系数 估计值 回归系数 置信区间
0 58.5101 [29.9064 87.1138]
1 0.4303 [0.1273 0.7332]
2 2.3449 [0.8509 3.8389]
3 10.3065 [3.3878 17.2253]
R2= 0.8462 F= 44.0087 p<0.0001 s2 =53.6604
剔除异常点
(第 2点和第
10点 )后
xueya01.m
321 3065.103449.24303.05101.58? xxxy
例 2 软件开发人员的薪金资历 ~ 从事专业工作的年数;管理 ~ 1=管理人员,0=
非管理人员;教育 ~ 1=中学,2=大学,3=更高程度建立模型研究薪金与资历、管理责任、教育程度的关系分析人事策略的合理性,作为新聘用人员薪金的参考编号薪金 资历管理教育
01 13876 1 1 1
02 11608 1 0 3
03 18701 1 1 3
04 11283 1 0 2
05 11767 1 0 3
编号薪金 资历管理教育
42 27837 16 1 2
43 18838 16 0 2
44 17483 16 0 1
45 19207 17 0 2
46 19346 20 0 1
46名软件开发人员的档案资料分析与假设 y~ 薪金,x1 ~资历(年)
x2 =1~ 管理人员,x2 =0~ 非管理人员
1=中学
2=大学
3=更高

其它中学
,
,x
0
1
3

其它大学
,
,x
0
1
4
资历每加一年薪金的增长是常数;
管理、教育、资历之间无交互作用教育
443322110 xaxaxaxaay线性回归模型
a0,a1,…,a4是待估计的回归系数,?是随机误差中学,x3=1,x4=0 ;
大学,x3=0,x4=1;
更高,x3=0,x4=0
模型求解
443322110 xaxaxaxaay
参数 参数估计值 置信区间
a0 11032 [ 10258 11807 ]
a1 546 [ 484 608 ]
a2 6883 [ 6248 7517 ]
a3 -2994 [ -3826 -2162 ]
a4 148 [ -636 931 ]
R2=0.957 F=226 p=0.000
R2,F,p? 模型整体上可用资历增加 1年薪金增长 546
管理人员薪金多 6883
中学程度薪金比更高的少 2994
大学程度薪金比更高的多 148
a4置信区间包含零点,解释不可靠 !
中学,x3=1,x4=0;
大学,x3=0,x4=1;
更高,x3=0,x4=0,
x2 =1~ 管理,
x2 =0~ 非管理
x1~资历 (年 )
xinjindata.m
xinjin.m
残差分析方法结果分析
443322110 xaxaxaxaay
残差 yye
e 与资历 x1的关系
0 5 10 15 20
- 2 0 0 0
- 1 0 0 0
0
1000
2000
e与管理 —教育组合的关系
1 2 3 4 5 6
- 2 0 0 0
- 1 0 0 0
0
1000
2000
残差全为正,或全为负,
管理 —教育组合处理不当残差大概分成 3个水平,
6种管理 —教育组合混在一起,未正确反映 应在模型中增加管理 x2与教育 x3,x4的交互项组合 1 2 3 4 5 6
管理 0 1 0 1 0 1
教育 1 1 2 2 3 3
管理与教育的组合
426325443322110 xxaxxaxaxaxaxaay
进一步的模型 增加管理 x2与教育 x3,x4的交互项参数 参数估计值 置信区间
a0 11204 [11044 11363]
a1 497 [486 508]
a2 7048 [6841 7255]
a3 -1727 [-1939 -1514]
a4 -348 [-545 –152]
a5 -3071 [-3372 -2769]
a6 1836 [1571 2101]
R2=0.999 F=554 p=0.000
R2,F有改进,所有回归系数置信区间都不含零点,模型完全可用消除了不正常现象异常数据 (33号 )应去掉
0 5 10 15 20
- 1 0 0 0
- 5 0 0
0
500
e ~ x1
1 2 3 4 5 6
- 1 0 0 0
- 5 0 0
0
500
e ~组合去掉异常数据后 的结果参数 参数估计值 置信区间
a0 11200 [11139 11261]
a1 498 [494 503]
a2 7041 [6962 7120]
a3 -1737 [-1818 -1656]
a4 -356 [-431 –281]
a5 -3056 [-3171 –2942]
a6 1997 [1894 2100]
R2= 0.9998 F=36701 p=0.0000
0 5 10 15 20
- 2 0 0
- 1 0 0
0
100
200
e ~ x1
1 2 3 4 5 6
- 2 0 0
- 1 0 0
0
100
200
e ~组合
R2,0.957? 0.999? 0.9998
F,226? 554? 36701
置信区间长度更短残差 图十分正常最终模型的结果可以应用
xinjindata2.m xinjin1.m
模型应用制订 6种管理 —教育组合人员的,基础,薪金 (资历为 0)
组合 管理 教育 系数 ―基础”薪金
1 0 1 a0+a3 9463
2 1 1 a0+a2+a3+a5 13448
3 0 2 a0+a4 10844
4 1 2 a0+a2+a4+a6 19882
5 0 3 a0 11200
6 1 3 a0+a2 18241
426325443322110 xxaxxaxaxaxaxaay
中学,x3=1,x4=0 ;大学,x3=0,x4=1; 更高,x3=0,x4=0
x1=0; x2 = 1~ 管理,x2 =0~ 非管理大学程度管理人员比更高程度管理人员的薪金高大学程度非管理人员比更高程度非管理人员的薪金略低例 3 商品销售量与价格
x1 (元 ) 120 140 190 130 155 175 125 145 180 150
x2 (元 ) 100 110 90 150 210 150 250 270 300 250
y (个 ) 102 100 120 77 46 93 26 69 65 85
某厂生产的一种电器的销售量 y与竞争对手的价格 x1及本厂的价格 x2有关,
该商品在 10个城市的销售记录如下
根据数据建立 y与 x1和 x2的模型,对得到的模型和系数进行检验。
若某市本厂产品售价 160(元 ),竞争对手售价 170(元 ),
预测该市的销售量,
将 (x1,y),(x2,y)各
10个点分别画图
y与 x2有较明显的线性关系,y与 x1之间的关系难以确定需要对模型
y=f(x1,x2)作几种尝试,用统计分析决定优劣。
120 140 160 180 200
0
50
100
150
x1
y
50 100 150 200 250 300
0
50
100
150
x2
y
例 3 商品销售量与价格
[b,bint,r,rint,stats]=regress(Y,X,alpha)
例 3 商品销售量与价格
22110 xxy一次函数的回归模型回归系数 回归系数 估计值 回归系数 置信区间
0 66.5176 [-32.5060 165.5411 ]
1 0.4139 [-0.2018 1.0296 ]
2 -0.2698 [-0.4611 -0.0785 ]
R2= 0.6527 F=6.5786 p= 0.0247 s2= 307.1639
结果不是太好,?=0.05时模型有效,但?=0.01时模型不能用; R2 较小;?1的置信区间包含零点。
shangpin.m
MATLAB 统计工具箱常用命令 (三 )
rstool (x,y,'model',alpha)
x~n× m矩阵,n是数据容量,y~n维列向量,alpha~显著性水平多元二项式回归

k
mkj
jjkmm xxxxy
,1
110?
model~从以下 4个模型中选取,(设 m=2)
22110:l i n e a r xxy
22421322110:t i cp u r eq u ad r a xxxxy
21322110:ni n t e r a c t i o xxxxy
22521421322110:q u a d r a t i c xxxxxxy
130 140 150 160 170 180
- 2 0 0
- 1 0 0
0
100
200
300
150 200 250
例 3 商品销售量与价格
x1=[?]; x2=[?]; x=[x1' x2'];
y=[?]';
rstool(x,y,'quadratic')
Export~向工作区传送参数,beta--回归系数,
rmse--剩余标准差 s,residuals--残差 (向量 );
以剩余标准差 rmse 最小为标准,比较 4种模型
Model,linear purequadratic interaction quadratic
rmse,18.7362 16.6436 19.1626 18.6064
2222211122110 xxxxy最终模型
=( -312.5871 7.2701 -1.7337 -0.0228 0.0037)
例 3 商品销售量与价格变量选择 影响因变量的因素:
自变量 x1,x2,?xm及其简单函数,如 }),2,1{(,/1,2 miexx ix
ii
将所有影响显著的因素都纳入回归模型;
最终的模型尽量简单,即包含尽量少的因素。
变量选择的标准
从候选集合 S={x1,… xk}中选出一子集 S1 (含 p?k个自变量 )与因变量 y构造回归模型,其优劣由 s2度量,
最小22 ),1/( spnQs
影响显著的自变量进入模型时,Q明显下降,s减小;
影响很小的自变量进入模型时,Q下降不大,p的增加会使 s变大,
变量选择与逐步回归逐步回归
从候选集合中确定一初始子集;
从子集外(候选集合内)中引入一个对 y影响显著的;
对集合中的变量进行检验,剔除影响变得不显著的;
迭代式地进行引入和剔除,直到不能进行为止。
选择衡量影响显著程度的统计量,通常用偏 F统计量;
适当选取引入变量的显著性水平?in和剔除变量的?out。
引入新的变量后原来模型内影响显著的变量变得不显著,从而被剔除 ~ 自变量之间存在较强相关性的结果,
某些自变量之间的相关性很强回归系数的置信区间较大多重共线性矩阵 XTX病态
MATLAB 统计工具箱常用命令 (四 )
逐步回归 stepwise (x,y,inmodel,penter,premove)
x~候选变量集合的 n× k 数据矩阵( n是数据容量,k
是变量数目) ; y~因变量数据向量( n维) ;
Inmodel~初始模型中包括的候选变量集合的指标
(矩阵 x的列序数,缺省时设定为全部候选变量) ;
penter~引入变量的显著性水平(缺省时设定为
0.05) ; premove~剔除变量的显著性水平(缺省时设定为 0.10)。
输出交互式画面例 儿童的体重与身高和年龄序号 体重 (kg) 身高 (m) 年龄 序号 体重 (kg) 身高 (m) 年龄
1 27.1 1.34 8 7 30.9 1.39 10
2 30.2 1.49 10 8 27.8 1.21 9
3 24.0 1.14 6 9 29.4 1.26 10
4 33.4 1.57 11 10 24.8 1.06 6
5 24.9 1.19 8 11 36.5 1.64 12
6 24.3 1.17 7 12 29.1 1.44 9
1 1,2 1,4 1,6 1,8
20
25
30
35
40
6 7 8 9 10 11 12
20
25
30
35
40
可能存在二次函数关系体重 y
身高 x1
体重 y
年龄 x2