统计学教程第一章 绪论第二章 统计调查与整理第三章 综合指标第五章 参数估计和假设检验第六章 相关与回归第七章 非参数检验第八章 时间序列第九章 指数 结束二、统计学的研究对象和研究方法
(一)统计包含 三种涵义,两重关系
1、统计工作:调查研究。资料收集、整理和分析。
2、统计资料:工作成果。包括统计数据和分析报告。
3、统计学:研究如何搜集、整理、分析数据资料的一门 方法论 科学。
统计工作统计资料统 计 学工作与工作成果关系 实践与理 论关系统计学的性质:是一门适用于自然现象和社会现象的方法论学科。
统计学的研究对象:大量现象的数量方面。包括数量特征、数量关系、数量界限等。
(二)统计学的研究对象
(三)统计学的研究对象
1、大量观察法是指对所研究的事物的全部或足够数量进行观察的方法。它可以使影响个体的偶然因素相互抵消,显示出现象的一般特征。其数理依据是反映随机现象基本规律的大数定律。
2、综合指标法是从数量方面对现象总体特征的概括说明。综合指标法,就是运用各种综合指标对现象的数量特征、数量关系进行对比分析的方法。它是统计分析的基本方法。
3、统计推断法是在一定置信程度(即可靠程度)下,根据样本资料的特征对总体特征作出估计和预测的方法。统计推断是现代统计学的基本方法。
一、统计学的产生与发展产生原始社会后期,统计萌芽于计数活动;
奴隶制国家产生:使统计日显重要;
封建社会时期,统计已具规模;
资本主义的兴起:统计扩展到社会经济各方面。
统 计学应运而生,统计学作为一门系统的科学,距今只有 300多年的历史。
一、统计学的产生与发展发展(三个时期)
(一)统计学的萌芽期( 17世纪中- 18世纪中)
1、德国的记述学派(国势学派 〕
康令 ( 1606- 1681)
阿痕瓦尔( 1719- 1772; 1764年首创统计学一词)
他们在大学中开设,国势学”采用记述性材料,
讲述国家,显著事项”,籍以说明管理国家的方法 。
特点是 偏重于事物质的解释而忽视量的分析 。
(二)统计学的近代期( 18世纪末- 19世纪末)
1、数理统计学派代表人物:法国的拉普拉斯,比利时的凯特勒 。
拉普拉斯把 古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用。
2、政治算术学派代表人物:英国的威廉 ·配第、约翰 ·格朗特等。
威廉 ·配第的代表著,政治算术,对当时的英、荷、
法等国的,国富和力量”进行了数量的计算和比较;
格朗特写出了第一本关于人口统计的著作 。 他们开创了 从数量方面研究社会经济现象的先例 。
凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人,有,统计学之父,之称。
2、社会统计学派代表人物:德国的克尼斯、恩格尔、梅尔等 。
他们强调统计学是 研究社会现象的科学,包括统计资料的搜集、整理和分析研究,目的是要揭示现象内部的联系 。
(三)统计学的现代期( 20世纪初至今)
统计学的主流从描述统计学 转向 推断统计学。 20
世纪 30年代 R·费希尔的推断统计理论标志着现代数理统计学的确立。
60年代以后统计学发展有三个明显的趋势:
1·统计学依赖和吸收数学更多;
2·以统计学为基础的边缘学科不断形成;
3·与电子计算机技术相结合,应用范围更广,作用更大。
三、统计学的要素和内容
1、统计总体和总体单位总体 统计研究所确定的客观对象,是具有共同性质的许多单位组成的整体。
无限总体:含无限多个单位范围有限总体:含有限个单位。
总体单位:组成总体的各个单位(或元素),是各项统计数字的原始承担者。
同质性:总体中各个单位具有某种共同的性质。
大量性:总体总是包含大量的单位。
(一)统计学的要素特点
2、标志标志 总体单位的属性、特征。
品质标志:用文字表示属性分类 数量标志:用数字表示特征不变标志:各单位具体表现相同可变标志:各单位具体表现不同指标:综合反映总体数量特征的概念和数值。
构成:指标名+指标数值特点:具体性;综合性
3、指标和指标体系分类:数量指标;质量指标描述指标;评价指标;预警指标绝对数指标;相对数指标;平均数指标在推断统计中:说明总体的指标也称参数。
说明样本的指标称统计量。
指标体系:具有内在联系的一系指标构成的整体。
标志与指标的联系与区别:
联系( 1)一些数量标志汇总可以得到指标的数值 。
区别( 1)标志是说明总体单位特征的,而指标是说统统 计总体数量特征的;
( 2)数量标志与指标之间存在变换 关系。
( 2)标志的具体表现,有的用数值有的用文字表示,
而指标都是用数值表示的。
4、变量和变量值变量 可变的数量标志和统计指标。
确定性变量分类 随机性变量离散性变量连续性变量变量值:即变量的具体数值,包括标志值和指标数值社会经济现象中许多变量,既受确定性因素影响,又受随机性因素影响。要根据具体情况加以认定。
5、样本 是从总体中随机抽取部分单位所构成的集合体。
必须取自所要研究的总体;特点从一个总体中可抽取许多个样本,这些样本的数值是不同的,也即存在着随机的差异;
样本必须具有代表性;
样本必须具有客观性,也即排除主观因素的影响
6、推断:就是以样本信息为依据对总体的某些特征作出预测和估计。
7、推断的可靠性:根据随机抽取的样本对总体推断所得出的结果的可靠程度,也称 置信度 。
(二)统计学的内容
1、描述统计 指搜集、整理、分析并提供统计资料的理论和方法。
主要任务:使反映客观事物的统计数据可以一目了然,条理清晰,使用方便,可以说明现象的数量特征和数量关系。
2、推断统计 是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设检验的方法。
描述统计是推断统计的前提,
推断统计是描述统计的发展。
四、统计测定的层次统计测定( measurement)
即对总体数量特征的量度,包括登记、分类、
标示、计算等。
四个测定层次的比较
1
2
3
4
量化等级功能包容
1
2
3
4
测定层次 特征 运算功能 举例
1、定名测定
2、序列测定
3、间距测定
4、比率测定分类分类;排序分类;排序;
有基本测量单位分类;排序;
有基本测量单位;
有绝对零点计数计数;排序计数;排序;
加减计数;排序;
加减乘除产业分类企业等级产品质量差异商品销售额第二章 统计调查与整理统计调查 统计整理 统计分析有组织、
有计划地搜集资料。
要求:准确、
完整、及时对调查资料去伪存真、
去粗取精、
科学分类、
浓缩简化描述性分析推断分析、
决策分析。
要求:定性定量结合统计工作的三个中心阶段统计调查一、调查组织方式统计调查二、调查方案设计报表制度普 查重点调查典型调查抽样调查方案内容调查表、
问卷设计制度化的经常性调查专门组织调查全面调查非全面调查一、统计调查的组织方式统计报表制度由政府部门组织,采用统一的表格,自上而下 布置,自下而上 报告。
任务,搜集 国民经济和社会发展基本情况 的资料,为制订国民经济和社会发展计划和检查计划执行情况服务。
优点,精心周密设计、高度统一、规范。
回收率高,内容相对稳定,便于资料积累、对比。
层层上报、逐级汇总,可以满足各部门需要。
特点:
普查特点,工作量大,时间性强,需要大量人力和财力。
任务,搜集重要的 国情国力和资源状况 的全面资料,为政府制定规划、方针政策提供依据。
方式,建立专门机构,配备专门人员调查。
利用基层单位原始记录和核算资料发表调查。
原则,规定统一的标准时点。
规定统一的普查期限。
规定调查的项目和指标。
重点调查特点,在总体中选择 个别或部分 重点单位 进行调查 。
任务,及时了解总体基本情况,为主管部门指导工作服务。
方式,一次性调查;专门设计和备配人员现场调查。
重点单位 指在总体中有举足轻重地位的单位,
其标志值在总体标志总量中占有绝大比重。
经常性调查;同报表制度结合,用统计报表调查。
典型调查特点,在全面分析的基础上,有 意识地 选择代表性的 典型单位 进行现场调查。
任务,为研究某种特殊的社会经济问题,搜集详细的第一手资料,借以认识事物的 本质特征,
因果关系,变化趋势 。为理论和政策性问题研究提供依据。
作用,适宜于研究处于萌芽状态事物和倾向性问题;
适宜于分析事物的类型,它们之间的差别和关系。
方法:,?解剖麻雀’;‘ 划类选典’;‘抓两 头’”。
抽样调查特点,1·按 随机原则 从总体中抽取样本;
2·以样本指标(统计量)为依据 推断总体参数或 检验总体的某种假设 ;
3·抽样误差可以事先 计算 并加以 控制 。
调查误差登记性误差代表性误差编 差随机误差 抽样平均误差实际误差统计推断中的抽样误差就是 抽样平均误差 。它是处于调查所固有的,是对抽样推断精确度的量度。
样本容量 抽样方式总体内部差异抽样调查的组织方式:
1·简单随机抽样(纯随机抽样)
方法:将总体单位编成抽样框,而后用抽签或随机数表抽取样本单位。
适用:总体规模不大;总体内部差异小
2·类型抽样(分层抽样)
方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。
总体
N 样本 n
等额等比例最优

k
i
i
k
nn
nnn
1
21?
nNNn i1
nNNn
ii
ii?

2
2
1?
2N
kN
1N 1n
2n
kn
··· ···
3·等距抽样(机械抽样)
方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。
排序依据的标志,( 1) 无 关标志; ( 2) 有 关标志
(总体单位按某一标志排序)
······ · · · · · ·
4·整群抽样
方法,将总体全部单位分为许多个,,群,,然后随机抽取若干,,群,,对被抽中的各,,群,
内的所有单位登记调查 。例:
总体群数 R=16 样本群数 r=4 样本容量例:
A
B CD
E
F
G H I
J
K
L
M N
O
P L
H
P
D
hlpd nnnnn
例,在某省 100多万农户抽取 1000户调查农户生产性投资情况。
5·多阶段抽样第一阶段:从省内部县中抽取 5个县第二阶段:从抽中的 5个县中各抽 4个乡第三阶段:从抽中的 20个乡中各抽 5个村第四阶段:从抽中的 100个村中各抽 10户样本 n=100× 10=1000(户 )
抽样方法
1·放回抽样,抽出样本单位登记后放回总体,再抽时总体不变
2·不放回抽样,抽出样本单位登记后不放回总体,再抽时总体渐次减少二、调查方案统计调查方案的主要内容
1,确定调查 目的
2、确定调查 对象 和 调查单位
3、拟订调查 提纲
4、确定调查 时间
5、编制调查的 组织计划调查表与问卷设计调查表 单一表一览表 例:,工业企业统计报表,
问卷结构,说明词 + 主题词句 + 作业记录例:,人口普查登记表,
问卷设计基本要求,主题明确,形式简明,文字通俗,容易理解,
便于回答。词句编排,
层次分明,先易后难。
问卷形式,① 开放式词句
②对选式词句
③多项选择式词句
④顺位式词句
⑤标度式词句
〖 案例 〗
统计整理主要任务 资料审核、分组、
汇总、制表、制图等。
分组 频数分布 统计表 统计图分组分组前 分组后
25%
33%
42%
1·划分现象类型作用:
例:按所有制性质划分,我国现有 8种经济类型:
国有经济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;港澳台投资经济
2·研究总体结构例:上海市按 GDP计算的三次产业结构( %)
1980年 1990年 1996年 1997年
GDP 100 100 100 100
第一产业 3.2 4.3 2.5 2.3
第二产业 75.7 63.8 54.5 52.2
第三产业 21.1 31.9 43.0 45.5
3·研究现象之间的依存关系例:中国农民家庭按收入分组的恩格尔系数( 1984年)
按收入分组(元) <200 <300 <400 <500 <600 <800 <1000
恩格尔系数( %) 64.9 60.2 56.7 54.4 50.5 49.9 43.6
分组标志的选择与分组形式关键:服从研究任务需要,反映总体本质特征形式按分组标志性质分 品质标志分组数量标志分组按分组标志个数分简单分组复合分组分组体系频数分布(分布数列)
是一种重要的分组资料,反映总体单位在各组的分布状态。
基本形式:
分组 单位数 频率合计
… ……
100
频数分布频率分布分类 品质数列变量数列 单项数列组距数列 等距数列异距数列例例例例变量数列的编制
1·计算极差
2·确定形式 单项数列:离散型且取值不多。组距数列:离散型且取值多或连续型。
3·组距数列:组距;组数;
4·计算各组频数,频率,累计频数,累计频率等。
5·组中值的计算:闭口组;开口组统计表构成总表题横行标题:统计研究的对象。也称 主词 。
纵栏标题:说明主词的指标名。也称 宾词 。
数字资料分类主词简单表分组表复合表宾词 平行形式交叉形式编制规则:
统计图直方图 等距数列:(变量,频数)异距数列,(变量,频数密度 )
折线图曲线图等距数列:(组中值,频数)
异距数列:(组中值,频数密度)
单项数列:(变量,频数)
向上累计分布:(变量上限,累计频数)
向下累计分布:(变量下限,累计频数)
变量的组数无限增多时,折线便趋于一条光滑的曲线。
P55 图 2- 5
图形某厂职工人数统计表按性别分组男 职 工女 职 工合 计人数(人)
(频数)
比率(%)
(频率)
253
115
368
68.75
31.25
100.00
返回某厂职工家庭人口分组统计按家庭人口分组
1
合 计职工户数
(频数)
比率(%)
(频率)
7
返回
2
3
4
5
6
38
105
54
31
20
2.9
15.2
41.3
20.5
12.1
8.0
255 100
第三章 综合指标一,综合指标概述二、总量指标(绝对数指标)
三、相对数指标(相对数)
四、平均数指标(平均数)
五、标志变异指标主要内容案例一,综合指标概述统计指标 统计指标是综合反映统计总体数量特征的概念和数值。
指标名称 指标数值反映总体某一方面的质的规定性,是对总体本质特征的一种概括。
是总体量的规定性在一定时间、地点、条件下的具体表现。
统计指标 重要特点:具体性; 综合性描述指标评价指标监测指标分类数量指标质量指标绝对数指标相对数指标平均数指标指标体系 具有内在联系的一系列指标所构成的整体,即称为指标体系 。
分类社会指标体系经济指标体系科技指标体系基本统计指标体系是针对某项社会经济问题而制定的专项指标体系,如工业经济效益指标体系、价格指标体系等。
专题统计指标体系二、总量指标(绝对数指标)
概念总量指标是反映社会经济现象 总规模,总水平 的总和 指标。
( 1)反映国情、国力和企事业单位人、财、物的状况;
( 3)是计算相对指标和平均指标的基础。
( 2)是国民经济宏观管理和企业经济核算的基础性指标,是实行目标管理的工具;
作用分类按反映总体的内容分按反映的时间状态分
( 1)社会总产品,
( 2)增加值,
( 3)国内生产总值( GDP)
按计量单位分国民经济统计中几个重要的生产总量指标标志总量总体单位总数时期总量时点总量实物量劳动量价值量三、相对指标(相对数)
概念相对指标是两个有联系的指标对比的 比值,反映事物的数量特征和数量关系 。
( 1)反映总体内在的结构特征
( 3)反映事物发展变化的过程和趋势。
( 2)用于不同对象的比较评价;
作用种类计划完成相对数结构相对数比例相对数比较相对数强度相对数动态相对数不同时期比 较动 态相对数强 度相对数不同现象比较不同总体比较比 较相对数同一总体中部分与部分比 较部分与总体比 较实际与计划比 较比 例相对数结 构相对数计划完成相对数同一时期比较同类现象比较应用原则
( 1)正确选择对比的基数;
( 2)必须注意统计的可比性;
( 3) 相对指标要与总量指标相结合 。
四、平均指标(平均数)
概念平均指标反映同类现象的 一般水平,是总体内各单位参差不齐的标志值的 代表值,也是对变量分布 集中趋势 的测定 。
数据集中区变量 xx
常用的几种平均数概 念 计算 公 式 特 点优点:①容易理,
便于计算
②灵敏度高
③稳定性好

和缺点:①易受极值影响
②在偏斜分布和
U形分布中,
不具有代表性
1,算术平均数
( )
标志总量与总体单位总数的比值 n
xx i
i
ii
f
fxx

简单:
加权:
0 xx
最小 2xx
x
常用的几种平均数概 念 计算 公 式 特 点优点:①灵敏度高
②在某种不能计算的条件下,可以代替缺点:①不易理解
②易受极值影响
③有,0”值时不能计算
2,调和平均数
( )
标志值倒数平均数的倒数简单:
加权:
Hx
i
H x
nx
/1
iXi
i
H m
mx
/?

常用的几种平均数概 念 计算 公 式 特 点优点:灵敏度高
② 受极值影响小于 和
③ 适宜于各比率之积为总比率的变量求平均缺点,① 有,0”或负值时不能计算
② 偶数项数列只能用正根
3,几何平均数
( )
几个变量值连乘积的几次根简单:
加权:
Gx
n iG xx
if ifiG xx
常用的几种平均数概 念 计算 公 式 特 点
4,中位数
( Me)
标志值由小到大顺序排列中居中间位置的标志值位置平均数上限公式:
下限公式:
if SmfUMe
m
1/ 2
if SmfLMe
m
1/ 2
优点:①容易理解,
②不受极值影响
③适宜于开口组资料和些不能用数字测定的事物缺点:①灵敏度和计算功能差
②间断数 Me
常用的几种平均数概 念 计算 公 式 特 点
5,众数
( Mo)
分配数列中出现次数最多的标志值位置平均数上限公式:
下限公式:
优点,① 容易理解,
②不受极值影响缺点,① 灵敏度和计算功能差
②稳定性差
③ 具有不唯一性
idd dUM o
21
2
idd dLM o
21
1
要点解释权数 ( Weighted),是分布数列中的频数或频率 。
对求平均数具有 权衡轻重 的作用,是影响平均数变动的两个因素之一 ( 另一因素是变量值 ) 。
权数例
(1) (2) (3)
X
4
5
6
合计频数 频率 (%)
10
20
10
25.0
50.0
25.0
40 100.0
X
4
5
6
合计频数 频率 (%)
20
40
20
25.0
50.0
25.0
80 100.0
X
4
5
6
合计频数 频率 (%)
20
10
10
50.0
25.0
25.0
80 100.0
x
=5
x =5 x =4.75
调和平均数与算术平均数的区别例频率分布变了,均值也变。因此,严格地说,
权数应指 频率 。
凡是掌握被平均指标的分母资料时,用算术平均法。
凡是掌握被平均指标的分子资料时,用调和平均法。
平均指标分子:标志总量分母:总体单位总数

几何平均等于对数的算术平均 例组矩数列求中位数是用插值法对中位数组分割的结果。 例组距数列求众数是以频数之差计算的比例分割众数组组距的结果。 例价格(元)
3.3
2.5
2.0
合计销售量(斤)
3
4
5
12
543
50.245.233.3



i
ii
f
fxx
元49 2.212 9.29
算术平均求某种商品三种零售价格的平均价格调和平均
10
0.2
110
5.2
110
3.3
1
101010
1


i
i
i
H
m
x
mx
49 4.203.12 30
价格(元)
3.3
2.5
2.0
合计销售额(元)
10
10
10
30
返回例 求 95%,93%,90%的几何平均数
%64.927 9 5 1 5.0%90%93%95 33Gx①
455.8943.7561.8912.83190.0lo g93.0lo g95.0lo g31lo gGx②
%71.92?Gx (计算误差,0.0007)
返回例 (书上例 11的资料)
返回分组,<500 <800 <1100 <1400 <1700 <2000
频数,40 90 110 105 70 50 35
d1=20 d2=5 众数组 800~1100
① 求比例,d1/( d1+d2) =20/( 20+5) =0.8
② 分割众数组的组距,0.8× ( 1100-800) =240(元)
下限公式
③ 加下限,即 M0=800+240=1040(元)
下页返回
500 800 1100 1400 1700 2000
50
100
150
f
(人数)
月收入:元
1040上页
d1 d2
例 (书上例 11的资料)
返回
① 求比例,250-240/( 345-240) =0.095
② 分割中位数组的组距,1400-1100) × 0.095=28.5
下限公式
③ 加下限,即 Me=1100+28.5=1128.5(元)
下页标志值由小到大分组,<500 <800 <1100 <1400 <1700 <2000<
频数,40 90 110 105 70 50 35
累计频数,40 130 240 345 415 465 500
中位数位置,500/2=250
返回
500 800 1100 1400 1700 2000
∑f/2=250
月收入:元
1128.5
累计人数( ∑f) =500
40 130
240
345
415
465
500
上页位置平均数与算术平均数的关系
X
f
X
f
X
f
MoMex
(对称分布 )
MoMex
正偏态分布(右)
MoMex
负偏态分布 (左)
在偏斜不大时 )(2 MexMoMe
xMeMo 23
3
2 xMoMe
2
3 MoMex
12 1 2
x xMe MeMo MoxMeMo
应用平均指标的原则
1.必须是同质的量方可平均;
2.总平均数与组平均数结合分析;
3.根据具体条件选择平均方法;
4.平均数与典型值和分配数列结合分析;
5.集中趋势与离散趋势结合分析某厂职工人数统计表按人数分组
5~ 10
11~ 16
合 计人数(人)
(频数)
比率(%)
(频率)
5
12
3
25.0
51.0
4.0
返回
17~22
20 100
某厂职工人数统计表按人数分组
5~ 10
11~ 19
合 计人数(人)
(频数)
比率(%)
(频率)
5
12
3
25.0
51.0
4.0
返回
20~22
20 100
上海市总人口数( 1980~ 1991)
年 份
1980
年末总人口
1146.52
返回年 份 年末总人口
1981
1982
1983
1984
1985
1986
1987
1988
1989
1991
1990
1162.84
1180.51
1194.01
1204.78
1216.69
1232.33
1249.51
1262.42
1276.45
1283.35
1287.20
0
10
20
30
40
50
60
70
80
90
μú òè μú?tè μú èyè μúè
0
10
20
30
40
50
60
70
80
90
100
μú
ò?

è
μú
t

è
μú
èy

è
μú


è
2?
μú òè
μú?tè
μú èyè
μúè
0
10
20
30
40
50
60
70
80
90
100
0 2 4 6
2?
返回上海市城市居民消费与投资倾向调查问卷尊敬的先生、女士:
我们是上海财经大学的学生。为了积极参与贯彻国家关于扩大内需推动经济增长的方针和理论与实践相结合的教育原则,在老师指导下我们组织了这次千户居民的社会调查。请您给予支持。调查不记名,全部资料用计算机处理,绝对保密和安全,您只需在符合您的情况的答案上打个勾,化费几分钟时间。谢谢!
返回 下页
( 1)您家是否已经拥有下列耐用家电设备
1、□彩电,2、□组合音箱,
3、□ VCD(或 DVD),4、□冰箱,
5、□空调,6、□电脑
( 2)您家的住房是:
1、□租赁公房,2、□有产权公房,
3、□新商品房,4、□其他(请注明)
( 3)您家今明两年是否准备以下项目支出,
1、□购买家电设备 5、□现有住房装修
2、□购买成套家俱 6、□支付子女教育费
3、□购买汽车 7、□国内或国际旅游
4、□购买(或置换)房屋返回 下页上页
( 4)您今明两年不准备上列大项目支出的主要原因是:(选填 3项)
1、□没有必要 5、□售后服务差
2、□经济不宽裕 6、□价格不合理
3、□品牌不中意 7、□其他(请注明)
4、□质量信不过
( 5)您购买商品考虑的主要因素是,
1、□实用价值 4、□品牌
2、□商品质量 5、□售后服务
3、□价格
(请按您认为的重要性□在中写上位序)
返回 下页上页
( 6) 您家平均每月总收入是:
1,□ 500元以下 5,□ 2000~3000元
2,□ 500~1000元 6,□ 3000~5000元
3,□ 1000~1500元 7,□ 5000~8000元
4,□ 1500~2000元 8,□ 8000元以上
( 7) 您家平均每月日常生活费开支是 元
A,其中用于吃 ( 食品 ) 支出大约是 元
( 8) 您认为您家近几年生活水平是
1,□ 2,□ 3,□ 4,□ 5,□
提高很多 略有提高 没有变化 略有下降 下降很多返回 下页上页
( 9) 您收入节余用予以下哪些项? 各项约占多大比重?
1.银行储蓄 ( ) % 4.其他债券 ( ) %
2.国债 (国库卷 ) ( ) % 5.股票 ( ) %
3.基金 ( ) % 6.保险 ( ) %
7.其他 ( ) %
( 10)您存钱的主要目的是,
1,□ 购买设备 4,□ 子女教育
2,□ 购买住房 5,□ 养老防病
3,□ 结婚 6,□ 旅游
( 请按你认为的重要性在 □ 中写位序 )
返回 下页上页
( 11)您是否了解现在推行的信贷消费
1、□不了解,2、□了解一点,3、□了解,
4、□很了解
( 12)您是否打算参加信贷消费,
1、□是,2、□不 (跳过第 13问题)
( 13)您信贷消费的项目是 ( )
(请按第 3题的编号填写)
返回 下页上页
( 14) 您是否同意下列看法,
很同无不很同意所同不意 谓意同意
1、信贷消费不合中国国情
2、信贷消费是资本主义国家的做法
3、信贷消费是先甜后苦
4、借债享受有风险
5、借债消费不光彩
6、信贷消费是现代通行的做法
7、只要量力借贷,有利无害
8、发展信贷消费能促进经济增长返回 下页上页
( 15) 最后,了解一下您的基本情况
A,您的性别,1,□ 男,2,□ 女
B,您的年龄,周岁
C,您的文化程度,1,□ 不识字或识字不多,
2,□ 小学 3,□ 初中 4,□ 高中或中专,
5,□ 大专或大学以上
D,您家庭人口数 人其中 D( 1) 在业 人; D( 2) 离退休 人;
D( 3) 失业,下岗 人;
D( 4) 在校学生 人
E,您的职业 ( 见卡片 )
F,职务返回 上页
0
10
20
30
40
μú
ò?

è
μú
t

è
μú
èy

è
μú


è
÷2?
μú òè
μú?tè
μú èyè
μúè
五、标志变异指标( Dispession)
概念标志变异指标是反映变量分布 离散趋势,与平均指标 相匹配 的指标 。
( 1)反映变量分布的离散趋势;
( 3)是对事物发展均衡性的量度。
( 2)是对平均数的代表性程度的量度;
作用概 念 计 算 特 点数列中最大值与最小值之差1.极差( R)
R=最大值 -最小值 优点:容易理解,计算方便缺点:不能反映全部数据分布状况
2.平均差
( A,D)
各标志值与均值离差绝对值的算术平均
i
i
f
fiXXDA

n
XXDA i简单:
加权:
优点:反映全部数据分布状况缺点:取绝对值
,数字上 不尽合理概 念 计 算 特 点各标志值与均值离差平方的平均 。
方差的平方根
( 取正根 )
3,方差
( σ2 )
和标准差
(σ)
优点:反映全部数据分布状况,
数字上合理 。
缺点:受计量单位和平均水平影响,不便于比较
4.标准差系 数
( Vσ)
标准差与均值之商,是无量纲的系数简单:
加权:
优点:适宜不同数据集的比较缺点:对数据结构变化反应不灵敏


f
fXX
22

n
XX i 22
XV

2
方差( σ2)和标准差( σ)是应用最广的标志变异指标
σ2和 σ的简易计算公式
2222
2 ;,?




n
X
n
X
n
X
n
X iiii简单
222
2 ;:








i
ii
i
ii
i
ii
i
i
z
i
f
fX
f
fX
f
fX
f
fX加权由组方差(或组标准差)求总方差(或总标准差)

N
dSN
K
j
jjj?
1
22
2?总方差
2
1
2
1
)(11 XXNNSNN j
K
j
jj
K
j
j

平均组内方差 组间方差标准差的应用测定分布的偏度

)(3,eo MXSKMXSK 或1.偏度系数
Mox?
SK=0
Mox?
SK>0
Mox?
SK<0
Mo MoMox x x
(对称分布 ) 正偏态分布(右) 负偏态分布 (左)
2.偏度系数 (m3——三阶中心矩 )
定义 M=∑(X-A)k/n为变量 X关于 A的 k阶矩 。 当 A=0,即以原点为中心,上式称为“,K阶原点矩
”。
K=1,2,3时,有,一阶原点矩 M1=∑(X-0)1/n=∑X/n
二阶原点矩 M2=∑(X-0)2/n=∑X2/n
三阶原点矩 M3=∑(X-0)3/n=∑X3/n
当 A=,即以 为中心,上式称为,K阶中心矩”。x x
3
3

m?
K=1,2,3时,有,一阶中心矩二阶中心矩三阶中心矩
0/)( 11 nXXm
nXXm /)( 22
nXXm /)( 33
所以,m3可以测定偏度。为消除量纲,转变为系数
,再除以 σ3。
3
3

m?偏度系数
<0负偏态
=0对称分布
>0正偏态
3
3

m?
计算标准分即将原始分数 X经过线性变换转变为标准分 Z。 反映各原始分的平均数为中心的相对位置 。
)( ZXXXXZ ii
X
O
x
任何原始分在总体中的位置,用 Z倍的 σ来测定。
计算抽样误差(以平均指标为例)
设,样本平均数?
ix
样本平均数的平均数?x
总体平均数?X
)( Xx i实际抽样误差
)()()(
2
为样本数简称抽样误差抽样平均误差 nn Xx ix
)()(
2
加权形式或 f fXx ix
抽样误差就是样本平均数分布数列的标准差。
,Xx
f
fxx i
x


2)(
第五章 参数估计和假设检验推断统计,利用样本统计量对总体某些性质或数量特征进行推断。
随机原则总体参数统计量推断估计参数估计检验假设检验抽样分布抽样分布简单随机抽样和简单随机样本的性质不放回放 回放回不放 回独立性和同一性同一性当 n/N≤5%
时,有限总体不放回抽样等同于放回抽样统计量与抽样分布
统计量:即 样本指标 。
样本均值样本成数样本方差如:
n
XX i
n
nP i
22 )(
1
1 XX
nS i
抽样分布,某一统计量所有可能的样本的取值形成的分布。
性 质 数字特征
0≤P( Xi)?1
∑P( Xi) =1
均值 E( X)
方差 E[x-E(x)]2
方差的平方根即抽样分布的标准差就是推断的 抽样误差。
样本均值的抽样分布(简称均值的分布)
抽样均值均值 μ=∑X
i/N n
xX i
样本均值是样本的函数,故样本均值是一个 统计量,
统计量是一个 随机变量,它的概率分布称为样本均值的抽样分布。
抽 样 方 法 均 值 方 差 标 准差
( 1)从无限总体抽 样和有限总体放回抽样
( 2)从有限总体不放回抽样
xxE )(
xxE )(
nx
2
2
)1(
2
2

N
nN
nx

nx

1?

N
nN
nx

即均值推断的抽样误差和,
1
2

N
nN
nn xx

抽样误差抽样误差从正态总体中抽样得到的均值的分布也服从 正态分布 。
从非正态总体中抽样得到的均值的分布呢?
中心极限定理:无论总体为何种分布,只要样本 n足够大
( n≥30),均值( )标准化为( z)变量,必定服从标准正态分布,均值( )则服从正态分布,即:
x
x
)]
1
(,[~)/,(~),1,0(~
/
2
2

N
nN
n
NXnNXN
n
X
或两个样本均值之差的抽样分布抽样抽样
21 Axx 21
估计
),,( 211 1NX? ),,( 2222NX?
),(~)(
2
2
2
1
2
1
2121 nnNxx

( 1)如:
( 2〕 如果两个总体都是非正态总体,只要 n1,n2足够大,根据中心极限定理,可知:
),(~)(
2
2
2
1
2
1
2121 nnNxx

)]1()1(,[(~)(
2
22
2
2
2
1
11
1
2
1
2121?


N
nN
nN
nN
nNxx

)]1()1(,[(~)(
2
22
2
2
2
1
11
1
2
1
2121?


N
nN
nN
nN
nNxx

样本成数(即比例)的抽样分布(简称成数的分布)
抽样成数成数 P=N
i/N
所有可能的样本的成数( )所形成的分布,称为样本成数的抽样分布。
nnP i /
nPPP?,?,? 21?
抽 样 方 法 均 值 方 差 标 准差
( 1)从无限总体抽 样和有限总体放回抽样
( 2)从有限总体不放回抽样
P
nnEPE i
)/()?(
P
nnEPE i
)/()?(
nPqP /2
)1(2 N nNnPqP?
n
Pq
P
)1( N nNnPqP?
根据中心极限定理,只要样本足够大,的分布就近似正态分布。( np和 nq大于 5时)
抽样误差抽样误差
P?
两个样本成数之差的抽样分布抽样抽样估计当 n1,n2都足够大时,样本成数 都近似服从正态分布,
两个样本成数之差 ( ) 也近似服从正态分布 。
APP 21P1-P2=?
),(~)()1(
2
22
1
11
2121 n
qP
n
qPPPNPP
)]1()1(,[~)()2(
2
22
2
2
1
11
1
11
2121
2


N
nN
n
qP
N
nN
n
qPPPNPP
21?,? PP
21 PP?
一个样本方差的抽样分布抽样若,从一个正态总体中抽样所得到的样本方差的分布
),(~ 2NX n,S
2 则 )1(~/)1( 222 nSn
当 分布趋近于正态分布2,30n
)1(~ 2?nxX若 )1(22 2 nZ?则两个样本方差之比的抽样分布抽样从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。
),(~ 2111NX n1,S1
2 则抽样
),(~ 2222NX n2,S2
2
)1)(1(~// 212
2
2
2
2
1
2
1 nnF
S
SF

参数估计点估计 以样本指标直接估计总体参数。
评价准则的数学期望等于总体参数,即

E
该估计量称为无偏估计。
无偏性 有效性当 为 的无偏估计时,方差 越小
,无偏估计越有效。

2)?(E

一致性对于无限总体,
如果对任意 0>?
0)|?(| nn PL im
则称的一致估计。
是充分性一个估计量如能完全地包含未知参数信息,即为充分量估计量区间估计 估计未知参数所在的可能的区间。
评价准则随机区间置信度 精确度随机区间
1)( ULP <<
)?,?( UL
包含
(即可靠程度
)越大越好。
的概率
)?,?( UL
的平均长度
(误差范围
)越小越好
)?,?( LUE
一般形式
)?()?( △<<△

或总体参数 估计值 误差范围
△,一定倍数的抽样误差
nZx
2

例如:
抽样误差 n/? 一定时,
2?
Z 越大,
x△
概率(可靠性)大; 随之增大,
精确度就差。
抽样组织方式和参数的区间估计待估计参数 已知条件 置信区间 △
正态总体,σ2已知正态总体,σ2未知非正态总体,n≥30
有限总体,n≥30
(不放回抽样)
总体均值
( μ)
nZX /
2

nZX /
2

nStX n /)1(
2?

12?

N
nN
nZX
σ未知时,用 S
σ未知时,用 S
2
22
1
21
2
21 )( nnZXX


)( 21 XX?
21)2(2
11
21 nn
St pnn
2
22
1
21
2
21 )( nnZXX


两个正态总体 2221, 已知两个正态总体 2
221,
未知但相等两个非正态总体,n1,n2≥30
两个总体均值之差
μ1-μ2
待估计参数 已知条件 置信区间 △
无限总体,
np和 nq都大于 5
总体成数
( p)
无限总体,
N1P1> 5,n1q1> 5
N2P2> 5,n2q2> 5两个总体成数之差
( P1-P2)
有限总体,
np和 nq都大于 5
n
qPZP
2

1

2?

N
nN
n
qpZP
2
22
1
11
2
21

)

(
n
qP
n
qPZPP
有限总体,
N1P1> 5,n1q1> 5
N2P2> 5,n2q2> 5 1

1

)

(
2
22
2
22
1
11
1
11
2
21?


N
nN
n
qP
N
nN
n
qPZPP
待估计参数 已知条件 置信区间 △
正态总体总体方差两个正态总体两个总体方差之比
)( 2

2
2
1
2
2
2
2 )1(
,
)1(

SnSn
2221 /
2
1
2
2
2
1
2
2
2
2
1 /,/
F
SS
F
SS
待估计参数 已知条件 置信区间 △
有限总体不放回抽样( n等比例分配于各层)
各层 nh≥30
总体均值
( μ)
有限总体不放回抽样( n等比例分配于各层)
各层 nh≥30
总体成数
(P)
2
1
2
2
2
,)
1
()(
),(
h
h
L
h
st
st
S
N
N
S
N
nN
n
S
XS
XSZX


hh
h
L
h
st
st
qp
N
N
N
nN
n
PS
PSZP

)
1
(
1
)
(
)
(
1
2
2

总体
N
1N
2N
LN
1? 21?
2? 22?
L? 2L?
2?
1n
2n
Ln
21S
22S
2LS
1X
2X
LX
L
h
hNN
1

L
h
h
h
N
N
1

样本
n
2,SX st
L
h
hnn
1

L
h
h
h
st Xn
nX
1
)( stXE均值:
2
1
2
h
L
h
h
N
N
2
1
2
h
L
h
h S
n
nS
平均层内方差:
)1()( 2 NnnSxS st
)1(
2
2 N
n
n
SZX
st
置信区间抽样误差估计待估计参数 已知条件 置信区间 △
有限总体不放回抽样,样本群数
r足够大总体均值
( μ)
有限总体不放回抽样,样本群数
r足够大总体成数
(P)
1
)(
1
1
2
2
r
XX
S
R
rR
r
S
ZX
r
r
i
b
b


rR
rR
r
PP
PS
PSZP
i
)-( 11
)

(
)
(
)
(
2
2

总体群数 R
A
B CD
E
F
G H I
J
K
L
M N
O
P
L
H
P
D
样本群数 r?
b2?
x
bS2
R
i
iR
1
1
r
i
iXrX
1
1)(XE

R
i
ib R
1
22 )(1

r
i
ib XXrS
1
22 )(
1
1估计均值:
群间方差:
置信区间抽样误差
)1()( 2 RrrSXS b
)1(
2
2 R
r
r
SZX

样本数的确定待估计参数 已知条件 样本数的确定?
正态总体,σ2已知总体均值( μ)
例:误差范围简单随机抽样
2
22
2 x
Zn △
有限总体,不放回抽样,
σ2已知 22
2
2
22
2


ZN
NZ
n
x△
2?2
2 p
PqZn △
PqZN
P q NZ
n
p
2
2
2
2
2

总体成数
( P)
服从正态分布有限总体,不放回抽样
P?
xx2 pp?2
待估计参数 已知条件 样本数的确定?
总体均值( μ)
分层抽样总体均值( μ)
整群抽样有限总体不放回抽样,
等比例分配样本
)(
)(
22
2
2
22
2
h
h
x
h
h
N
N
ZN
N
N
N
Z
n



22
22
22
2
2
22
2
)(
1
1
)(
1
xx
r
s
XX
R
ZR
RZ
r
ib
ib
hx
h



有限总体不放回抽样,
服从正态分布X
xx2 1 N nNnx
N
N
N
N hh
h
hh?
222
2h? 未知用 2
hs
未知用2b? 2
bs
案例假设检验基本思想 检验规则 检验步骤 常见的假设检验基本思想
小概率原理,如果对总体的某种假设是 真实 的,那么不利于或不能支持这一假设的事件 A(小概率事件)
在一次试验中几乎不可能发生的;要是 在一次试验 中 A竟然发生了,就有理由怀疑该假设的真实性,拒绝 这一假设。
总 体
(某种假设) 抽样样 本
(观察结果)
检验
(接受) (拒绝)
小概率事件未 发 生小概率事件发 生
假设的形式:
H0——原假设,H1——备择假设双尾检验,H0,μ=μ0,H1,μ≠μ0
单尾检验,H0,μ≥μ0,H1,μ< μ0
H0,μ≤μ0,H1,μ> μ0
假设检验就是根据样本观察结果对原假设( H0)进行检验,
接受 H0,就否定 H1;拒绝 H0,就接受 H1。
检验规则
确定检验规则检验过程是比较样本观察结果与总体假设的差异。差异显著,
超过了临界点,拒绝 H0;反之,差异不显著,接受 H0
差 异 临界点
|| 0?X
<|| 0X
拒绝 H0
接受 H0
c
c
判 断
两类错误接受或拒绝 H0,都可能犯错误
I类错误 ——弃真错误,发生的概率为 α
II类错误 ——取伪错误,发生的概率为 β
检验决策 H0为真 H0非真拒绝 H0 犯 I类错误( α) 正确接受 H0 正确 犯 II类错误( β)
怎样确定 c?
α大 β就小,α小 β就大基本原则:力求在控制 α前提下减少 β
α——显著性水平,取值,0.1,0.05,0.001,等。如果犯 I类错误损失更大,为减少损失,α值取小;如果犯 II类错误损失更,α
值取大。
确定 α,就确定了临界点 c。
① 设有总体,X~N( μ,σ2),σ2已知。
② 随机抽样:样本均值 ),(~ 2 nNX
③ X 标准化,)1,0(~ N
n
XZ

④ 确定 α值,
⑤ 查概率表,知临界值 ||
2
Z
⑥ 计算 Z值,作出判断
2
Z?
2
Z
0
接受区 拒绝区拒绝区当检验判断为接受原假设 H0时,就有可能犯取伪的错误即 II
类错误。犯 II类错误的概率计算:
(1)先求出拒绝 H0的临界值;
(2)再求得在统计量真实的抽样分布下达到临界值的概率 β。
统计中,称不犯取伪错误的概率 1-β为统计检验的能力或效力。
II类错误的概率 β的计算检验步骤建立总体假设
H0,H1
抽样得到样本观察值
1
2
选择统计量确定 H0为真时的抽样分布
3
根据具体决策要求确定 α
确定分布上的临界点 C和检验规则计算检验统计量的数值比较并作出检验判断
7
4
56
几种常见的假设检验条件 检验条件量 拒绝域H0,H1
(1) H0,μ=μ0
H1,μ≠μ0 2
2
z
(2) H0,μ≤μ0
H1,μ> μ0
(3) H0,μ≥μ0
H1,μ< μ
z
Z0
z
Z - 0
n
xZ
0
正态总体 σ2已知条件 检验条件量 拒绝域H0,H1
(1) H0,μ=μ0
H1,μ≠μ0 2
2
t
(2) H0,μ≤μ0
H1,μ> μ0
(3) H0,μ≥μ0
H1,μ< μ
t
t0
t
t - 0
ns
xt 0
2
t?
2
t0正态总体 σ2未知 (n<
30)
条件 检验条件量 拒绝域H0,H1
(1) H0,μ=μ0
H1,μ≠μ0 2
2
z
(2) H0,μ≤μ0
H1,μ> μ0
(3) H0,μ≥μ0
H1,μ< μ
z
Z0
z
Z - 0
2
Z?
2
Z0n
xZ
0
nS
xZ 0
非正态总体
n≥30
σ2已知或未知条件 检验条件量 拒绝域H0,H1
(1) H0,μ1=μ2
H1,μ1 ≠ μ2
2
2
z
(2) H0,μ1 ≤ μ2
H1,μ1 > μ2
(3) H0,μ1 ≥ μ2
H1,μ1 < μ2
z
Z0
z
Z - 0
2
Z?
2
Z0
2
2
2
1
2
1
21
nn
xx
Z

两个正态总体
21? 22,?
已知条件 检验条件量 拒绝域H0,H1
(1) H0,μ1 = μ2
H1,μ1 ≠ μ2
2
2
t
(2) H0,μ1≤ μ2
H1,μ1> μ2
(3) H0,μ1≥ μ2
H1,μ1< μ2
t
t0
t
t - 0
2
t?
2
t0两个正态总体
21? 22,?
未知,
但相等
21
21
11
nn
S
xx
t
p?
2
)1()1(
21
2
22
2
11


nn
SnSnS
p
条件 检验条件量 拒绝域H0,H1
(1) H0,μ1 = μ2
H1,μ1 ≠ μ2
2
2
(2) H0,μ1 ≤ μ2
H1,μ1 > μ2
(3) H0,μ1 ≥ μ2
H1,μ1 < μ2
Z0
z
Z - 0
2
Z?
2
Z0
两个非正态体
n1≥30
n2≥30
21? 22,?
已知或未知
2
2
2
1
2
1
21
nn
xx
Z

2
2
2
1
2
1
21
n
S
n
S
xx
Z
z
z
条件 检验条件量 拒绝域H0,H1
总体服从正态分布 2
2
2 )1(
Sn
2020,H
2021,H
2?
2
)1(2
2
)1(2 nn
2020,H
2021,H
2020,H
2021,H
2?
2?
2 )1(?n
2 )1(1 n
条件 检验条件量 拒绝域H0,H1
总体服从正态分布
22210,H
22211,H
22210,H
22211,H
22210,H
22211,H
2
2
2
2
2
2
2
1
/
/
S
SF?
)1,1(2)1,1(21 2121/1 nnnn FF
)1,1( 21 nnF?
)1,1(1 21/1 nnF?
F
F
F
条件 检验条件量 拒绝域H0,H1
(1) H0,P=P0
H1,P≠P0
2
2
z
(2) H0,P≤P0
H1,P> P0
(3) H0,P≥P0
H1,P< P0
z
Z0
z
Z - 0
2
Z?
2
Z0
np≥5
nq≥5
n
qp
pp
Z
00
0
条件 检验条件量 拒绝域H0,H1
(1) H0,P1=P2
H1,P1 ≠P2
2
2
z
(2) H0,P1 ≤P2
H1,P1 > P2
(3) H0,P1 ≥P2
H1,P1 < P2
z
Z0
z
Z - 0
2
Z?
2
Z0n
1p1≥5
n1q1≥5
n2p2≥5
n2q2≥5
21
2211
21
21
nn
pnpn
p
n
qp
n
qp
pp
Z



案例相关分析回归分析第六章 相关与回归相关和回归分析 是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、
政策评价、预测和控制的重要工具。
主要内容相关分析概念 种类 线性相关变量之间关系函数关系相关关系 因果关系互为因果关系共变关系确定性依存关系随机性依存关系种类一元相关多元相关负 相 关正 相 关 线性相关曲线相关
x
y
正 相 关 x
y
负 相 关 x
y
曲线相关 x
y
不 相 关线性相关相关系数测定两变量是否线性相关?
yx
xyr


yxn
yyxxr

))((
定义式:
未分组:
已分组:




2222 )()( yynxxn
yxxynr




])([])([
))((
2222
yyxx
yxxy
fyfynfxfxn
fyfxfyxnr
值:
|r|=0 不存在线性关系; |r|= 1 完全线性相关
0<|r|<1不同程度线性相关 (0~0.3 微弱; 0.3~0.5 低度;
0.5~0.8 显著; 0.8~1 高度 )
符号,r>0 正相关; r<0 负相关计算公式相关系数的检验( t检验)
检验统计量
21
2||
r
nrt

0:,0 10 HH =:
案例回归分析特点 线性回归 非线性回归回归分析和相关分析的联系和区别
1·理论和方法具有一致性;
2·无相关就无回归,
相关程度越高,回归越好;
3·相关系数和回归系数方向一致,可以互相推算。
1·相关分析中,x与 y对等,回归分析中,x与 y要确定自变量和因变量;
2·相关分析中 x,y均为随机变量,回归分析中,只有 y为随机变量;
3·相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。
线性回归 一元线性回归模型
1·一元线性回归模型的一般形式总体一元线性回归模型的一般形式
Y的数学期望 E( Y) 随机误差
,xYE +)=( 也称一元线性回归方程,是对应于自变量 X
某一取值时因变量 Y的均值。
,未知参数样本的一元线性回归模型和回归方程一元线性回归模型
, ++= xY
, bxaY =
一元线性回归方程 bxay
截距 斜率(回归系数)
回归系数 b表明自变量 x每变化一个单位因变量 y的增(减)量。
b与 r的关系,r> 0 r< 0 r=0
b> 0 b< 0 b=0 x
y
y
x rbbr
;
是理论模型,表明 x与 y两变量之间的平均变动关系。bxay
(实际值):
jjij ybxay
)(
X对 y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。
随机干扰:各种偶然因素,
观察误差和其他被忽视因素的影响。
的理论假定?
2值相互独立服从正态分布的数学期望 E( )= 0
的方差 都相同,且
22 =
x
y
2·一元线性回归模型的确定根据实际数据,用最小平方法,即使,
分别对 a,b求编导并令其为零,求得两个标准方程:
m in)?( 2 yy j
2xbxaxy
xbnay


解联立方程,得到
22
)( xxn
yxxyn
b
n
x
bnya



3·一元线性回归模型拟合优度的评价
判定系数( r2) 是对回归模型拟合优度的评价。
x
y
y
)( 0 yy?
bxay
)?( 0 yy?
)?( yy?
222 )?()?()( yyyyyy
总偏差 = 回归偏差 + 剩余偏差
222
222
)()?(1
)()?(
yyyyr
yyyyr



10
22
2
<< r
yny
ynxybya


r2表示全部偏差中有百分之几的偏差可由 x与 y的回归关系来解释。
2rr? r 的符号同 b
估计标准误( Sxy)
Sxy是二元正态分布中因变量实际值( yj)对估计值(
)离散程度的量度。
iy
2
2
)?(
2
2



n
xybyay
S x y
n
yy
S x y
自由度剩余编差
Sxy 越小,拟合越好;
Sxy 越大,拟合越差。
Sxy也是用自变量对因变量进行区间估计的抽样误差。
y
y
68.27% 94,45% 99.73%
4·一元线性回归模型的显著性检验
回归系数 b的检验 设总体回归系数为 β
H0,β=0; H1,β≠0
n≥30时检验统计量
b
bZ
( β=0)
σb是样本回归系数抽样分布的标准差。通常是未知的,用其估计量 代替

b?
32
2
2
2 2/)(
)(
xnx
nxybyay
xx
xyS
b


)(?
给定显著性水平 α,查 Z
表可知其临界值 。
n< 30时
b
bt
( β=0)
给定显著性水平 α,查 t
表可知其临界值 。
2?
Z
)2(2?nt?
0
0
2
Z
2
Z-
)2(2?nt?)2(2?n
t?-
Z
t
回归模型整体的 F检验
H0,R2=0; H1,R2≠0
检验统计量
)(自由度剩余偏差自由度回归偏差
2/)?(
1/)?(
/
/
2
2


nyy
yyF
2
2
1
)2(
r
nrF

F
),( mnF?
检验假设
0:0
00
2
1
2
0
10
RHRH
HH
,=:或
:,=,
案例
5·应用一元回归模型进行区间估计
n≥30时给定 x0,y0的置信度( 1-α)的置信区间为:
S x yZbxa
2
0 )(
S x yZyy
2
0

n< 30时
2
2
0
)2(
2
0
2
2
0
)2(
2
0
)(
)(1
1)(
)(
)(1
1
xx
xx
n
S x ytbxa
xx
xx
n
S x ytyy
n
n




x
y
bxay
X0 x0
给定的 x0越接
,y值估计的精确度越高。
x
平均值估计
2
2
0
)2(
2
0
2
2
0
)2(
2
0
)(
)(1
)(
)(
)(1
xx
xx
n
Sx ytbxa
xx
xx
n
Sx ytyy
n
n




n< 30时特定值估计线性回归 多元线性回归模型
1·多元线性回归模型的性质 与模型的确定
nn xxxy?22110?
二元线性回归模型:
总体多元线性回归模型的一般形式
22110? xxy
Y的数学期望 E( Y) 随机误差
,22110 xxYE ++)=( 表明自变量,21 xx、
共同变动引起的 Y 的平均变动。也称总体的二元线性回归方差。
0?
1?
1x 2x常数项,和 Y构成的平面与 Y轴的截距偏回归系数,表示在 固定时 每变化一个单位引起的
Y的平均变动;
1x2x
案例
2?
偏回归系数,表示在 固定时 每变化一个单位引起的 Y的平均变动; 2
x1x
随机误差,其理论假定与一元线性回归模型中的 一样。
在多元回归模型中,还要求各自变量之间不存在显著相关,或高度相关也即不得存在多重共线性。
样本多元线性回归模型的一般形式
nn xbxbxbay 2211
二元线性回归模型为,
2211 xbxbay
其数学期望
2211 xbxbayE)(
也称样本(或估计的)二元线性回归方程。
二元线性回归方程的确定根据实际资料,用最小平方法,即使
,分别对 a,b1,b2求编导并令其为零,求得三个标准方程:
最小 2)?( yy j
)?( 2211 xbxbay
2
2221122
212
2
111
2211
xbxxbxayx
xxbxbxayx
xbxbnay
j
j
j



解此联立方程便可得到 a,b1,b2。
2·多元线性回归模型的判定系数和估计标准误
判定系数
2
2
2
)(
)?(
yy
yyr
j

总偏差回归偏差
22
2
2211
)(
)(
yny
ynyxbyxbya
j
jjj

0< r2< 1
修正的判定余数:
1
1)1(1 22


pn
nrr
估计标准误( Sy( x1,x2) )
3
)?( 2
),( 21?

n
yyS j
xxy 3
2211

n
yxbyxbyay jjjj
r2和 Sy( x1,x2) 都是对回归模型拟合优度的评价指标。
Sy( x1,x2) 也是用自变量对因变量进行区间估计的抽样误差。
3·多元回归模型的显著性检验
对偏回归系数的 t检验
H0,β1=0,H1,β1≠0; H0,β2=0,H1,β2≠0。
检验统计量:
2
2
1
1? ||||,? ||||
bb
btbt


2
2211
2
22
2
11
2
22
),(1 )])(([)()(
)(?
21 xxxxxxxx
xxS
xxyb

2
2211
2
22
2
11
2
22
),(
2
2 )])(([)()(
)(?
21 xxxxxxxx
xxS
xxyb

按显著性水平 α和自由度 ( n-3)查 t表可得到临界值 )3(
2
nt?
t
0 )3(
2
nt?)3(
2
nt?
模型整体的 F检验检验统计量:
)1/()(
/)?(
)1/(
/
2
2


knyy
kyy
kn
kF
j剩余偏差回归偏差 ( k—自变量个数)
)3/()(
2/)?(
2
2


nyy
yyF
j )1(2
)3(
)3/()1(
2/
2
2
2
2
r
nr
nr
rF


或按给定的 α和自由度( 2)
和( n-3)查 F表可得到临界值 F
α
)( mnF,?
)( 3,2?nF?
4·多元回归中的相关分析
复相关:指一个因变量同多个自变量的相关关系。
复相关系数恒取正值。
2
2
2
12 )(
)?(
yy
yyrr
j
ny

偏相关(净相关)指各个自变量在其他自变量固定不变时,
单个变量同因变量的相关关系。
计算偏相关系数需借助相关系数矩阵表的资料。
二元回归中的相关系数矩阵表
y
y
x1
x1
x2
x2
ry1
ry2 r12
1.00
1.00
1.00
x1与 y的偏相关系数:
2
12
2
2
1221
)2(1
)(1)(1 rr
rrr
r
y
yy
y


x2与 y的偏相关系数:
2
12
2
1
1212
)1(2
)(1)(1 rr
rrr
r
y
yy
y


案例
5·应用多元回归方程进行区间估计
Y的平均值的区间估计
Y的特点值的区间估计式中,是即区间估计的抽样误差。
0213
2
0
^
0 CXXStYYE yn ),()=( )(
021 CXXS y ),(
^Y 的抽样分布的标准差,
0213
2
0
^
0 1 CXXStYY yn ),(= )(?
式中,
021 1 CXXS y?),(
是 ^Y 的抽样分布的标准差,
即区间估计的抽样误差。
非线性回归模型当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。例如:
双曲线:
x
bay
a> 0 b> 0
a> 0 b<0
x
x
y y
指数曲线,y=aebx b> 0b<0
xx
y y
幂函数曲线,y=axb
a> 0 b> 0
x
y
b<1
b=1b>1
曲线模型的判别方法,理论和经验判断;
观察散点图曲线模型的确定方法:
通常用变量代换法将曲线转换为直线。按线性模型求解参数,
而后再变换为曲线模型。
例如:双曲线模型
x
bay 1
'?,1' bxay
x
x 则有令指数曲线模型
bxaey
x
ex
bxayLnaaLnyy

'
'''''
,,则有令第八章 时间数列时间数列(动态数列) 是 指标数值 按 时间顺序 排列而形成的数列。
例,上海市人均国内生产总值年份 人均 GDP(元 /人)
1991 6955
1992 8652
1993 11700
1994 15204
1995 18943
1996 22275
1997 25750
91 92 93 94 95 96 97

10000
15000
20000
25000
5000
实例时间数列的作用反映社会经济现象发展变化的过程和特点;
研究现象发展变化的规律和未来趋势;
不同地区、国家发展状况的比较评价和预。
本章主要内容时间数列的种类和编制方法常用的动态指标时间数列的分解和测定时间数列的预测方法时间数列的种类和编制方法一、时间数列的种类
1.按指标形式分绝对数数列相对数数列平均数数列时期数列时点数列
2.按观察数据性质与形态分随机性数列非随机性数列平稳型趋势型季节型二、时间数列变量和形态的识别识别与判断方法:理论判断、经验判断、图形判断,自相关系数数列判断,差分法判断等。
1、自相关系数自相关指时间数列前后各期数值之间的相关关系。对自相关强度的测定便是自相关系数。
时间延迟为 1的自相关系数,2
11
1
1
2
1
1
11
1
1
1
)()(
))((





tt
n
t
tt
n
t
tttt
n
t
xxxx
xxxx
r
时间延迟为 2的自相关系数,2
22
2
1
2
2
1
22
2
1
2
)()(
))((





tt
n
t
tt
n
t
tttt
n
t
xxxx
xxxx
r
时间延迟为 k的自相关系数:
2
1
2
1
1
)()(
))((
ktkt
kn
t
tt
kn
t
ktkttt
kn
t
k
xxxx
xxxx
r





2
1
1
)(
))((
xx
xxxx
r
t
kn
t
ktt
kn
t
k

:,,21 上式可简化等都近似 xxxx ttt当 n很大时
( -1≤rk≤1)
2.判别准则
( 1)时间数列所有自相关系数 r1,r2……,rk都近似于零时,该时间数列为随机性时间数列。
r1 r2 r3 r4 r5 r6 r7
0
1
-1 r
r值 原数列y
t
0
( 2) r1较大,r2,r3渐次减小,r4开始趋近于零,表明该时间数列为平稳型时间数列 。
r1 r2 r3 r4 r5 r6 r7
0
1
-1 r
r值 原数列y
t
0
( 3) r1最大,r2,r3等逐渐递减,但不等于零,表明该时间数列为趋势型时间数列。
r1 r2 r3 r4 r5 r6 r7
0
1
-1 r
r值 原数列y
t0
( 4) r值有周期性变化,每隔几个便有一个高峰,表明该时间数列为季节型时间数列 。
r1 r2 r3 r4 r5 r6 r7
0
1
-1 r
r值 原数列y
t0
1季度 2季度 3季度 4季度三、回归模型的自相关检验用时间数列建立的回归模型能否成立,必须通过误差项的自相关显著性检验才能作出判断。
0:;0,10 HH
1·构造置信度为( 1- )的自相关系数的置信区间
nZ
10
2

如果延滞为 1,2,···,K的自相关系数大部分都落在置信区间内,便可接受原假设,认为误差项为独立的随机变量。
四、编制时间数列的方法原则
1.注意时间单位(年、季、月等)的选择;
2.注意数列前后指标的可比性(总体范围、指标涵义、计算方法、计量单位、经济内容等)。
2·杜宾-沃森检验( Duibin- Watson Test)
检验统计量

n
i
t
n
i
tt
e
ee
d
1
2
2
2
1 )(
根据样本容量 n和自回归阶数
K,查 D·W统计量临界值表。
检验规则图示,正自相关不能确定负自相关不能确定无自相关
dL dU 4-dL4-du2
若 d值落在,不能确定”范围时,应增加样本容量或重新抽样检验。
常用的动态指标水平动态指标
1·序时平均数 naa
i /
(平均发展水平指标)
计算公式适用于时期总量指标和按日连续登记的时点指标数列。
说明
1
2
1
2
1
121

n
aaaa
a
nn?
适用于不连续登记、间隔相等的时点指标数列

243121 22( f
aafaaa
)2 11 nnn faa?
)( 121 nfff?
适用于不连续登记间隔不相等的时点指标数列。
分子 和分母 按各自数列的指标形式参照上述求序时平均数。bac /?
常用的动态指标水平动态指标
2·增长量计算公式逐期增长量。
说明水平法适用于多期增长量平稳变化的数列总和法适用于各期增长变化较大的数列 。
1 tt aa△
0aa n△ 累计增长量
3·平均增长量
naa n /)( 0△
)1(
)(2 0

nn
aa t△
常用的动态指标速度动态指标
1·发展速度计算公式环比发展速度。
说明水平法-各环比发展速度的几何平均数。
定基发展速度
2·平均发展速度
11
2
0
1,,,
n
n
a
a
a
a
a
a?
00
2
0
1,,,
a
a
a
a
a
a n?
11
2
0
1

n
n
n
a
a
a
a
a
a
x
0a
an
n
0
32
a
axxxx in方程法可查,平均发展速度查对表,。
3·(平均)增长速度=(平均)发展速度- 100%
时间数列的分解和测定一、时间数列的构成与分解
1.社会经济指标的时间数列包含以下四种变动因素:
( 1)长期趋势( T)
( 2)季节变动( S)
( 3)循环变动( C)
( 4)随机变动( I)
可解释的变动
——不规则的不可解释的变动
2.时间数列的经典模式:
( 1)加法模型,Y=T+S+C+I
计量单位相同的总量指标是对长期趋势所产生的偏差,( +)或( -)
( 2)乘法模型,Y=T·S·C·I
计量单位相同的总量指标是对原数列指标增加或减少的百分比
3.变动因素的分解:
( 1)加法模型用减法。例,T=Y-( S+C+I)
( 2)乘法模型用除法。例,T=Y/( S·C·I)
二、长期趋势( T)的测定
(一)修匀法:
1、随手法
2、时距扩大法和序时平均法
3、移动平均法例奇数偶数 例移动项数新数列项数=原数列项数-移动项数+ 1(二)长期趋势的数字模型
(以时间 t为自变量构造回归模型)
btay
2? ctbtay
taby
tabky
t- 时期数按序随意编制 例
)(? tfy?步骤:
选择趋势模型求解模型参数对模型进行检验 用自相关系数检验 误差项的随机性。
图形判断、差分法判断,经验判断、
自相关系数数列判断等。
例 差分法,时间数列相继数值的差异。
如:一级差分 (逐期增长量 )的结果大致相同。则配模型 btay
如:二级差分的结果大致相同。则配模型 2? ctbtay
如:相继两期水平 (环比发展速度 )的比值相同。则配模型 taby
最小平方法,求参数。 ttt yy?,
计算估计标准误 mn yyS tty 2)?(
求置信区间
m为模型中的参数
0)(2/
cstyy
ymntt
ytt szyy 2/
小样本大样本返回原数列 新数列
y1
y4
y2
y3
y5
y6
1a
2a
3a
4a
原数列 新数列
y1
y4
y2
y3
y5
y6
1a
2a
3a
1b
2b
时间 时期数 数列
t1
t2
t3t4
t5
t6
t7
1
2
34
5
6
7
y1
y2
y3y4
y5
y6
y7
时间 时期数 数列t1
t2
t3t4
t5
t6
t7
-3
-2
-10
1
2
3
y1
y2
y3y4
y5
y6
y7
时间 时期数 数列t1
t2
t3t4
t5
t6
-5
-3
-11
3
5
y1
y2
y3y4
y5
y6
三、季节变动的测定( S)
(一)按月(或按季)平均法
(二)长期趋势剔除法
1.趋势模型增量剔除法。
2.移动平均趋势剔除法。
例例四、循环变动的测定方法:残余法。
从数列中消除( T)
Y/T=S·C·I
从余值中消除( S)
S·C·I/S=C·I
从余值中消除( I)
即移动平均,得到 C
五、不规则变动的测定:
从 CI中消除( C)
CI/C=I
时间数列的预测方法一、趋势外推法运用长期趋势模型,给定时间变量,外推指标值。
选择趋势模型例:
2210? tbtbby t
求解模型参数
bo,b1,b2
对模型进行检验用自相关系数检验误差项的随机性。
计算估计标准误
mn
yyS tt
y?
2)?(
求置信区间
2/?
2
0 nnSty y?
对模型的有效性检验。
上页 下页返回
1y
实际值:
估计值:
误差项:
1?
2y 3y my
^
1y
^
2y
^
3y
^
my
.,,
.,,
2? 3? m?
.,,
判断
^
ttt yy是否属于随机误差?
如果自相关系数
1r 2r 3r nr
.,,
都接近于零。则
t?是随机误差,该模型有效。
检验方法:
1·对 1r 2r 3r nr.,,
分别进行检验,检验量:
21
2||
r
nrt

2·如果是大样本,则可构造置信度为?-1 的置信区间
nrn k
196.1196.1
1r 2r 3r nr
.,,
都落在该区间内,可判断
t?为随机误差。
若选择自回归模型例:
410? tt ybby
求解模型参数
bo,b1
代入前期数值预测后期数值
(按第六章 进行回归模型系统分析)
要点说明:
1·自回归模型的选择二、自回归预测法对显著自相关的时间数列,可建立自回归模型通过前期数值预测后期数值。
线性和非线性分为一级、二级,···,n级





ntnttt
ttt
tt
ybybybby
ybybby
ybby
22110
^
22110
^
110
^
一级线性自回归二级线性自回归
n级线性自回归三,移动平均和指数平滑法
(一)移动平均法对于平稳型时间数列可取最近 n期数值的算术平均作为后期的预测值。
简单形式:
n
yyyy
y
n
yyy
y
ntttt
t
nttt
t
121
1
21




122110^ ttt ybybby 二次曲线自回归模型对自回归模型有效性检验误差项 ^
ttt yy
的随机性检验作出判断。
D·W检验统计量

n
i
t
n
i
tt
e
ee
d
1
2
2
2
1 )(
加权形式:
( f1> f2> f3… > fn)
(二)指数平滑法(由移动平均法演变而来)
n
yyyy
y
n
yyy
y
ntttt
t
nttt
t
121
1
21




n
y
n
yyyy
n
y
n
yyyyyy
ntntntttt
ntntntttt





)(
)(
121
121
)
1
(?)1(
/
代入以
n
yy
n
y
yny
tt
t
tt



n
fyfyfyfy
y
f
fyfyfy
y
nntttt
t
i
nnttt
t




132211
1
2211
1ty 是本期实际值与本期预测值的加权算术平均数或
)?( 1 ttttttt yyyyyyy
也可以是本期预测值经过误差修正后的数值。
1ty
( 0< α< 1)
季度年份第一年第二年第三年三年合计同季平均数季节指数%
全 年
12个季度合计
12个季度平均
100%
一 二 四三返回季度
( 2)趋势增量
( 1)同季平均数
( 4)季节指数%
平 均
12个季度平均
100%
一 二 四三返回
( 3) =( 1)-( 2) 总平均(无趋势)
概 念总指数的编制指数的因素分析指数的应用案 例第九章 指数指数 ( Index Number)是研究现象 差异或变动 的重要统计方法。它起源于 18世纪欧洲关于物价波动的研究。至今,已被广泛应用于社会经济生活各方面;一些重要的指数已成为社会经济发展的晴雨表。
主要内容概念概念广义指数:
狭义指数:
反映现象数量差异或变动程度的相对数。
例如,动态相对数,比较相对数、计划完成程度相对数。
反映不能直接相加的复杂现象综合变动程度的相对数。
例如,零售物价指数,消费价格指数、股价指数。
反映复杂的社会经济现象总体的综合变动;
测定现象总变动中各个因素的影响;
对多指标复杂现象综合测评。
作用:
按对象的范围分按指标的性质分按采用的基期分个体指数组指数总指数种类:
数量指标指数质量指标指数定基指数环比指数总指数的编制一、综合指数概念:
综合指数是总指数的 基本形式 。它是通过引入一个 同度量因素将不能相加的变量转化为可相加的总量指标,而后对比所得到的 相对数 。
综合指数指数化因素 × 同度量因素指数化因素 × 同度量因素总量指标总量指标= =
所要研究其变动程度的两个时期的某一经济变量引入一个同一时期的经济量,
起到媒介或权数的作用综合指数平均数指数综合指数的编制
1、数量指标的综合指数(例:销售量指数)
00
01
00
01
Pq
Pq
Pq
Pq


销售量指数报告期和基期的销售量,为指数化因素基期价格作为同度量因素基期实际销售额以基期价格计算的报告期销售额该指数说明多种商品 销售量的综合变动程度 。
分子、分母之差:
0010001 )( PqqPqPq
说明由产量变动带来的销售额的增(减)量
2、质量指标的综合指数(例:价格指数)
10
11
10
11
qp
qp
qp
qp


价格指数报告期和基期的价格
,为指数化因素报告期销售量作为同度量因素报告期实际销售额以报告期销售量计算的基期销售额该指数说明多种商品 价格的综合变动程度 。
分子、分母之差:
说明由价格变动带来的销售额的增(减)量。
1011011 )( qPPqPqP
3、其他形式的综合指数公式拉氏公式:
00
01
00
01 ; qPqPPqPq
派氏公式:
10
11
10
11 ; qPqPPqPq
马竭尔 —艾奇沃斯公式:
2/)(
2/)(
100
101
qqP
qqP


费暄的,理想公式”:
10
11
00
01
qP
qP
qP
qP

固定价格的物量指数:
n
n PqPq
0
1
n
n qPqP
0
1
固定物量的价格指数:
编制综合指数的一般方法原则:
( 1)同度量因素与指数化因素相乘后必须是有实际经济意义的总量指标;
( 2)数量指标指数以质量指标为同度量因素;质量指标指数以数量指标为同度量因素;
( 3)同度量因素的固定时期必须以指数的经济意义为依据。
二、平均数指数是以总量指标为权数对个体指数进行加权平均的总指数。
概念:
编制方法
1、加权算求平均数指数通常用来计算数量指标指数(如销售量指数)
00
00
00
00
qP
qPK
qP
qPKK
q
q
q

销售量个体指数 与销售量个体指数相对应的销售额占总销售额的比重
0
1qq
2、加权调和平均数指数通常用来计算质量指标指数(如价格指数)
价格个体指数 与价格个体指数相对应的产品销售额占总销售额的比重0
1 pp
11
1
0
11
11
111
1
qP
P
P
qP
qP
qP
K
K
P
P



00
01
00
00
0
1
Pq
Pq
pq
pqqq
K q


10
11
11
1
0
11
Pq
Pq
pqqq
pqK
q?



10
11
11
1
0
11
qP
qP
qPPP
qPK
P?


00
01
00
00
0
1
qP
qP
qP
qPPP
K P


销售量指数价格指数比较:用哪种公式好?
实际工作中,常采用相对固定的权数。
wK
wK
w
wKK
P
P
q
q 1;


,PqPqww 即 某个经济发展较稳定时期的产值或销售额的结构。
性质 资料 计算方法 差额分析综合指数平均数指数狭义指数广义指数全面资料样本资料先综合后对比先对比后综合分子、分母之差为总量差异有经济意义分子、分母之差,不形成实际总量,无经济意义总平均数指数广义指数分组资料三种形式的总平均数对比自成体系分子、分母之差为平均数差异,有意义指数的因素分析一、总量指标指数的因素分析
1、方法,这是利用综合指数的指数体系进行的因素分析。
构造有实际经济意义的指标体系:
分析对象,S=A·B (因素指标)
将指标体系转换为指数体系:
0
1
0
1
0
1
B
B
A
A
S
S
分析某一因素变动影响时,将其他因素固定:
分析相对变动影响时,也分析绝对差额影响:
方法步骤
(A1-A0) B0 ; (B1-B0) A1
A1 B0 A1B1
A0 B0 A1B0
______ ; _____
2、举例两因素分析产 值 =产 量 × 价 格(资料见书 P347)
产值指数 =产量指数 × 价格指数
01
11
00
01
00
11
Pq
Pq
Pq
Pq
Pq
Pq


101001
011100010011
)()(
)()(
qPPPqq
PqPqPqPqPqPq


指数体系代入资料计算得到,180%=137.14%× 131.25%
224=104+120 (万元 )
注意,( 1)固定因素时期的选择要满足平衡的要求;
( 2)因素的排序要使相邻两变量能分能合。
S= A · B · C ;
D · C
或 S= A · B · C
A · E
原材料支出总额指数 =产量指数 × 单耗指数 × 原材料单价指数原材料支出总额 =产 量 × 单 耗 × 原材料单价
1101
01010001000111
011
111
001
011
000
001
000
111
)(
)()(
mqPP
PqmmPmqqPmqPmq
Pmq
Pmq
Pmq
Pmq
Pmq
Pmq
Pmq
Pmq


代入资料计算得到:
108.53%=109.17%× 88.37%× 112.50%
2420=2600-3600+3420(万元)
指数体系多因素分析二、平均数指标指数的因素分析
1。特点:
总平均数指数是对总平均指标变动程度的测定
( 1)属于广义指数;
( 2)以组平均数为基础,突出结构因素;
( 3)有三种形式。
可变构成指数 固定构成指数 结构变动影响指数
2、例,某煤矿公司劳动生产率总指数 (资料见书 P.344)
( 1)可变构成指数(包含组平均数变动和结构变动双重影响)
0
0
0
1
1
1
0
00
1
11
0
1
T
Tq
T
Tq
T
Tq
T
Tq
q
q


公司各矿井报告期和基期劳动生产率报告期和基期各矿井工人数所占比重
)/(2777.028.05577.0
%18.199
28.0
5577.0
0
00
1
11
0
00
1
11
人千吨

T
Tq
T
Tq
T
Tq
T
Tq
即双重因素影响的公司平均每个工人的增产量。
( 2)固定构成指数(只反映各组平均数变动影响)
1
1
0
1
1
1
1
10
1
11
0
1
T
Tq
T
Tq
T
Tq
T
Tq
q
q


各矿井报告期、基期劳动生产率
%62.1 7 23 2 3 1.0 5 5 7 7.0
1
10
1
11
T
Tq
T
Tq代入资料计算代入资料计算
)/(2 3 4 6.03 2 3 1.05 5 7 7.0
1
10
1
11 人千吨

T
Tq
T
Tq
即由于各矿井劳动生产率平均变动带来的公司平均每个工人的增产量。
( 3)结构变动影响指数代入资料计算
0
0
0
1
1
0
0
00
1
10
0
1
T
Tq
T
Tq
T
Tq
T
Tq
q
q


报告期和基期各矿井工人所占比重
%39.11528.0 3231.0
0
00
1
10
T
Tq
T
Tq
)/(0 4 3 1.028.03 2 3 1.0
0
00
1
10 人千吨

T
Tq
T
Tq
即由于公司工人数结构变动带来的公司平均每个工人的增产量。
三个指数的关系:
可变构成指数 =固定构成指数 × 结构变动影响指数
%39.115%62.172%18.199
///
0
00
1
10
1
10
1
11
0
00
1
11






T
Tq
T
Tq
T
Tq
T
Tq
T
Tq
T
Tq
)/(0438.02346.02784.0
0
00
1
10
1
10
1
11
0
00
1
11
人千吨


T
Tq
T
Tq
T
Tq
T
Tq
T
Tq
T
Tq
劳动生产率变动的差额:
三、将综合指数同平均数指数结合进行多因素分析。
混合型因素分析例,某煤矿公司产量增长因素分析。(资料见书 P.351)
煤产量指数 =劳动生产率指数 × 工人人数指数
00110101
00
10
10
11
00
11
0
1
)()( qTTTqqQQ
Tq
Tq
Tq
Tq
Tq
Tq
Q
Q







代入资料计算得到:
207.14%=199.18%× 104%
1500=14440+560(千吨)
式中的
01 qq
即劳动生产率可变构成指数
)()(
0
00
1
10
1
10
1
11
0
00
1
11
01 T
Tq
T
Tq
T
Tq
T
Tq
T
Tq
T
Tqqq



代入产量指数分解式:
00
10
1
1
0
0
0
1
1
0
1
1
0
1
1
1
0
1 )(
Tq
Tq
T
T
T
Tq
T
Tq
T
Tq
T
Tq
Q
Q



00
10
10
10
10
11
Tq
Tq
Tq
Tq
Tq
Tq





)(
)()(
0010
1010101101
TqTq
TqTqTqTqQQ


代入资料计算得到:
207.14%=176.62%× 115.39%× 104%
15000=12200+2240+560(千吨)
指数的应用一、居民消费价格指数
1、是关系国计民生最重要的一种指数;可用于分析居民实际收入水平的变化,也是国民经济核算和宏观经济分析与决策的重要指标 ;
2、采用加权算术平均方法,由代表商品个体指数逐级加权平均为总指数。即由基本分类指数,再中类、大类,最终由各大类指数加权平均为城市(或农村)居民消费价格总指数;
3、关键问题:商品分类,代表品选择,价格采集,权数确定等。
(一)居民消费价格指数的编制方法指数的应用
1、测定通货膨胀率(%) 计算期居民消费价格
(二)居民消费价格指数的应用(举例)
= _____________________
基期居民消费价格指数 × 100- 100
2、测定货币购买力和职工实际工资的变动;
货币购买力指数 = _____________________1
居民消费价格指数职工实际工资指数= 职工平均工资指数 /居民消费价格指数
= 职工平均工资指数 × 货币购买力指数
3、计算商品需求的价格弹性系数等。
指数的应用二、股票价格指数
1、道 ·斯股价平均数
2、标准 ·普尔股价指数
3、香港恒生指数
4、上海证交所股份指数
5、深圳证交所 股份指数三、工业经济效益综合指数
(一)多指标综合评价的概念和方法多指标综合评价法就是将多个指标合成为一个综合数值的方法。
三个关键问题:
1、构建一个科学合理的评价指标体系;
指数的应用
2、指标的无量纲处理;
3、确定各指标在合成中的权数。
(二)工业经济效益综合指数我国现行的工业经济效益综合指标包括:
1、总资产贡献率; 2、资本保值增值率; 3、资产负债率;
4、流动资金周转率; 5、成本费用利润率;
6、工业全员劳动生产率; 7、产品销售率。
第七章 非参数统计主要内容非参数统计 (亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。
主要特点
( 1)不要求总体分布已知或对总体分布作任何限制性假定;
( 2)不以估计总体参数为目的;
( 3)能用于定性变量(即定名测定和序列测定的变量);
( 4)方法直观,易于理解,运算比较简单。
( 5)缺点是检验的功效不如参数检验方法。
χ2检验成对比较检验曼 —惠特尼 U检验游程检验等级相关检验多个样本的检验
χ2检验一、什么是 χ2检验
χ2检验是运用 χ2分布作为理论工具,在非参数统计中可用于对总体的分布或随机变量的独立性进行的检验。
(一) χ2分布
χ2分布是由正态分布推导出来的一种连续型随机变量的概率分布
1、数学形式:
设随机变量 x1,x2,…,xk相互独立且都服从正态分布 N( μ,σ2
)。将它们标准化转变为标准正态变量 Z1,Z2,…,Zk,k个独立标准正态变量的平方和被定义为 χ2分布的随机变量 χ2。
2
1
2
1
2
222212
)(
1
)()()(
i
k
i
i
k
i
k
Zx
xxx





χ2~χ2(k),k是自由度,表示定义式独立变量的个数。
当 k=1时,222 )( Zx

2,χ2分布的性质
( 1) χ2分布的值恒为正值
( 2) χ2分布的数学期望是自由度 k,方差为 2k;
( 3) χ2分布取决于自由度 k,随着自由度增大而趋于对称。
一般当 k≥30时,χ2分布可用正态分布近似计算。
k=1 k=5
k=15
k=3?(χ2)
χ2 (k)
(二) χ2检验的原理在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以 判断实际结果与理论是否一致 。
设有 k个观察值,f0为它们的实际频数,fe为理论频数。 构造一个统计量
)(/)( 2
1
2 为自由度kfff
eeo
k
i

数理统计证明,在大量试验中,若 f0与 fe相一致时,χ2服从 χ2分布。
( f0-fe)比较小时,χ2值也较小;( f0-fe)比较大时,χ2也较大。当 χ2值大到按 χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。
(χ2) k=4
α=0.05
χ2 0.05(4)
=9.488
例 1 (P.258)
χ20
1、拟合优度检验二、应用这是利用随机样本资料对总体是否服从某种理论分布的检验检验步骤
( 1)对总体分布建立假设
H0:总体服从某种理论分布
H1:总体不服从该理论分布
( 2)抽样并对样本资料编成频数分布( f0)
( 3)以“原假设 H0
为真”导出一组期望频数( fe)
( 4)计算检验统计量
χ2=∑(f0-fe)2/fe
( 5) χ2=∑(f0-fe)2/fe 给定的 α查 χ2表,得到临界值
( 6)比较 χ2值与临界值作出检验判断注意事项
( 1)各组理论频数 fe不得小于 5
,如不足 5,可合并组;
( 2)为使组数不致太少,总频数 n> 50;
( 3)根据具体情况确定自由度。
2、独立性检验二、应用是利用样本资料对总体的两个变量的数据是否彼此关联的检验,
如果不关联,即为独立。
检验步骤
( 1)对总体的两个变量建立假设
H0:两变量独立
H1:两变量关联
( 2)将样本资料编成 r× c列联表,并列出实际频数 Oij
( 3)计算理论频数
( 4)计算检验统计量
( 5) 给定的 α查 χ2表,
得到临界值
( 6)比较 χ2值与临界值作出检验判断
2
11
2 )(
ij
ijijc
j
r
i E
EO

n
nnE ji
ij?
要点说明
列联表形式( r× c)
O11
O21
O31
.
.
.
Or1
O12
O22
O32
.
.
.
Or2
O13
O23
O33
.
.
.
Or3



.
.
.

O1c
O2c
O3c
.
.
.
Orc
O1
O2
O3
.
.
.
Or
1
2
3
.
.
.
r

( r)
列( c)
1 2 3 … c
x
y 合计
n.1 n.2 n.3 … n.c n合计
X的边缘频数
y的边缘频数
理论频数 Eij的计算先求理论频率(作为概率的近似)。概率论中关于概率独立的基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,P( A·B) =P( A) ·P ( B)。因此,某一行某一列的联合概率:
n
n
n
njiP ji),( 的概率第
n
nn
n
n
n
nnEn jiji
ij )(,理论频数总频数为?
自由度( df)的确定 df=(r-1)(c-1)
例,r·c=3× 4

√ √ √
√√
○ ○ ○ ○


CT1 CT2 CT3 CT4
RT1
RT2
RT3
n
总行数总列数
r1
r2
r3
Df=(3-1)(4-1)=6
r·c=2× 2的列联表资料,χ2值简算公式
x
y 1 2
1
2
a b
c d
a+c b+d
a+b
c+d
合计合计
n
))()()((
)( 22
dcbadbca
bcadnx


成对比较检验一、符号检验这是略去两组样本数据之差的数值,只用其差的正、负符号进行判断的检验方法,亦称正负号检验。
1、检验内容:检验的两组数据是否有显著差异或两总体的位置特征(均值、中位数)是否相同。
2、适用条件:关联样本资料;定性变量。
3、方法思想:
设有关联样本的两组成对的数据 xi与 yi,比较各对的大小。
若 xi> yi,记作,+”“若 xi< yi,记作,-”
若 xi=yi,删去,并相应减少 n对数据若两组数据没有显著差异,它们之差的“+”、““-”
号的个数应大致相等。出现““+”(或““-”)的概率为 0.5。如果一次抽样的随机样本的配对数据中,,+”号出现过多或过少,在一定显著性水平 α条件下属于小概率事件,
就说明两组数据的平均水平或相对次数分布并不相同。可见,
配对符号检验是二项检验的一种应用。
由于 P=0.5的二项分布呈对称型,所以,只要 n> 25,即可按正态分布近似处理。
4、检验步骤 ( 1)抽样。将样本资料配对比较,计算
( +)、( -)号个数
( 2)建立假设,H0,P=0.5
H1:P≠0.05(双侧)
H1,P(+)> P(-)或 P(+)< P(-)(单侧 )
( 3)计算检验统计量
n≤25时;,+”个数 n
> 25时:
( 4)设定显著性水平
α,查表确定临界值或否定域
( 5)比较并作出判断
n
PZ
5.05.0
5.0?

例 1:随机抽取 13个单位,放映一部描述吸烟有害健康的影片,
并调查得到观看电影前后各单位职工认为吸烟有害的人数的百分比。检验该电影宣传是否有效果( α=0.05)。
单位编号 1 2 3 4 5 6 7 8 9 10 11 12 13
( 1) 放映前 ( % )
( 2 ) 放映后 ( % )
( 3) 差异 ( 2 ) - ( 1)
63
68
+
41
49
+
54
53
-
71
75
+
39
49
+
44
41
-
67
75
+
56
58
+
46
52
+
37
49
+
61
55
-
68
69
+
51
57
+
解,H0,P=0.5 H1,P≠0.5
)5.0,13(,)25.02(05.0 Pn查二项分布表确定拒绝域由
P( 13) =0.000 P( 12) =0.002 P( 11) =0.010 P( 10) =0.035
P( 13) +P( 12) +P( 11) =0.000+0.002+0.010=0.012< 0.025
P( 13) +P( 12) +P( 11) +P( 10) =0.012+0.035=0.047> 0.025
0 1 2 3 4 5 6
可见,拒绝域(双侧)应为 0,1,2,11,12,13。
7 8 9 10 11 12 13
拒绝域 拒绝域现检验统计量( +) =10 (即 10个正号),0.035> 0.025
所以,原假设 H0,P=0.5在 5%显著性水平上不能被拒绝。
也即不能认为职工在观看影片前后的认识有显著差异。
例 2:随机抽取 60名消费者对甲、乙两种品牌的饮料评 分,甲
、乙得分之差为,+”号者 35个,,-”号 15 个,,0”号 10个。以显著性水平 α=0.05检验两种饮料是否同等受欢迎。
解,H0,P=0.5,H1,P≠0.5
∵ n> 25,∴ 按正态分布近似处理该成数抽样分布的均值和标准差分别为
071.050 5.05.0)1(,5.0 n PPSP pp?
82.2
071.0
5.07.0
7.050/35
)(

pS
PP
Z
P
检验统计量号的成数样本
2.82> 1.96,所以,拒绝原假设。认为两种饮料并不受到同等欢迎。且乙种优于甲种。
96.1||,05.0
2
Z双侧检验临界值二、威尔科克森带符号检验(亦称威尔科克森秩和检验)
这种检验方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。因此,是一种更为有效的检验方法。
1、应用条件和检验内容与符号检验相同。
2、方法思想:若关联样本的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号( +)的秩和(记为 T+)与负号( -)的秩和(记为 T-)也应该大致相等。其中之较小者也应趋近于总秩和的平均数( )。若正秩和
( T+)与负秩和( T-)相差太大,其中较小者偏离总秩和的平均( )较远,以致超过给定显著性水平 α所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。
4 )1( nnT
T
3.检验步骤
( 1)将样本数据配对并计算各对正负差值
( 2)按差之绝对数大小排序
(等级 ),并按原正负号计 算正秩和 (T+)与负秩和 (T-)
( 3)建立假设,H0,T+=T-
H1,T+≠T-(双侧 )
H1,T+> T-或 T+< T-(单侧 )
( 4)计算检验统计量当 n≤25时,取 T+,T-中之小者
24/)12)(1(
4/)1(


nnn
nnTZ当 n>25时
( 5)设定 α,并查表确定临界值 Tα(或 Zα/2)
( 6)比较统计量与临界值作出判断,对于 n≤25,T≤Tα,
拒绝 H0; T> Tα接受 H0
曼 —惠特尼 U检验曼 —惠特尼 U检验适用于从两个总体中分别独立抽取两个样本的检验,方法思想与威尔科克森秩和检验相同。
检验步骤:
( 1)从总体 A,B中分别独立抽取样本 nA和 nB,
将( nA+nB)个观察值从小到大编序
( 2〕 分别计算两个样本,的秩和 TA和 TB
( 3)建立假设
H0:两总体 A和 B相对次数分布相同
H1:两总体相对次数分布不同
( 4)计算检验统计量
① nA,nB< 10时,取 UA,UB中小者
UA= nAnB+ nA( nA +1) /2-TA
UB= nAnB+ nB( nB +1) /2-TB
② nA,nB> 10时
12/)1(
)2/(


BABA
BA
nnnn
nnUZ
( 5)设定显著性水平 α,查
U表或 Z表得到临界值
( 6)比较统计量与临界值,
作出判断,对于 nA,nB< 10U≤U
α,拒绝 H0,
U> Uα,接受 H0
游程检验一、什么是游程检验游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。
设某样本 n=12人的标志表现为男、女,有以下三种排列。
(i) 男,男,女,女,女,男,女,女,男,男,男,男
(ii) 男,男,男,男,男,男,男,女,女,女,女,女
(iii) 男,女,男,女,男,女,男,女,男,女,男,男连续出现男或女的区段称为游程。
每个游程包含的个数为游程长度。
以 r表示序列中游程的个数:
(i) r=5,(ii) r=2,(iii) r=11
( i)是随机性序列;( ii)( iii)是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。
二、游程检验方法
1.检验总体分布是否相同。
将从两个总体中独立抽取的两个样本的观察值混合有序后,
观察游程个数,进行比较。
2.检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。
用上下交错形成的游程个数来检验样本是否是随机的
3.检验规则(小样本。 n< 20)
应用表 La和 Lb,( α=0.05,r为临界值)
( 1)单侧检验,观察到的游程个数 ro≤临界值( La表)
或 ro≥临界值( Lb表)
反之,接受 Ho。
否定
Ho
( 2)双侧检验:
观察到的游程个数 ro
r(La)< ro< r(Lb) 接受 Ho
下限 上限 反之,拒绝 Ho
4.大样本( n1或 n2大于 20),游程个数 r近似正态分布检验统计量
r
rErZ
)(
)1()(
)2(2
1
2
)(
21
2
21
212121
21
21


nnnn
nnnnnn
nn
nn
rE
r?
其中:
等级相关检验将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。
等级相关系数的计算公式
)1(1 2
2

nn
dbr i
s
其中 di为两变量每一对样本的等级之差,n为样本容量。
等级相关系数与相关系数一样,取值 -1到 +1之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。
二、等级相关系数的应用一、等级相关检验的基本原理利用斯皮尔曼等级相关系数,可以对两序列变量是否相关进行检验。
(一)检验的假设
( 1) H0,Xi和 YI相互独立;
H1,Xi和 Yi不独立。(此为双侧检验)
( 2) H0,Xi和 Yi相互独立;
H1,Xi和 Yi是正相关。 (即 Xi的大值与 Yi的大值相配对 )
( 3) H0,Xi和 Yi相互独立;
H1,Xi和 Yi是负相关。 (即 Xi的大值与 Yi的小值相配对 )
(二)检验统计量:
1,30 nrZn s
的临界值相关系数查附表 srn,,30?
多个样本的检验一、克鲁斯卡尔 ——沃利斯( Kruskal-Wallis)单向方差秩检验
1·检验内容:检验 K个独立样本是否来自分布相同的总体。
2·适用条件:各样本相互独立;
序列变量(间距变量,比率变量可转换为序列变量)
3·方法思想:与威尔科克森秩和检验相同。当 K= 2时,就是曼-惠特尼 U检验。
抽样和数据列表:将各样本的观察值按大小顺序排列,确定相应的。
4·检验步骤:
建立假设:
H0,K个总体无显著差异
H1,K个总体有显著差异计算检验统计量:
K——样本数
ni——第 i个样本观察值的数目
Ri——第 i个样本中的秩和
)1(3)1( 12
1
2
nn
R
nnH
K
i i
i
设定显著性水平 α,查表确定临界值

(1)ni≤5,K=3时,查 K-W单向方差检验统计量临界值表
(2)ni>5,查 x2分布表。自由度为 K-1
检验判断:
(1) ni≤5,K=3时:
若 ρ≤α,拒绝 H0; ρ>α,接受
H0。
(2) ni>5时:
0
2
1,
0
2
1,
,
,
HxH
HxH
k
k
接受拒绝若
( 1)
( 2)
( 3)
( 5)
( 4)
5.要点说明:
①整理样本数据按数值大小顺序确定相应的位序(即秩)时,
对相同的观察值按相应的秩计算它们的平均秩。
② 若 K个独立样本中有相同的观察值,要对检验统计量进行修正。修正公式:
nn
tt
H
H
K
i
ii
3
1
3
*
)(
1
其中,ti——第 i个秩包括相同观察值的个数;
K——相同秩的组数。
二、费利德曼( Friedman)双向方差分析这种检验方法适用于 K个非独立样本是否来自同分布总体的检验。其他条件和特点与克鲁斯卡尔 ——沃利斯检验相同。
检验步骤:
抽样和数据列表:
将 ni个样本分别按它们观察大小的顺序排列确定其秩,编成的
ni为行、处理方法为列的双向表;并计算各列的秩和 Ri
建立假设:
H0,K种处理方法的效果无显著差异;
H1,K种处理方法的效果有显著差异
( 1) ( 2)
计算检验统计量:
K——处理方法种类,即列数;
n——区组数,即行数;
Rj——第 j个列的秩和设定显著性水平 α,查表确定临界值:
(1)n,K不很小时;查?2
分布表,自由度为 K-1;
(2)n,K很小时;直接查
2分布表 。
( 3) ( 4)
)1(3)1(12
1
22
KnRKnKx
K
j
jr
检验判断:
(1)n,K不很小时:

(2)n,K很小时:按分布表相应的临界值判断。
022 ),1( HKxx r 接受
022 ),1( HKxx r 拒绝