第一部分 课程综述一、课程性质统计学是一门研究客观现象总体数量特征的方法论科学,具有综合性、应用性和数量性的特征。它系统地介绍了统计理论与方法的历史发展过程及其经典理论、学派、代表人物;较全面地阐述了统计基本理论与基本方法;特别是对二十世纪后期出现的新的统计理论与方法作了重点介绍,以便让学生更好地了解和掌握统计学的发展趋势和发展规律。
二、教学目的
《统计学》是高等院校财经类专业的必修课、核心课之一。为了使学生掌握市场经济条件下,数据资料的搜集加工、分析及预测方法,本课程将从实际应用入手,即在统计理论基础上重点阐述统计工作各个阶段、不同实际应用方面的操作方法,力求体现统计学的社会性与科学性相结合的特点。通过本课程的教学,使学生能够在理论联系实际的基础上,比较系统地掌握统计学的基本思想、基本理论、基础知识和基本方法;理解并记忆统计学的有关基本概念和范畴;掌握并能运用统计基本方法和技术进行统计设计、统计调查、统计整理和一定的统计分析,使学生掌握并应用该工具为自己所学专业服务,以提高学生科学研究和实际工作能力。
三、教学内容
1、考虑到财经类各专业未设置《统计学原理》与各专业统计课程,因而《统计学》的内容既包括统计方法,也包括必要的社会经济指标核算知识,使一般的统计理论方法,落实到实际的指标体系的运用上。
2、考虑到财经类各专业都需要加强数量分析能力的培养,因此,不但介绍一般的统计方法,而且还介绍了常用的数理统计方法在社会经济领域中的应用。
3、考虑到《统计学》是一门方法论方面的应用科学,因而在《统计学》中,一方面对于描述统计内容保持一定比例,另一方面也应加强统计分析、统计推断和统计核算方面的内容。
四、教学时数章节
课时数(54)
课时数(72)
绪论
4
6
统计数据的搜集与整理
9
10
统计数据分布特征的描述
9
10
时间数列分析
8
10
统计指数
7
8
抽样与抽样分布
7
9
假设检验
4
6
相关与回归分析
5
7
国民经济统计概述
0
6
合计
54
72
五、教学方法板书、幻灯片、多媒体、统计调查实践、上机实验等配合使用。
六、面向专业财经类各专业及其他相关专业。
第二部分 课程教学内容第一章 绪论
(一)教学目的通过本章的学习,要求对统计学的内容、研究对象、性质、应用范围及基本方法,尤其是统计学的基本概念有正确的理解和认识。
(二)基本要求要求首先对统计学这门课程有一个整体上的认识,了解这门课程的产生和发展过程,并进一步掌握其主要内容和基本方法。
(三)教学要点
1、统计一词的涵义、相互关系;
2、统计学的研究对象、及其学科性质;
3、统计的应用与基本方法;
4、统计学的基本概念,主要包括:总体、单位、样本、指标、变量。
(四)教学时数
4——6课时
(五)教学内容本章共分五节:
第一节 统计与统计学一、统计的含义
“统计”一词在各种实践活动和科学研究领域中经常出现。然而,不同的人,或在不同的场合,对其理解是有差异的。比较公认的看法是,统计有三种含义,即统计活动、统计数据和统计学。
1.统计活动统计活动又称统计工作,是指收集、整理和分析统计数据,并探索数据的内在数量规律性的活动过程。
2.统计资料统计资料或称统计数据,即统计活动过程所获得的各种数字资料和其他资料的总称。表现为各种反映社会经济现象数量特征的原始记录、统计台帐、统计表、统计图、统计分析报告、政府统计公报、统计年鉴等各种数字和文字资料。
3.统计学统计学是指阐述统计工作基本理论和基本方法的科学,是对统计工作实践的理论概括和经验总结。它以现象总体的数量方面为研究对象,阐明统计设计、统计调查、统计整理和统计分析的理论与方法,是一门方法论科学。
不列颠百科全书的定义:统计学是收集、分析、表述和解释数据的科学。
统计工作、统计资料和统计学之间有着密切联系。统计工作同统计资料之间是过程同成果之间的关系,统计资料是统计工作的直接成果。就统计工作和统计学的关系来说,统计工作属于实践的范畴,统计学属于理论的范畴,统计学是统计工作实践的理论概括和科学总结,它来源于统计实践,又高于统计实践,反过来又指导统计实践,统计工作的现代化同统计科学研究的支持是分不开的。
统计工作、统计资料和统计学相互依存、相互联系,共同构成了一个完整的整体,这就是我们所说的统计。
二,统计学的研究对象、特点社会经济统计学的研究对象,是社会经济现象的总体的数量方面,即社会经济现象总体的数量特征和数量关系。
社会经济统计是对社会经济现象的一种调查分析活动,它具有以下特点。
(一)数量性统计的研究对象是客观现象数量方面,包括数量的多少,数量之间的关系。质量互变的数量界限。
(二)总体性统计研究对象是客观总体现象的数量方面。如人口统计是要反映和研究一个国家或一个地区全部人口的综合数量特征,而不是要了解和研究某个人的特征,但是它是从每个人调查开始的。人口统计是这样,其他统计活动也是这样。
(三)变异性统计研究同类现象总体的数量特征,它的前提则是总体各单位的特征表现存在着差异,而且这种差异并不是由某种固定的原因事先给定的
(四)社会性社会经济统计的社会性主要表现在两个方面,一是社会经济统计的研究对象是社会现象的数量方面,二是统计是一种社会调查活动,
三、统计学的研究方法统计学研究对象的性质,决定了统计学的研究方法,解决研究方法问题是解决统计研究过程一切问题的关键之一。因此,研究方法问题在统计学中居于重要地位。主要包括:大量观察法、统计分组法、综合指标法、统计模型法和归纳推断法等。
(一)大量观察法大量观察法指在对事物了解的基础上,对总体的全部或足够多的单位进行统计观察和登记并掌握与问题有关的全部事实的方法。
(二)统计分组法统计分组法就是根据一定的研究目的和现象的总体特征,将总体各单位按一定的标志,把社会经济现象划分为不同性质或类型的组别。统计分组法是统计研究的基本方法,主要用于统计整理阶段。
(三)综合指标法综合指标法是在大量资料整理的基础上,计算各种综合指标,对大量现象的数量方面进行分析的方法。
(四)统计模型分析法统计模型分析法是根据一定的经济理论和假设条件,用数学方程去模拟客观经济现象相互关系的一种研究方法。如相关分析法、回归分析法和统计预测法。
(五)统计推断法以一定的置信标准,根据样本数据来判断总体数量特征的归纳推理方法,称为统计推断法。
第二节 统计学的分科统计方法已广泛应用于自然科学和社会科学的众多领域,统计学也发展成为由若干分支组成的学科体系。由于出于不同的视角或不同的研究重点,人们常对统计学科体系作出不同的分类。一般而言,有两种基本的分类:从方法的功能来看,统计学可以分成描述统计学和推断统计学;从方法研究的重点来看,统计学可分为理论统计学和应用统计学。
一、描述统计学和推断统计学描述统计学(Descriptive Statistics)研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。描述统计学的内容包括统计数据的搜集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。
推断统计学(Inferential Statistics)研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。
描述统计学与推断统计学的划分,还反映了统计方法发展的前后两个阶段和使用统计方法探索客观事物数量规律性的不同过程。统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中,如果搜集到的是总体数据(如普查数据),那么运用描述统计就可以达到认识总体数量规律性的目的;如果获得的只是研究总体的一部分数据(样本数据),那么要找到总体的数量规律性,就要运用概率论的理论并根据样本信息,对总体进行科学的推断。显然,描述统计和推断统计是统计方法的两个组成部分。描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。而且,推断统计在现代统计学中的地位和作用越来越重要,已成为统计学的核心内容,这是因为在对现实问题的研究中,所获得的数据主要是样本数据。但这并不等于说描述统计不重要。如果没有描述统计搜集可靠的统计数据并提供有效的样本信息,再科学的统计推断方法也难以得出切合实际的结论。从描述统计学发展到推断统计学,既反映了统计学发展的巨大成就,也是统计学发展成熟的重要标志。
二、理论统计学和应用统计学理论统计学(Theoretical Statistics)即数理统计学(Mathematical Statistics)主要探讨统计学的数学原理和统计公式的来源。由于现代统计学几乎用到了所有方面的数学知识,从事统计理论和方法研究的人员需要有坚实的数学基础。而且,由于概率论是统计推断的数学和理论基础,所以广义的统计学亦应包括概率论在内。理论统计学是统计方法的理论基础,没有理论统计学的发展,统计学也不可能发展成为像今天这样一个完善的科学知识体系。理论统计学包括的主要内容有:概率理论、抽样理论、实验设计、估计理论、假设检验理论、决策理论、非参数统计、序列分析、随机过程等。
应用统计学(Applied Statistics)探讨如何运用统计方法去解决实际问题。其实,将理论统计学的原理应用于各个学科领域,就形成了各种各样的应用统计学。例如,统计方法在生物学中的应用形成了生物统计学,在医学中的应用形成了医疗卫生统计学,在农业试验、育种等方面的应用形成了农业统计学。统计方法在经济和社会科学领域的应用也形成了若干分支学科。例如,统计方法在经济领域的应用形成了经济统计学及其若干分支,在管理领域的应用形成了管理统计学,在社会学研究和社会管理中的应用形成了社会统计学,在人口学中的应用形成了人口统计学,等等。应用统计学除了包括各领域通用的方法,如参数估计、假设检验、方差分析等之外,还包括某领域所特有的方法,如经济统计学中的指数法、现代管理决策法等。应用统计学着重阐明这些方法的统计思想和具体应用,而不是统计方法数学原理的推导和证明。
三、统计学科地位高等学校经济类核心课程和工商管理类核心课程是在高等教育面向21世纪教学内容和课程体系改革计划“经济类专业课程结构、共同核心课程及主要教学内容改革研究与实践”和“工商管理类专业课程结构、共同核心课程及主要教学内容改革研究与实践”两个项目调研基础上提出、经济学教学指导委员会和工商管理类教学指导委员会讨论通过、教育部批准的必修课程。其中,经济类各专业的核心课程共8门:政治经济学、西方经济学、计量经济学、国际经济学、货币银行学、财政学、会计学、统计学;工商管理类各专业的核心课程共9门:微观经济学、宏观经济学、管理学、管理信息系统、会计学、统计学、财务管理、市场营销学、经济法。
第三节 统计学的产生与发展一、统计活动的产生和发展统计是适应社会政治经济的发展和国家管理的需要而产生和发展起来的。
统计实践活动先于统计学的产生,早在四五千年前,为适应当时社会经济发展的需要,就开始了各种各样的统计实践活动。
早在奴隶社会时期,当时的统治阶级为了征兵和收税,需要了解土地、人口、粮食和牲畜的数量,就有了人口、土地等政府记录。我国在公元前二十二世纪已有人口、土地的记载。
封建社会统计有了进一步发展。在中国,历代封建王朝都十分重视统计,战国时期商鞅提出强国应了解13个方面的数字资料,其中包括粮食、各类人口、农业生产资料及自然资源等。
统计的广泛发展开始于资本主义社会。从18世纪起,许多国家先后设立了专门的统计机构,搜集各个方面的统计资料,出版统计刊物,倡议建立国际统计组织,积极推动召开国际统计会议。
二,统计学的产生和发展一般来说,统计学的产生和发展可分为三个时期。不同时期各学派之间的相互争论,相互渗透,使统计理论最后发展成为统一的现代统计学。
(一)古典统计学时期从17世纪中叶到18世纪中叶是古典统计学时期,当时主要有政治算术学派和国势学派。
1.政治算术学派。该学派产生于17世纪中叶的英国,主要代表人物是威廉·配弟。英国古典政治经济学的创始人威廉·配弟的代表作《政治算术》一书,是经济学和统计学史上的重要著作。书中用“数字、重量、尺度”等定量的分析工具,对英国和当时的主要发达国家的经济实力进行了比较分析。该书的出版标志着统计学的产生,为此被推举为统计学的创始人,并将其所代表的学派命名为政治算术学派。
2,国势派。该学派产生于18世纪的德国国势派又称记述学派,创始人是17世纪德国海尔曼·康令国势学派搜集大量实际资料,分门别类系统的记述了有关国情国力的重要事项,如人口、领土、政治、军事、经济、宗教、地理、风俗、货币等等。使用了“统计学”这个名称。但几乎不用数字而只用文字形成对国情国力进行系统地描述所以人们也把它叫做记述学派,并认为国势学派有统计学之名,而无统计学之实。
(二)近代统计学时期统计学的近代时期是18世纪末到19世纪末。该时期的主要贡献是建立和完善了统计学的理论体系,并逐步形成了以随机现象的推断统计为主要内容的数理统计学和传统的政治经济现象描述为主要内容的社会统计两大学派。
1.数理统计学派。产生于19世纪中叶,创始人是比利时的阿道夫·凯特勒,在统计学发展中的最大贡献是把概率论引入了统计学,从而使统计学产生了质的飞跃。凯特勒的研究成果在自然科学、经济学、生物学等科学中得到不断的应用,逐渐形成一门独立的学科。此,被称为数理统计学的奠基人,“近代统计学之父”。
2.社会统计学派。产生于19世纪后半叶,创始人是德国的克尼斯尼克斯在《独立科学的统计学》中,提出了把“国势论”作为“国势学”的科学命名,把“统计学”作为“政治算术”的科学命名,从而结束了对统计学研究对象长达200年之久的争论。
(三)现代统计学的发展时期从19世纪末开始,统计学进入了现代统计学时期。在这个时期,数理统计学与社会统计学逐步融合成为统一的现代统计学。
三,我国的统计和统计学我国的统计学界,在解放前也存在着数理统计学派和社会统计学派,两派的观点都是从外国传来的。新中国成立初期,认为只有社会经济统计学才是唯一的统计学,从而在根本上否定了数理统计学是统计学的组成部分,严重妨碍了整个统计学的发展。改革开放以来,人们被禁锢的思想终于获得解放,经过长期、广泛的认识和探讨,我国统计学学科建设取得了重大突破和质的飞跃。
1996年10月,中国统计学会、中国数理统计学会、中国现场统计学会联合举办全国统计科学研讨会,这次会议达成了中国各统计学科,各统计学派之间相互借鉴、相互融合、共同发展的思想确立了统计学科体系的基本框架,肯定了统计学是包括社会经济统计学和数理统计学在内的一般方法论性质的科学,这为今后我国统计学的发展奠定了坚实的基础。
第四节 统计学与其他学科的关系一、统计学与数学统计学与数学有着密切的联系,又有本质的区别。现代统计学用到很多数学知识,研究理论统计学的人需要较深的数学功底,使用统计方法的人要具有良好的数学基础。这可能给人造成一种错觉,似乎统计学是数学的一个分支,这种理解是不妥当的。实际上,数学只是为统计理论和统计方法的发展提供了数学基础,而统计学的主要特征是研究数据;另一方面,统计方法与数学方法一样,并不能独立地直接研究和探索客观现象的规律,而是给各学科提供了一种研究和探索客观规律的数量方法。统计学与数学又有着本质的区别。首先,虽然表面上看统计学与数学都是研究数量规律,跟数字打交道的,但是,数学研究的是抽象的数量规律,而统计学研究的则是具体、实际现象的数量规律;数学研究的是没有量纲或单位的抽象的数,而统计学研究的则是有具体实物或计量单位的数据。其次,统计学与数学在研究中所使用的逻辑方法也是不同的,即数学研究所使用的是纯粹的演绎,而统计学则是演绎与归纳相结合,占主导地位的是归纳。数学家可以坐在屋里,凭借聪明的大脑从假设命题出发推导出结果,而统计学家则需要深入实际搜集数据,并与具体实际问题相结合,经过科学的归纳才能得出有益的结论。
二、统计学与其他学科的关系统计学是一门应用性很强的学科。几乎所有的学科都要研究和分析数据,因而统计学与这些学科领域都有着或多或少的联系。这种联系表现为,统计方法可以帮助其他学科探索学科内在的数量规律性,但若要对这种数量规律性作出内在必然联系的解释并从中把握该学科研究实体的实际规律,那就要由该学科的具体研究来完成了。例如,大量观察法已经发现了新生婴儿的性别比是107:100,但为什么是这样的比例?形成这一比例的原因应由人类遗传学或医学来研究和解释,而非统计方法所能解决的。再如,利用统计方法对吸烟和不吸烟者患肺癌的数据进行分析,得出吸烟是导致肺癌的原因之一的结论,但为什么吸烟能导致肺癌?这就需要医学去解释了。由此我们可以看出统计学能做什么和不能做什么。可以这样说,统计方法仅仅是一种有用的定量分析工具,它不是万能的,不能解决你想要解决的所有问题。能否用统计方法解决各学科的具体问题,首先要看使用统计工具的人能否正确选择统计方法;其次还要在定量分析的同时进行必要的定性分析,也就是要在使用统计方法进行定量分析的基础上,应用该学科的专业知识对统计分析的结果作出合乎规律的解释和分析,这样才能得出令人满意的结论。尽管各学科所需要的统计知识不同,所使用的统计方法的复杂程度各异,统计学也不能解决各学科的所有问题,但统计方法在各学科的研究中将会发挥越来越重要的作用。
1.统计学与哲学的关系:哲学是统计学的方法论基础。存在决定意识,质量互变原理。
2.统计学与经济学的关系:经济学是统计学的基础。
3.统计学与数学的关系:统计学中要运用大量的数学方法。
4.统计学与数理统计学的关系:一方面,统计学的产生先于数理统计学,从一定意义上说,它是数理统计学的基础; 另一方面,统计学的研究中要运用大量的数理统计方法。
5.统计学与计量经济学的关系:计量经济学是经济学与统计学的综合;经济计量方法是经过修正后的社会经济统计方法从这个意上说,统计学是计量经济学的基础。
第五节 统计学的基本概念
2.种类
(1)其性质分可分为品质标志和数量标志。品质标志是表明总体单位的属性特征,一般用文字说明,而不能用数量表示,如性别、文化程度、民族等。数量标志表明总体的数量特征,是用数值表示的,如年龄、工资、工龄等。
(2)其变动情况分为不变标志和可变标志。无论品质标志还是数量标志,当某个标志在各个总体单位上的具体表现相同时,该标志是不变标志。如,以全国国有商业企业为总体,每个企业都具有经济成份和商业企业这两个不变标志。
当某个标志在总体各个单位上的表现不尽相同时,该标志为变动标志,组成一个总体的各个总体单位都具有许多变动标志。例如在全国国有商业企业这个总体中,各企业的经营范围、营业面积、劳动生产率、商品销售额等标志都是不相同的,是变动标志。
(二)标志的表现标志的表现是指标志特征在各单位的具体表现。品质标志的标志表现用文字表述,如“汉族”、“大专”、等。数量标志的标志表现是具体数值,如职工的工龄8年或10年,商品销售额100万元或400万元。
三,变异和变量
(一)变异
变异是变动的标志,具体表现在各个单位的差异,包括量(数值)的变异和质(性质、属性)的变异。如:性别表现为男、女,这是属性变异;年龄表现为18岁、25岁、28岁等这是数值上的变异。
(二)变量
1.概念变量就是可变的数量标志。例如,商业企业的职工人数、商品流转额、流动资金占用额等数量标志,这些变动的数量标志就称做变量。
变量值就是变量的具体表现,也就是变动的数量标志的具体表现。例如,企业的职工人数是一个变量,甲企业职工人数100人,乙企业职工人数150人,丙企业职工人数200人等等,100人、150人、200人,都是职工人数这个变量的变量值(标志值)。
2.种类按变量值的连续性可把变量区分为连续变量和离散变量两种。连续变量的变量值是连接不断的,相邻的两个数值之间可以作无限的分割,一般可以表现为小数。例如,人的身高、体重、年龄等都是连续变量。离散变量的变量值是间断的。例如,职工人数、商业企业数、机器设备台数都只能按整数计算,不可能有小数。
四、统计指标和指标体系
(一)概念统计指标是反映总体数量特征的社会经济范畴。例如,我国2001年国内生产总值95933亿元,它是根据一定的统计方法对总体各单位的标志表现进行登记、核算、汇总而成的统计指标,说明我国国民经济这个数量特征。这个数量指标的名称是“国内生产总值”,指标的数值是“95933亿元”
(二)特点
1.数量性
2.综合性
3.具体性
(三)统计指标与统计标志联系与区别其区别一是指标说明总体某一综合数量特征,而标志说明总体单位特征;二是指标都可以用数量表示,而标志有不能用数量表示的品质标志。其联系一是许多统计指标的数值是由总体单位的数量标志汇总得到的;二是指标和指标之间存在变化关系。
(四)统计指标的种类
1.统计指标按它所说明的总体现象内容的特征,可以分为数量指标和质量指标。
数量指标是反映总体某一特征的绝对数量。这类指标主要说明总体的规模、工作总量和水平,一般用绝对数表示。例如,某一地区的总人口、工业企业总数、国民生产总值等等。质量指标是反映总体的强度、密度、效果、结构、工作质量等,例如,人口密度、劳动生产率、资金利润率等。这类指标一般用平均数、相对数表示。这些质量指标的数值并不随总体范围的大小而增减。例如一个100 万人口的城市第三产业在国民生产总值所占的比重也可能小于某个30万人口的城市第三产业在国民生产总值中所占的比重。
2.统计指标按其具体内容和作用可以分为总量指标、相对指标和平均指标。
总量指标是反映总体现象规模的统计指标,它表明总体现象发展的结果。例如上述的总人口、国民生产总值等便是。相对指标是两个有联系的总量指标和平均指标相比较的结果,又分两种情况:同一指标不同时期的数值对比可以说明事物的发展变化,如人口增长率、成本降低率;用总体中部分数值与总体数值相比说明事物的内部结构,如三次产业在国民生产总值中所占比重。平均指标是按某个数量标志说明总体单位一般水平的统计指标,如平均工资、平均成本等等。
(五)指标体系
1.指数体系的意义统计指标体系是指若干个相互联系的统计指标组成的,一个整体社会经济现象本身的联系也是多种多样的。例如,在商品流转统计中,商品购进、商品销售和商品库存是相互联系和相互制约的统计指标,由这些统计指标组成的一个整体就是商品流转统计指标体系。
意义:可以深刻认识事物的全貌和发展过程;利用统计指标体系,可以查明产生各种结果的主要因素,了解指标之间的相互联系,可以根据已知指标来计算和推测未知指标。
2.指标体系种类统计指标体系大体上可分为两大类,即基本统计指标体系和专题统计指标体系。
基本统计指标体系是反映国民经济和社会发展及其各个组成部分的基本情况的指标体系。
专题统计指标体系是对某一个经济问题或社会问题制定的统计指标体系。例如,商品流转统计指标体系、经济效益统计指标体系、人民物质文化生活水平统计指标体系等等。
★ 总量指标一、总量指标的意义
(一)总量指标的概念总量指标是指统计汇总后得到的具有计算单位的总和指标,反映被研究对象在一定时期或时点的规模、水平或性质相同总体规模的数量差异。一般用绝对数表示,又称绝对数指标。
(二)计量单位
1.实物单位实物指标表明现象总体的使用价值总量。它根据现象的自然属性和特点采用实物单位计量。实物单位有自然单位,度量衡单位,标准实物量单位,复合单位。
2.价值单位价值指标表明现象总体的价值总量,它以货币单位计量。
3.劳动量单位以劳动过程中消耗的劳动时间为计量单位,如工时、工日、人工数等,为成本核算和计算劳动生产率提供依据。
(三)作用
1.从总体上认识社会经济现象的起点。
了解一个国家或地区的基本情况,从其基本状况和基本实力入手。
2.计算其它统计指标的基础。
统计综合指标中的相对指标,平均指标的计算都是以绝对数指标为基础计算的。
二、总量指标的种类
1.按指标反映的具体内容划分为总体单位总量指标和总体标志总量指标总体单位总量指标:是用来反映总体中单位数的多少,说明总体本身规模大小的总量指标。如:对某地区居民粮食消费情况进行研究,该地区的居民人口数便是总体单位总量指标。
总体标志总量指标:是用来反映总体中标志值总和的总量指标。如:上例中粮食消费总量便是总体标志总量指标。
总体单位总量指标和总体标志总量指标的地位随统计研究的目的而变化。如:研究该地区粮食消费价格,粮食消费总量变为总体单位总量指标了。
2.按指标反映的时间状况划分为时期指标和时点指标时期指标:反映社会经济现象在一定时期内发展变化过程总量的指标,如:商品销售额、总产值、基本建设投资额等。
时点指标:反映社会经济现象在一定时点上状况的数量的指标,如:人口数、房屋的居住面积,企业数等。
时期指标和时点指标的特点(区别):
a.性质相同的时期指标的数值可以相加,时点指标相加则无意义。
b.同类时期指标数值的大小与时期长短有直接关系,时点指标则没有这种关系。
c.时期指标数值是经常登记取得,时点指标不是。区分时期指标和时点指标决定了统计处理与应用上的不同,在运用时期和时点指标时,注意同一指标若从不同的角度考虑则总量指标的性质也不同,如:年末人口数和年初人口数是时点指标,但年末人口数一年初人口数=人口净增数则为时期指标。
3.按指标采用的计量单位划分为价值指标、实物指标和劳动量指标价值指标、实物指标和劳动量指标前面已经讲过,这里就不讲了。
三、应用总量指标注意的问题
1.要有明确的计算范围、计量单位与口径。
2.现象的同类性。
★相对量指标一、相对指标的意义统计中,数字的作用在于进行比较和分析。“比较为统计之母”是有道理的,孤立的数字,不进行任何比较分析,不能说明任何问题。因此,对事物进行判断、鉴别和比较,就要借助于相对指标。
(一)相对指标的概念相对指标:两个有联系的指标数值之比,反映现象之间所固有的数量对比关系,表现形式一般为倍数或系数(以1作为对比基础),成数(以10 作为对比基础),百分数(以100作为对比基础),千分数(以1000作为对比基础),复名数等。
相对指标的特点:
①将对比的基础抽象化。
②抽象化掩盖了绝对数的规模百分数或千分数(以100或1000作为对比基础)。复名数。
这里还要对经济分析中经常用到的“百分点”的概念作一点说明。一个百分点是指1%,百分点常用于两个百分数相减的场合。如:在股票交易市场上,确定某一时间的股票价格为基数,将两个不同时间股票价格与之相比,分别为150%和120%,那么后一时间上的股票价格比前一时间下降了30个百分点(120%-150%)。
(二)相对指标的作用
1.反映现象间数量对比关系。
2.反映现象发展变化程度、速度、强度、质量、效益等。
3.弥补总量指标的不足,便于比较。
二、相对指标的种类及其计算方法
1.结构相对指标是将两个有从属关系的总量指标对比而得,说明总体内部组成情况,一般用%表示。
结构相对数=(总体内某一部分指标数值)/总体总量×100%
如:反映工农业增加值的内部结构,农业内部各业构成,种植业内粮食作物,经济作物及其它作物的比例结构,消费结构中食品支出占全部生活费支出的比重,(恩格尔系数),国内生产总值中第一、二、三产业间的构成等。
如:某地区工农业产值中工业、农业产值所占的比重:
工业产值占工农业产值比重=工业产值/工农业产值=304.43÷468.51=64.98%
农业产值占工农业产值比重=农业产值/工农业产值=164.08÷468.51=35.02%
结构相对指标的特点:①各部分计算结果<1
②各部分比重之和=1
③分子分母不能互换
2.比例相对指标比例相对指标是同一总体内不同组成部分的指标数值对比的结果,它可以表明总体内部的比例关系。
比例相对指标=总体中某部分指标数值/总体中另一部分指标数值比例相对指标可以用百分数表示,也可以用一比几或几比几形式表示。如上例中工业产值与农业产值的比例可表示为304.43:164.08,也可以表示为1.86:1,分析总体中若干部分的比例关系时可采用连比形式。例如,某地社会劳动者人数为59432万人,其中第一产业为34769 万人,第二产业为 12921 万人,第三产业为11742万人,三个产业劳动者人数比例为100∶37∶34。
利用比例相对指标可以分析国民经济中各种比例关系,调整不合理的比例,促使社会主义市场经济稳步协调发展。
特点:①分子、分母可互换
②同一总体内
③各部分之间比例之和不等于100%
3.比较相对指标比较相对指标是同一时间不同国家、不同地区、不同单位的某项指标对比的结果。
比较相对指标=某一空间的某项指标数值/另一空间的同项指标数值比较相对指标一般用倍数表示,有时也可用系数表示。例如:甲乙两公司2002年商品销售额分别为5.4亿元和3.6亿元,则甲公司商品销售额为乙公司的1.5倍(=5.4/3.6)。计算比较相对指标可以用总量指标,相对指标或平均指标。
运用比较相对指标对不同国家、不同地区、不同单位的同类指标对比,有助于揭露矛盾、找出差距、挖掘潜力,促进事物进一步发展。
相对指标的特点:
①对比的分子分母必须是同质现象
②分子、分母可互换
4.强度相对指标强度相对指标是两个性质不同而有联系的总量指标对比的结果。
强度相对指标=某一总量指标数值/另一性质不同而有联系的总量指标数值强度相对指标是以复名数表示的,有些强度相对指标是采用无名数。强度相对指标的特殊使用是按平均每个人摊得到的份额表示。由于强度相对指标的分子和分母可以互换,因此可以形成正指标和逆指标两种计算方法。如:反映卫生事业对居民服务保证程序的指标:每千人口的医院床位数=医院床位数(张)/人口数(千人),这是正指标。每千人口的医院床位数=人口数(千人)/医院床位数(张),这是逆指标。
强度相对指标应用十分广泛,它可以反映国民经济和社会发展的基本情况;反映生产条件及公共设施的配备情况;也可以反映经济效益的情况。强度相对指标的特点:
①不同总体对比
②具有平均含义
③分子分母可互换
5.动态相对指标动态相对指标也称作发展速度,它是某一指标不同时间上的数值对比的结果。动态相对指标一般用百分数表示。
动态相对指标=报告期指标数值/基期指标数值动态相对指标对于分析研究社会经济现象的发展变化过程具有重要意义,将在第七章予以详细讲述。
6.计划完成程度相对指标计划完成程度相对指标是某一时期实际完成的指标数值与计划指标数量对比的结果。一般用百分数表示。
计划完成程度相对指标=实际完成的指标数值/计划指标数值x100%
①计划完成相对指标的一般应用
[例1.1]某企业计划规定产值达10万元,实际执行结果产值达11.5万元,则计划完成程度=实际完成数/计划规定数x100%=11.5/10x100%=115%
[例1.2]某企业劳动生产率计划规定完成103%,实际却提高了5%。则计划完成程度=实际完成数/计划规定数x100%=(1+5%)/103%= 101.94%
②还可计算计划时期某一段累计完成数占全计划的百分比,即进行进度分析。
计划完成相对数=累计至报告期止完成数/全部计划数×100%
[例1.3]某企业生产情况情况如下?
产值及产品名称
单位
年计划
实际完成数
第三季度完成年计划的%
累计完成年计划的%
一季
二季
三季
1-3季累计
总产值
万元
960
240
288
307
835
31.98
86.98
甲
千克
700
140
150
130
420
18.57
60.00
乙
千克
300
75
85
140
300
46.67
100.00
丙
千克
230
60
70
80
210
34.78
91.30
丁
千克
180
45
50
57
152
31.67
84.44
计算第三季度及累计三季度止计划完成情况并分析乙、丙、丁任务完成好,甲不好。
③长期计划任务规定的要求和方法不同,检查长期计划的完成情况有两种方法:
a.累计法:凡是计划指标是按计划期内各年总和规定任务的要求采用累计法计算。b.水平法:如果计划任务(指标)按期末那一年规定应达到的水平规定,则采用
b.水平法计划完成相对指标的特点:
①对比数为同一总体
②分子分母不能互换
③计算结果视指标性质而定:a.若指标表现为越高越好,如::产值(量)、劳动生产率值,其值≥1,结果越好。b.若指标表现为越低越好,如:费用、消耗、成本,其值≤1,结果越好。 c.基建投资额、工资等,其值=1,结果越好。
三、应用相对指标应注意的问题统计相对数是一种抽象化的指标数值,是对现象进行对比分析的一个重要手段,要使这种对比分析准确地、深刻地反映出现象之间的联系,充分发挥统计相对数的作用,在计算应用统计相对数时必须注意以下几个问题:
1.必须注意指标的可比性。
2.相对数与绝对数结合起来运用。
3.要正确地选择作为比较标准的基期。
4.为了从各方面分析和研究问题,需要把各种相对数结合起来使用。
本章的重点
1、统计学的基本概念;
2、统计学科的研究对象和研究方法;
3、统计学的学科性质。
复习思考题
1、统计的涵义及其他们之间的关系。
2、简述统计的产生和发展过程。
3、统计学的研究对象是什么?研究对象有哪些特点?
4、怎样理解统计总体的同质性和变异性?
5、为什么说没有变异就没有统计研究的必要?
6、简述统计学与数学的联系与区别。
7、简述总体、单位、样本的含义及其相互关系。
第二章 统计数据的搜集与整理
(一)教学目的通过本章的学习,了解统计数据搜集与整理的基本理论与方法,掌握各种方法的特性。
(二)基本要求要求灵活运用各种数据搜集的方式方法,并对所得数据进行加工整理,为以后各章学习统计分析方法打下基础。
(三)教学要点
1、数据采集的方式方法;
2、统计调查方案的设计;
3、统计分组;
4、变量数列的编制;
5、统计数据的显示。
(四)教学时数
9——10课时
(五)教学内容本章共分五节:
第一节 数据的计量与类型一、数据的计量尺度在计量学的一般分类方法中,依据对事物计量的精确程度,可将所采用的计量尺度由低级到高级、由粗略到精确分为四个层次,即名类尺度、顺序尺度、区间尺度和比尺度。
1.定类尺度定类尺度(Nominal scale,亦称分类尺度、列名尺度等)是这样一种品质标志,按照它可对研究客体进行平行的分类或分组,使同类同质,异类异质。例如,按照性别将人口分为男、女两类;按照经济性质将企业分为国有、集体、私营、混合制企业等。这里的“性别”和“经济性质”就是两种名类尺度。名类尺度是最粗略、计量层次最低的计量尺度,利用它只可测度事物之间的类别差,而不能了解各类之间的其他差别。名类尺度计量的结果表现为某种类别,但为了便于统计处理,例如为了计算和识别,也可用不同数字或编码表示不同类别。比如用1表示男,0表示女;用1表示国有企业,2表示集体企业,3表示私营企业,等等。这些数字只是不同类别的代码,决不意味着它区分了大小,更不能进行任何数学运算。名类尺度能对事物做最基本的测度,是其他计量尺度的基础。
2.定序尺度定序尺度(Ordinal scale,亦称序数尺度、顺位尺度等)是这样一种品质标志,利用它不仅能将事物分成不同的类别,还可确定这些类别的等级差别或序列差别。例如“产品等级”就是一种测度产品质量好坏的顺序尺度,它可将产品分为一等品、二等品、三等品、次品等;“考试成绩”也是一种顺序尺度,它可将成绩分为优、良、中、及格、不及格等;“对某一事物的态度”作为一种顺序尺度,可将人们的态度分为非常同意、同意、保持中立、不同意、非常不同意,等等。显然,顺序尺度对事物的计量要比名类尺度精确些,但它至多测度了类别之间的顺序,而未测量出类别之间的准确差值。因此,顺序尺度的计量结果只能比较大小,不能进行加、减、乘、除等数学运算。
3.定距尺度定距尺度(Interval scale,亦称间隔尺度、等距尺度、区间尺度等)是能测度事物类别或次序之间间距的数量标志,更具体些说,区间尺度是可将事物区分为不同类别,对这些类别进行排序,并较准确地度量类别之间数量差距的一种计量尺度。该尺度通常使用自然或物理单位作为度量单位,如收入用人民币“元”度量,考试成绩用“百分制”度量,温度用摄氏或华氏的“度”来度量,重量用“克”度量,长度用“米”度量等。区间尺度的计量结果表现为数值。区间尺度的数值可做加、减法运算,例如,考试成绩80分与90分之间相差10分,一个地区的温度20°C与另一个地区的25°C相差5°C,等等。但不能做乘、除法运算。而且,区间尺度没有绝对的零点。
4.定比尺度定比尺度(Ratio scale,亦称为比率尺度)的计量结果也表示为数值,跟区间尺度属同一层次,有时对两者可不作区分。比尺度这种数量标志不仅能测度各类别的大小和多少,还有一个绝对零点(Absolute zero)作为起点。这个绝对零点是它跟区间尺度的明显差别,就是说,区间尺度中没有绝对零点,即使其计量值为“0”,这个“0”也是有客观内容的数值,即“0”水平,而不表示“没有”或“不存在”。例如,某个学生统计学的考试成绩为“0”分,这个“0”分是他的统计学的客观成绩,并不表示他没有考试成绩或没有任何统计学知识;一个地区的温度为0°C,这表示一种温度的水平,并不是说没有温度。而比尺度中绝对零点的“0”,表示“没有”或“不存在”。例如,一个人的身高为“0”米,表示这个人不存在;一个人的收入为“0”,表示这个人没有收入;一个产品的产量为“0”,表示没有这种产品;等等。现实中,大多数场合人们使用的都是比尺度。
定比尺度与上述三种计量尺度相比还有一个特性,就是可以计算数值之间的比值。例如,一个人的月工资收入为600元,另一个人的为300元,可以得出一个人的收入是另一个的两倍。但区间尺度由于不存在绝对零点,就只能比较数值差,而不能计算比值。比如,可以说30°C与15°C之差为15°C,而不能说30°C比15°C热一倍。可见,比尺度可以做加、减、乘、除法运算。
上述四种计量尺度对事物的计量层次是由低级到高级、由粗略到精确,逐步递进的。高层次的计量尺度可以计量低层次计量尺度能够计量的事物,但不能反过来。显然,可以很容易地将高层次计量尺度的计量结果转化为低层次计量尺度的计量结果;将考试成绩的百分制转化为五等级分制就是一例。
二、数据的类型
1.按计量尺度分按照所采用的计量尺度不同,可以将统计数据分为定类数据、定序数据、定距数据和定比数据。统计数据是采用某些计量尺度对事物进行计量的结果,但采用不同的计量尺度会得到不同类型的统计数据。就上述四种计量尺度计量的结果来看,我们可以大体上将统计数据分为两种类型:定性的数据和定量的数据。定性数据(Qualitative data,亦称品质数据)是说明事物的品质特征表现的具体类别,不能用数值表示;因这类数据由名类尺度和顺序尺度计量形成,故又可细分为分类数据和顺序数据。定量数据(Quantitative data,亦称数量数据或数值型数据)是说明现象数量特征表现的,能够甚至必须用数值来表现;因这类数据由区间尺度和比尺度计量形成,故又可细分为区间数据和比数据。对不同类型的数据,可采用不同的统计方法来处理和分析,比如,对定性数据一般只采用分组法计算,分析各组的频数或频率,而对定量数据则可用更多的统计方法去处理,计算、分析更多的统计指标或统计量。
2.按数据的收集方法分按数据的收集方法分类,可将统计数据分为观测数据和实验数据。观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下而得到的,社会经济现象的统计数据几乎都是观测数据。实验数据是在实验中控制实验对象而收集到的数据。如医药研究试验数据、动植物杂交品种试验数据等等。自然科学领域的大多数据都是试验数据。
3.按数据的时间关系分按照被描述对象与时间的关系,可以将统计数据分为截面数据和时间数据。截面数据是指同一时间不同空间上的数据。时间数据是指同一空间不同时间上的数据。
第二节 统计数据搜集的组织形式从统计数据本身的来源看,统计数据最初都是来源于直接的调查或实验。但从使用者的角度看,统计数据主要来源于两种渠道:一是来源于直接的调查和科学实验,对使用者来说,这是统计数据的直接来源,我们称之为第一手或直接的统计数据;二是来源于别人调查或实验的数据,对使用者来说,这是统计数据的间接来源,我们称之为第二手或间接的统计数据。本节从使用者的角度讲述统计数据的收集方法。
一、统计数据的间接来源对大多数使用者来说,亲自去做调查往往是不可能的。所使用的数据大多数是别人调查或科学实验的数据,对使用者来说称为二手数据。
二手数据主要是公开出版的或公开报道的数据,当然有些是尚未公开出版的数据。在我国,公开出版或报道的社会经济统计数据主要来自国家和地方的统计部门以及各种报刊媒介。例如,公开出版的有《中国市场统计年鉴》以及各省、市、地区的统计年鉴等。提供世界各国社会和经济数据的出版社物也有很多,如《世界经济年鉴》、《国外经济统计资料》,民办银行各年度的《世界发展报告》等。联合国的有关部门及世界各国也定期出版各种统计数据。
除了公开出版的统计数据,还可以通过其他渠道使用一些尚未公开发布的统计数据,以及广泛分布于各种报纸、杂志、图书、广播、电视传媒中的各种数据资料。现在,随着计算机网络技术的发展,也可以在网络上获取所需的各种数据资料。
利用二手数据对使用者来说既经济又方便,但使用时应注意统计数据的含义、计算口径和计算方法,以避免误用或滥用。同时,在引用二手数据时,一定要注明数据的来源,以尊重他人的劳动。
二、统计数据的直接来源统计数据的直接来源主要有两个渠道:一是调查或观察;二是实验。调查是取得社会经济数据的重要手段,其中有统计部门进行的统计调查,也有其他部门或机构为特定目的而进行的调查,如市场调查等;实验是取得自然科学数据的主要手段。在本节中,着重讲授取得社会经济数据的主要方式和方法。
(一)统计调查的组织方式实际中常用的统计调查组织方式主要有普查、抽样调查、统计报表、重点调查和典型调查
1.普查。普查(Census)是为某一特定目的而专门组织的一次性全面调查方式,如人口普查、工业普查、农业普查等。世界各国一般都定期进行各种普查。普查适用于特定目的、特定对象,旨在搜集有关国情国力的基本统计数据,为国家制定有关政策或措施提供依据。它主要用于搜集处于某一时点状态上的社会经济现象的数量。普查作为一种特殊的调查组织方式有以下几个特点:
(1)普查通常是一次性或周期性的。普查涉及面广,调查单位多,要耗费大量的人力、物力和财力,所以间隔较长时间,如10年才进行一次。我国的人口普查从1953年到1990年共进行过4次。今后,我国的普查将规范化、制度化,每逢末尾为“0”的年份进行人口普查,末尾为“3”的年份进行第三产业普查,末尾为“5”的年份进行工业普查,末尾为“7”的年份进行农业普查,末尾为“1”或“6”的年份进行统计基本单位普查。
(2)普查一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性。我国前四次人口普查的标准时间定为普查年份的7月1日0时,第五次人口普查为2000年11月1日0时。农业普查的标准时间定为普查年份的1月1日0时。标准时间一般定为调查对象比较集中、相对稳定的时期。
(3)普查的数据一般比较准确,规范化程度也高,因此可作为抽样调查和其他调查的依据。
(4)普查的使用范围较窄,只能调查一些最基本或特定的现象。
2.抽样调查。抽样调查(Sampling survey)是按照一定的概率从总体中抽取一部分单位构成样本,并根据样本信息推断总体数量特征的一种非全面调查。这是一种应用最为广泛的调查组织方式。抽样调查的内容将在后面设专章讨论。
3.统计报表。统计报表(Statistical report forms)是按照国家有关法规规定,自上而下统一布置,自下而上逐级填报的一种调查组织方式。这种调查组织方式在我国政府统计工作中,经过几十年的改进和完善,已形成了一套比较完备的统计报告制度,它要求以原始数据为基础,按照统一的表式、指标、报送时间和报送程序填报,已成为国家和地方政府部门获取统计数据的主要统计调查组织方式。
统计报表类型多样。统计报表按调查范围可分为全面报表和非全面报表;按报送时间可分为日报、月报、季报和年报等;按报送受体可分为国家、部门、地方统计报表。
4.重点调查。重点调查(Key-point investigation)是这样一种调查组织方式,它只从全部总体单位中选择少数重点单位进行调查,这些重点单位尽管在全部总体单位中出现的频数极少,但其某一数量标志却在所要研究的数量标志值总量中占有很大的比重。例如,要了解全国的钢铁生产总量,只要对产量很大的少数几个钢铁企业,如鞍钢、宝钢、首钢等进行调查,就可对全国的钢铁生产总量有个大致的认识。这几个产量很大的企业,构成了这次全国钢产量调查的重点单位,因为它们的钢铁产量在全国的钢铁生产总量中占有很大比重。
5.典型调查。典型调查(Model survey)是从全部总体单位中选择一个或几个有代表性的单位进行深入细致调查的一种调查组织方式。典型调查的目的是通过典型单位具体生动、形象的资料来描述或揭示事物的本质或规律,因此所选择的典型单位应能反映所研究问题的本质属性或特征。例如,要研究工业企业的经济效益问题,可以在同行业中选择一个或几个经济效益突出的单位做深入细致的调查,从中找出经济效益好的原因和经验。典型调查主要用于定性研究,调查结果一般不能推断总体。
第三节 统计数据搜集的方法不论采用哪种方式组织调查,都要运用具体的数据搜集方法去采集统计数据。归纳起来,数据搜集方法有询问调查和观察实验两大类。
一、询问调查。询问调查是调查者与被调查者直接或间接接触以获得数据的一种方法。具体包括访问调查、邮寄调查、电话调查、电脑辅助调查、座谈会、个别深度访问等。
1.访问调查。访问调查又称派员调查,是调查者与被调查者通过面对面交谈从而得到所需资料的调查方法。这又可分为标准式访问和非标准式访问两种。标准式访问又称结构式访问,是按照调查人员事先设计好的,有固定格式的标准化问卷或表格,有顺序地依次提问,并由受访者做出回答。其优点是能够对调查过程加以控制,从而获得比较可靠的调查结果。非标准式访问又称非结构式访问,它事先不制作统一的问卷或表格,没有统一的提问顺序,调查人员只是给一个题目或提纲,由调查人员和受访者自由交谈,从中获得所需资料。询问调查在市场和社会调查中常被采用。
2.邮寄调查。邮寄调查是通过邮寄、宣传媒体和专门场所等将调查表或问卷送至被调查者手中,由被调查者填写,然后将调查表寄回或投放到收集点的一种调查方法。这是一种标准化调查,其特点是,调查人员和受调查者没有直接的语言交流,信息的传递完全依赖于调查表。邮寄调查在统计部门进行的统计报表及市场调查机构进行的问卷调查中经常使用。
3.电话调查。电话调查是调查人员利用电话同受访者进行语言交流,从而获得信息的一种调查方法。该方法具有时效快,费用低等特点。随着电话的普及,电话调查也越来越广泛。电话调查可以按照事先设计好的问卷进行,也可以针对某一专门问题进行电话采访。电话调查所提问题要明确,且数量不宜过多。
4.电脑辅助调查。这种调查也叫做电脑辅助电话调查,就是在电话调查时,调查的问卷、答案都由计算机显示,整个调查过程,包括电话拨号、调查记录、数据处理等也都借助于计算机来完成的一种调查方法。目前,电脑辅助调查已在一些发达国家和地区广泛应用,并已开发出了各种电脑辅助电话调查系统。
5.座谈会。座谈会也称为集体访谈法,就是将一组被调查者集中在调查现场,让他们对调查的主题发表意见,从而获取资料的方法。参加座谈会的受访者应是所调查问题的专家或有经验者,人数不宜太多,通常为6-10人,研究人员应对受访者进行严格的甄别、筛选。讨论方式主要看主持人的习惯和爱好。这种方法能获取其他方法无法取得的资料,因为在彼此交流的环境里,受访者相互影响、启发、补充,不断修正自己的观点,这就有利于研究者从中获得较为广泛深入的想法和意见。而且座谈会不会因为问卷过长而遭到拒访。
6.个别深度访问。深度访问是一种一次只要一名受访者参加的特殊的定性研究。“深访”暗示着要不断深入到受访者的思想中,努力发掘其行为的真实动机。深访是一种无结构的个人访问,调查者运用大量的追问技巧,尽可能让受访者自由发挥,表达他的想法和感受。深度访问常用于动机研究,如消费者购买某种产品的动机等,以发掘受访者非表面化的深层意见。这一方法最适用于研究隐私的问题,如个人隐私问题,或敏感问题,如政治性问题。对于那些不同人之间观点差异极大的问题,用小组讨论可能会把问题弄糟,这时也可采用深度访问法。
座谈会和个别深访法属于定性方法,通常围绕一个特定的主题取得有关定性资料。此类方法和定量方法不同。定量方法是从总体中按随机方式抽取样本获得资料,其研究结果或结论可以进行推论。但定性研究着重于问题的性质和对未来趋势的把握,而不是对研究总体数量特征的推断。座谈会和个别深度访问主要用于市场调查和研究。
二、观察与实验。观察与实验是调查者通过直接的观察或实验获得数据的一种方法。
1.观察法。这是指就调查对象的行动和意识,调查人员边观察边记录的收集信息的方法。这是一种可替代直接发问的方法。运用这种方法,训练有素的观察员或调查员到重要地点,利用感觉器官或设置一定的仪器,观测和记录人们的行为和举动。采用观察方法,由于调查人员不是强行介入,受访者无须任何反应,因而常常能在被观测者不察觉的情况下获得信息资料。
2.实验法。这是一种特殊的观察调查方法。实验法是在所设定的特殊实验场所、特殊状态下,对调查对象进行实验以取得所需资料的一种调查方法。根据场所不同,实验法可分为在室内进行的室内实验法和在市场或外部进行的市场实验法。室内实验法可用于广告认知的实验等,例如,在同日的同种报纸上,版面大小相同,分别刊登A、B两种广告,然后将其散发给读者,以测定其反应结果。市场实验法可用于消费者需求调查等,例如,企业让消费者免费使用一种新产品,以得到消费者对新产品看法的资料。
第四节 统计调查方案统计调查的工作量大,内容繁杂,研究目的和任务又客观要求调查资料的准确性、全面性和及时性,为了做好本阶段的工作,在调查工作开始之前,必须制定出一个周密的调查方案,对整个阶段的工作进行统筹考虑、合理安排,保证统计调查工作的效率和质量。
下面以人口普查为例,说明一个完整的统计调查方案应包括的主要内容。
一、确定调查目的统计调查是为一定的统计研究任务服务的,在制定调查方案时,首先要确定调查目的,即调查中要研究解决的问题和要取得的资料。例如,2000年11月1日零时举行的全国第五次人口普查的调查方案中,明确规定这次调查的目的就在于:为了准确的查清第四次全国人口普查以来我国人口在数量、地区分布、结构和素质方面的变化,为科学的制定国民经济和社会发展战略规划,统筹安排人民的物质和文化生活,检查人口政策执行情况,提供可靠的资料。可见,在这一调查方案中,调查目的是具体和明确的。
二、确定调查对象和调查单位统计调查的目的确定以后,就可以进一步确定调查对象和调查单位。确定调查对象和调查单位,就是为了回答向谁调查、由谁来具体提供资料的问题。调查对象就是根据调查目的所确定的统计总体。例如,人口普查的对象就是全国的人口总体。
调查单位是进行调查登记的标志值的承担者。如我国进行的第五次人口普查,全国的人口总体(具有中国国籍,并在中国国境内常住的自然人)就是调查对象,每一个人就是调查单位。
明确调查单位,还要同填报单位区别开来。填报单位是填写调查内容、提供资料的单位,它可以是一定的部门或单位,也可以是调查单位本身,这要根据调查对象的特点和调查任务的要求确定。
三、确定调查项目拟定调查表调查项目就是所要调查的内容,及所要登记的调查单位的特征。调查项目一般就是调查单位各个标志的名称,包括品质标志和数量标志两种。
调查项目确定后,就要将这些调查项目科学的分类排队,并按一定顺序列在表格上,这种供调查使用的表格就叫调查表,
调查表一般分为单一表和一览表两种。
单一表(又称卡片式)是将一个调查单位的调查内容填列在一份表格上的调查表。它可以容纳较多的项目,且便于分类整理和汇总审核。
一览表就是把许多个调查单位和相应的项目按次序登记在一张表格里的调查表。它便于合计和核对差错,但一般要在调查项目不多时采用。
四、确定调查时间和调查期限调查时间是调查资料的所属时间。调查时间可以是时期,也可以是一定的时点。调查期限是进行调查工作所要经历的时间,如第五次全国人口普查,因为人口数量是时点,所以规定的标准调查时点是2000年11月1日零时。
五、制定调查的组织实施计划
第五节 统计数据的整理与显示一、统计整理的意义和步骤
(一)统计整理的意义
1.定义统计整理,就是根据统计研究的目的,对所搜集到的资料进行科学的加工,使之系统化,条理化的工作过程。统计整理即包括对统计调查所得到的原始资料进行整理,也包括对加工过的综合资料,即次级资料进行再整理。
2.意义统计整理在整个统计研究中占有重要的地位。统计整理的正确与否,将直接影响和决定着能否完成整个统计研究的任务。如果采用不科学不完整的整理方法,即使搜集到准确、全面的统计资料,也往往使这些资料失去应用价值,掩盖客观现象的本质,难以得出正确的结论。因此,必须十分重视统计整理工作。
(二)统计资料整理的步骤第一步,设计和制定统计整理方案。
第二步,对原始资料进行审核。
第三步,对经过审核的资料进行分组、并结合汇总,计算出总体总量指标。
第四步,将汇总计算的结果,以统计表或统计图的形式表现出来。
第五步,对统计资料妥善保存,系统积累。
二、统计分组
(一)统计分组的概念统计分组就是根据统计研究的需要,将统计总体按照一定的标志分为若干个组成部分的一种统计方法。例如,将某一班级的全体同学按照性别划分为男、女两个组;对某市100家大型零售商店按照零售额、职工人数进行分组等。
统计分组具有两个方面的含义:
对总体而言,是“分”,即将同质总体区分为性质有别的不同组成部分;
对总体单位而言,它是“组”,即将性质相同或相近的不同总体单位组合在一起,构成一个组。
例如,要了解我国人口状况,只知道总人口数量是不够的,而应将人口总体按照年龄、性别、民族、城乡、文化程度……等分组,才能进一步地深入地了解我国人口总体的年龄结构、性别比例、民族构成等。
(二)统计分组的作用
1.区分现象的不同类型
2.研究总体的内部结构
3.分析现象间的依存关系
(三)统计分组的方法统计分组的关键问题是正确地选择分组标志与划分各组界限。前者主要是指品质标志分组,后者主要是指数量标志分组。
1.分组标志选择的原则
(1)要选择能够反映事物本质或主要特征的标志
(2)应根据研究的目的与任务选择分组标志
(3)根据现象所处的历史条件的变化选择分组标志
2.统计分组的方法
(1)按品质标志分组按照品质标志分组就是用来反映事物的属性,性质的标志作为分组标志,就可以将总体单位划分为若干性质不同的组成部分。
例如,人口按性别、文化程度、民族、籍贯等标志分组;企业按经济类型、轻重工业、隶属关系,企业规模等标志分组等。
(2)按数量标志分组按数量标志分组就是用反映事物数量差异的标志作为分组标志,将总体各单位划分为若干个组。
例如,地区经济按国内生产总值分组、企业按销售收入分组等。
(三)统计分组体系分组体系有下列形式:
1.简单分组与平行分组体系将社会经济总体只选择一个标志分组称为简单分组。对同一总体选择两个或两个以上的标志分别进行简单分组,排列起来,即成为平行分组体系。
2.复合分组与复合分组体系复合分组是用两个或两个以上分组标志重叠起来对总体进行的分组。例如,将人口先按“性别”分成男、女两组,然后在男性和女性两组中分别按照“文化程度”划分为大学生及大学以上、高中、初中、文盲及半文盲如下五组:
如果多个复合分组组成的体系就形成了复合分组体系。例如,为了认识我国高等院校在校学生的基本状况,可以同时选择学科、本科或专科、性别三个标志进行复合分组,并得到如下复合分组体系:
三、分配数列
(一)分配数列的概念与种类定义:在统计分组的基础上,总体中的所有单位按其所属的组别归类整理,并且按照一定的顺序排列,形成总体单位数在各组分布的一系列数字,称为分配数列,又称次数分配或次数分布。
分配数列中,分布在各个组的总体单位数叫次数,又称频数。
如果将分组标志序列与各组相对应的频率按照一定的顺序排列,就形成频率分布数列。
分配数列有两个组成要求:一是分组;另一个是次数或比率。它可根据分组标志的性质不同,可以分为品质数列与变量数列。
1.品质数列它是按品质标志分组的数列,用来观察总体单位中不同属性的单位分布情况。例如,
表2.1 2000年我国人口性别构成情况人口性别分组
人口数(万人)
占人口的比重(%)
男女
65355
61228
51.63
48.37
合计
126583
100
(分组名称) (次数) (频数)
品质数列的编制比较简单,但要注意分组时,应包括分组标志的所有表现,不能有遗漏,各种表现相互独立,不得相融。
2.变量数列变量数列是将总体按数量标志分组,将分组后形成的各组变量值与该组中所分配的单位次数或频数,按照一定的顺序相对应排列所形成的分配数列。
表2.2 某班级统计学成绩分布表考试分数
人数(人)
频率(%)
60以下
60——70
70—80
80—90
90—100
2
7
11
12
8
20.0
30.0
27.0
17.0
5.0
合计
40
100.0
(各组变量值) (次数) (频数)
在组距式变量数列中,需要明确以下概念
(1)组限组限为组距式变量数列中,每组区间两端的极值称组限。每一组的两个组限中,较大者叫上限,较小者叫下限,如果各组的组限都齐全,成为闭口组;组限不齐全,即最小组缺下限或最大组缺上限,称为开口组。
(2)组距组距为每组下限与上限之间的距离为组距。即:组距=上限-下限组距式变量数列,有等距数列和不等距(异距)数列之分
(3)组中值组中值=
对于开口组中值的计算方式可以利用如下公式:
无下限组的组中值=
无上限组的组中值=
(二)变量数列的编制
1.单项式变量数列,可以直接将每一变量值作为一组,
表2.3 某工厂生产车间工人按日产量分布日产量
工人数
比率(%)
20
21
22
23
24
3
7
10
6
4
10.0
23.3
33.3
20.1
13.3
合计
30
100.0
(各组变量值) (次数) (频率)
单项式变量数列的编制比较明确、容易。但是用连续变量分组来编制分配数列时,或者虽是离散变量,但数值很多,变化范围很大时,单项数列就不能适用,而应考虑采用组距数列的形式。
2.组距变量数列的编制以下举例说明:
[例2.1]对某企业30个工人完成劳动定额的情况进行调查,某原始资料如下(%)
98 81 95 84 93 86 91 102 100 103
105 100 104 108 107 108 106 109 112 114
109 117 125 115 120 119 118 116 129 113
第一步:计算全距将各变量值由小到大排序,确定某最大值,最小值,并计算全距。
变量的最大值是129%最小值是81%
全距 = 最大值 - 最小值=129% - 81%= 48%
第二步:确定组数和组距在等距分组时,组距与组数的关系是:
组距=
本例中根据一般将成绩分成优、良、中、及格和不及格的五档评分习惯,可以先确定组数为5。在等距分组时,计算组距如下:
组距=
为了符合习惯和计算方便,组距近似地取10%。
第三步:确定组限关于组限的确定,应注意如下几点:
第一,最小组的下限(起点值)应低于最小变量值,最大组的上限(终点值)应高于最大变量值。
第二,组限的确定应有利于表现出总体分布的特点,应反映出事物质的变化。
第三,为了方便计算组限应尽可能取整数,最好是5或10的整倍数。
第四,由于变量有连续型变量和离散型变量两种,其组限的确定方法是不同的。
第四步:编制频数(频率)分布表。
表 2.4某企业30个工人劳动定额完成情况分布图表劳动定额完成程度(%)
频数(人)
频数(%)
80—90
90—100
100—110
110—120
120—130
3
4
12
8
3
10.0
13.3
40.0
26.7
10.0
合计
30
100.0
第五步:计算累计频数和累计频率为了更详细的认识变量的分布特征,还可以计算累计频数和累计频率,编制累计频数和累计频率数列。累计频数和累计频率有向上累计频数(频率)和向下累计频数(频率)两种。
以变量值大小为依据,由变量值小的组向变量值大的组累计频数和频率,成为向上累计频数和向上累计频率。
向上累计数的意义是:小于各组的该组上限的各组的频数或频率之和;相反,由变量值大的组向变量值小的组累计各组的频数或频率,称为向下累计频数或向下累计频数。
向下累计数的意义是:大于及等于该组下限的各组的频数或频率之和。根据某企业工人完成劳动定额的资料编制的向上累计频数(频率)和向下累计频数(频率)分布如表3—8。
表2.5 某企业工人完成劳动定额累计分布表劳动定额完成情况
(%)
频数
(人)
频率
(%)
向上累计
向下累计
频数
(人)
频率
(%)
频数
(人)
频率
(%)
80~90
90~100
100~110
110~120
120~130
3
4
12
8
3
10.0
13.3
40.0
26.7
10.0
3
7
19
27
30
10.0
23.3
63.3
90.0
100.0
30
27
23
11
3
100.0
90.0
76.7
36.7
10.0
合计
30
10.0
—
—
—
—

(三)次数分布的主要类型
1.钟形分布钟形分布的特征是“两头小、中间大”,即靠近中间的变量值分布的次数多,靠近两端的变量值分布的次数少,如果将变量值与其对应的频数在直角坐标系中对应的点连接起来绘制成曲线图,宛如一口钟,所以又称钟形分布。
在自然或社会经济现象中,有许多次数分布是属于钟形分布的。例如,人体体重、身高,学生的成绩,居民货币收入,单位面积的农产品产量,市场价格等现象都属于钟形分布。
 (a) (b) (c)
图2.1 钟型频数分布示意图
2.U形分布
U形分布的特征是:靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头大,中间小”的分布特征。将这种分布绘成曲线,像英文字母“U”的形状,故称U形分布例如,人口死亡率的分布,一般是婴幼儿死亡率和老年人死亡率均较高,而中年人死亡率最低,所以人口年龄分组的死亡率是呈U形分布的。另外,失业人口按年龄的分布等均呈U形分布。

图2.2U型频数分布示意图
3.J形分布
J形分布的特征是“一边小,一边大”,即大部分变量值集中在某一端分布,有两种类型。
(1)正J形分布正J形分布是次数随着变量值的增大而增多。如投资额按利润率大小分布,一般是正J形分布。
(2)反J形分布反J形分布是次数随着变量值的增大而减小。如成年人数量按年龄大小分组,表现出年龄越高,人数越少。

图2.3型频数分布示意图
三、统计表和统计图
(一)统计表
1.统计表的概念和结构
(1)概念统计表是表现统计资料的一种形式。把经过大量调查得来的统计资料,经过汇总整理以后,按照一定的规定和要求填列在相应的表格内,就形成了一定的统计表。
(2)作用统计表对表现统计资料具有重要作用。统计表是统计整理的重要形式。它利用表格形式,合理地安排统计资料,清晰、简明地反映出现象总体的特征。统计表通过科学、合理地表现统计资料,便于对统计资料进行对照比较和分析,有利于计算统计分析指标。在统计分析报告中使用统计表,能节省文字叙述篇幅,达到简明易懂、紧凑有力的分析效果。统计表还是汇总和积累统计资料,进行统计分析的重要工具。
(3)结构从外表形式上看,是由四部分构成:A、总标题:它是表的名称,用于概括统计表中要说明的内容。B、横行标题:它是各组的名称,反映总体各组成部分的。C、纵栏标题:它是分组标志或指标的名称,说明纵行所列各项资料的内容。D、指标数值:也称数字资料,它是统计表的具体内容,
从统计表的内容来看,由主词和宾词两个部分组成。主词是统计表所说明的总体,总体的各组或各组的名称。宾词是用于说明主词的各种指标。通常,统计表的主词列在表的左方,宾词列在表的右方。
2.统计表的种类统计表按照总体分组情况不同,可分为简单表、分组表和复合表三类。
(1)简单表是主词未经过任何分组,反映出总体各单位的名称或按时间顺序简单排列,或同时反映以上内容的统计表。
(2)分组表分组表是主词按照一定标志分组的统计表,也称简单分组表。它可以揭示出现象的不同类型的特征,研究现象的内部结构。
(3)复合表复合表是主词按照两个或两个以上的标志层叠分组所形成的统计表。如表3—13
3.统计表的编制规则
(二)统计图
1.统计图的概念统计图是以图形形象地表现统计资料的一种形式。用统计图表现统计资料,具有鲜明醒目,富于表现,易于理解的特点,因而绘制统计图是统计整理的重要内容之一。
统计图可以揭示现象的内部结构和依存关系,显示现象的发展趋势和分布状况,有利于进行统计分析与研究。
2.统计图的种类常用的统计图主要有条形图、面积图、曲线图、象形图等。
(1)条形图
1.条形图(Bar)。条形图可用于显示离散型变量的次数分布。最主要是显示顺序数据和分类数据的频数分布。条形图是用宽度相同的条形的高度或长短来表示数据的多少的图形。条形图可以横置或纵置,纵置时也称为柱形图。此外,条形图有单式、复式等形式。
在表示分类数据的分布时,用条形图的高度或长度来表示各类别数据的频数或频率。绘制时,各类别可以放在纵轴,称为条形图;也可以放在横轴,称为柱形图。例如,如图2.4所示。
条形图(Bar)用于显示离散型变量的次数分布,用条形的高度来表示变量值的大小,如图2.5所示。

图2,4 类别数据条形图

图2,5 离散型变量次数分布条形图绘制条形图应注意以下几个问题:A、在图形中条形的宽度、条形之间距离要相等;B、图形上的尺度必须以x轴或y轴为等线;C、图形中要注明相应的数字;D、各条形的排列应有一定的顺序,如比较现象在时间上的变动时,条形应按时间顺序排列。
2.直方图( Histogram )和折线图。用于显示连续型变量的次数分布。直方图是用矩形的宽度和高度(即面积)来表示频数分布的图形。在平面直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,这样,各组与相应的频数就形成了一个矩形,即直方图。在直方图中,实际上是用矩形的面积来表示各组的频数分布。在直方图基础上添加趋势线,形成折线图。例如根据表2—5资料绘制的直方图(图2,6所示)和折线图(图2.7所示)。
表2,6某生产车间50名工人日加工零件数原始资料(单位:个)
图2,6 某生产车间50名工人日加工零件频数分布直方图
图2,7某生产车间50名工人日加工零件频数分布折线图直方图与条形图不同。首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此,其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后,条形图主要用于展示分类数据,而直方图主要用于展示数值型数据。
3.圆形图(饼图 Pie )。用于显示定类变量的次数分布。它是用圆形及圆内扇形的面积来表示数值大小的图形。饼图主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。在绘制饼图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分比占3600的相同比例确定的。如图2,8(a)、(b)、(c)所示。

图2.8(a) 饼图

图2,8(b) 饼图

图2,8c) 饼图
4.环形图。环形图与饼形图类似,但又有区别。环形图中间有一个“空洞”,总体或样本中的每一部分数据用环中的一段表示。饼图只能显示一个总体和样本各部分所占的比例,而环形图则可以同时绘制多个总体或样本的数据系列,每一个总体或样本的数据系列为一个环。因此环形图可显示多个总体或样本各部分所占的相应比例,从而有利于我们进行比较研究。例如根据表2.7、表2.8资料绘制成的环形图,如图2.9所示。
表2.7甲城市家庭对住房状况满意程度的频数分布
表2—7乙城市家庭对住房状况满意程度的频数分布
表2.8乙城市家庭对住房状况满意程度的频数分布
图2.9 环形图
5.线图(Line)。线图是在平面坐标上用折线表现数量变化特征和规律的图形。主要用于显示连续型变量的次数分布和现象的动态变化。例如,根据表2—7资料绘制成的乙城市家庭对住房状况的评价线图,如图2.10(a)、(b)所示。
图2.10(a) 乙城市向上累积频数分布图
2.10(b) 乙城市向上累计频数分布图
6.散点图(Scatter)。主要用来观察变量间的相关关系,也可显示数量随时间的变化情况。如图2.11所示。

图2.11 散点图
本章难点
1、抽样调查、重点调查与典型调查的比较;
2、统计调查方案的设计;
3、调查对象、调查单位、报告单位的内涵;
4、变量数列的内涵与外延;
5、统计分组的方法与技巧;
6、各种统计图的灵活应用。
复习思考题
1、统计数据的来源渠道有哪些?
2、统计数据搜集方案包括哪几项内容?
3、简要解释调查对象、调查单位与报告单位的含义及它们之间的联系。
4、比较三种非全面调查的特点及应用场合。
5、何谓统计分组?统计分组应遵循的基本原则是什么?
6、说明组距、组限、组数、全距与组中值的含义及其它们的计算方法。
7、统计整理及其意义。
8、品质型数据的显示方法主要有哪些?
9、数值型数据的显示方法主要有哪些?
10、论述统计整理的完整过程。
第三章 数据分布特征的描述
(一)教学目的通过本章的学习,使同学们正确理解各种指标的概念及计算方法,学会运用相应的统计指标对数据的分布特征进行分析说明。
(二)基本要求使学生熟练掌握数据分布特征的描述方法。
(三)教学要点
1、集中趋势的测度指标及其计算方法;
2、离散趋势的测度指标及其计算方法;
3、总体分布的偏度与峰度的测度。
(四)教学时数
9——10课时
(五)学习内容本章共分三节:
第一节 数据分布集中趋势的测定一、定类数据集中趋势的测度——众数(Mode)
(一) 概念要点众数是指一组数据中出现次数最多的变量值,用表示。从变量分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,也就有多个众数。
1.集中趋势的测度值之一
2.出现次数最多的变量值
3.不受极端值的影响
4.可能没有众数或有几个众数
5.主要用于定类数据,也可用于定序数据和数值型数据众数的不唯一性:
无众数原始数据,10 5 9 12 6 8
一个众数原始数据,6 5 9 8 5 5
多于一个众数原始数据,25 28 28 36 42 42
(二)众数的计算根据未分组数据或单变量值分组数据计算众数时,我们只需找出出现次数最多的变量值即为众数。对于组距分组数据,众数的数值与其相邻两组的频数分布有一定的关系,这种关系可作如下的理解:
设众数组的频数为,众数前一组的频数为,众数后一组的频数为。当众数相邻两组的频数相等时,即=,众数组的组中值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,即>,则众数会向其前一组靠,众数小于其组中值;当众数组后一组的频数多于众数组前一组的频数时,即<,则众数会向其后一组靠,众数大于其组中值。基于这种思路,借助于几何图形而导出的分组数据众数的计算公式如下:
下限公式:
 (3.1)
上限公式:
 (3.2)
式中:表示众数所在组的下限;
表示众数所在组的上限;
表示众数所在组的组距。
[例3.1] 现利用表3.1—1资料计算3000户农民家庭年人均收入的众数。
表3,1 某地区农民家庭收入资料

从表3.1中的数据可以看出,出现频数最多的是1050,即众数组为1400—1600这一组=1050,=480,=600,根据(3.1)式可得众数为:

=1511.8(元)
利用上述公式计算众数时是假定数据分布具有明显的集中趋势,且众数组的频数在该组内是均匀分布的,若这些假定不成立,则众数的代表性就会很差。从众数的计算公式可以看出,众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的,因此,众数是一个位置代表值,它不受数据中极端值的影响。
二、定序数据集中趋势的测度——中位数和分位数
(一)概念要点中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。
1.集中趋势的测度值之一
2.排序后处于中间位置上的值
3.不受极端值的影响
4.主要用于定序数据,也可用数值型数据,但不能用于定类数据
5.各变量值与中位数的离差绝对值之和最小,即
(3.3)
(二)中位数的计算根据未分组资料和分组资料都可确定中位数。有三种情况:
1.对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:

则中位数就可以按下面的方式确定:
Me= ,当n为奇数 (3.4)
Me=,当n为偶数 (3.5)
2.对于单项式变量数列资料,由于变量值以及序列化,故中位数可以直接按下面的方式确定:
 ,当为奇数 (3.6)
Me=
,当为偶数 (3.7)
3.对于组距式变量数列,确定中位数也需要分两步进行:
(1)从变量数列的累计频数栏中找出第个单位所在的组,即“中位数组”,该组的上、下限就规定了中位数的可能取值范围;
(2)假定在中位数组内的各单位是均匀分布的,就可利用下面的公式计算中位数的近似值:
 (3.8)
 (3.9)
上面两式分别称作中位数的“下限公式”。式中,是到中位数组前面一组为止的向上累计频数,则是到中位数组后面一组为止的向下累计频数; =为中位数组的组距。
(三)分位数中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数(quartile)、十分位数(decile)和百分位数(percentile)等。它们分别是用3个点、9个点和99个点将数据四等分、10等分和100等分后各分位点上的值。这里只介绍四分位数的计算,其他分位数与之类似。
一组数据排序后处于25%和75%位置上的值,称为四分位数,也称四分位点。
四分位数是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(下四分位数)和处在75%位置上的数值(上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。
1.四分位数位置的确定设下四分位数为QL,上四分位数为QU,对于未分组的原始数据,各四分位数的位置分别为:
(1)未分组数据:

当四分位数的位置不在某一个位置上时,可根据四分位数的位置,按比例分摊四分位数两侧的差值。
[例3.2]在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),1500、750、780、1080、850、960、2000、1250、1630,计算人均月收入的四分位数。
解:,即QL在第2个数值(780)和第3个数值(850)之间0.5的位置上,因此
QL=(780+850)÷2=815(元)
,即QU在第7个数值(1500)和第8个数值(1630)之间0.5的位置上,因此
QU=(1500+1630)÷2=1565(元)
QL和QU之间包含了50%的数据,因此,我们可以说有一半的家庭人均月收入在815~1565元之间。
(2)组距分组数据:
 
数值型分组数据的四分位数(计算公式)
()
(3.10)
(3.10)
三、数值型数据集中趋势的测度
(一)算术平均数算术平均数(Arithmetic mean)也称为均值(Mean),是全部数据算术平均的结果。算术平均法是计算平均指标最基本、最常用的方法。计算公式为:

很多社会经济现象,总体标志总量常常是总体单位变量值的算术总和。例如,工人工资总额是总体中每个工人工资的总和,某地区小麦总产量是所有耕地小麦产量的总和。在总体标志总量和总体单位总量的基础上,就可以计算平均指标。
算术平均数与强度相对数都是两个总量指标的比值,也都是有名数,都反映了相互联系的两个现象之间的数量对比关系,计算方法也非常相似。但它们却是两个性质不同的统计指标,主要区别有两点:
其一,子项指标与母项指标的关系不同。平均数的子项指标与母项指标属于同一个统计总体,是同一统计总体的总体标志总量与总体单位总量的比值,而强度相对数则是来自两个不同总体但有联系的总量指标之比;
其二,算术平均数的子项指标(标志总量)随着母项指标(总体单位数)的变动而变动,二者互相适应,而强度相对数的子项指标同母项指标之间不存在这样的关系。
算术平均数在统计学中具有重要的地位,是集中趋势的最主要度量值,通常用(读作)表示。根据所掌握数据形式的不同,算术平均数有简单算术平均数和加权算术平均数。
1.简单算术平均数(Simple arithmetic mean)
未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。设统计数据为…,则算术平均数的计算公式为:
 (3.11)
[例3.3] 某班级40名同学统计学的考试成绩原始资料如表3.1—2所示。
表3.2 40名同学统计学原始成绩

该班40名同学统计学的平均成绩为:
(分)
2.加权算术平均数(Weighted arithmetic mean)
根据分组整理的数据计算算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。设原始数据被分成组,各组的变量值为…,各组变量值的次数或频数分别为…,则加权的算术平均数为:
 (3.12)
[例3.4] 根据例3.3提供的40名同学的统计学成绩原始资料分组整理如表3.1—3,根据此表资料计算平均成绩。
表3,3 40名同学统计学成绩汇总表

根据(3.12)式得
(分)
根据(3.12)式计算的平均成绩是76.5分,而与根据(3.11)式计算的平均成绩77.23分相比,相差0.73分,显然77.23分是准确的平均成绩,因为(3.11)式所用的是原始数据的全部信息。而(3,12)式是用各组的组中值代表各组的实际数据,使用代表值时是假定各组数据在各组中是均匀分布的,但实际情况与这一假定会有一定的偏差,使得利用分组资料计算的平均数与实际的平均值会产生误差,它是实际平均值的近似值。
加权算术平均数其数值的大小,不仅受各组变量值()大小的影响,而且受各组变量值出现的频数即权数()大小的影响。如果某一组的权数大,说明该组的数据较多,那么该组数据的大小对算术平均数的影响就越大,反之,则越小。实际上,我们将(3.12)式变形为下面的形式,就更能清楚地看出这一点。
 (3.13)
由(3.13)式可以清楚地看出,加权算术平均数受各组变量值()和各组权数即频率大小的影响。频率越大,相应的变量值计入平均数的份额也越大,对平均数的影响就越大;反之,频率越小,相应的变量值计入平均数的份额也越小,对平均数的影响就越小。这就是权数权衡轻重作用的实质。
当我们掌握的权数不是各组变量值出现的频数,而是频率时,可直接根据(4.3.3)式计算算术平均数。如例3,2,根据各组的频数计算的频率分别为:0.05、0.2、0.4、0.25、0.1,各组频率之和为1,则用频率计算的加权算术平均数为:

(分)
从计算结果看,用频率加权计算的结果与用频数加权计算的结果是一致的。
需要指出的是,当各组变量值出现的频数()或频率相等时,权数的作用就消失了,这就意味着各组变量值对总平均的结果所起的作用是一样的,此时,加权算术平均数就等于简单算术平均数。
在实际生活中,我们也会经常遇到由相对数计算平均数的情况。一般地说,求相对数的平均数应采用加权平均的方法,此时,用于加权平均的权数不再是频数或频率,而应根据相对数的含义,选择适当的权数。下面举一个实例说明。
[例3.5] 某公司所属10个企业资金利润率分组资料如表3.4,要求计算该公司10个企业的平均利润率。
表3.4 某公司所属10个企业资金利润率分组资料

该例子的平均对象是各企业的资金利润率,表中的企业数虽然是次数或频数,但却不是合适的权数。要正确计算公司10个企业的平均资金利润率,因为资金利润率=利润总额/资金总额,所以计算平均资金利润率需要以资金总额为权数,才能符合该指标的性质。因此,该公司10个企业的平均利润率为:

算术平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。从统计思想上看,算术平均数是一组数据的重心所在,它是消除了一些随机因素影响后或者数据误差相互抵消后的必然性的结果。例如每年分季度的观测数据,各年同季的数据由于受一些偶然性随机因素的影响,其数值表现出一定的差异性,但将各年同季的数据加以平均,计算的算术平均数,就消除了一些随机因素的影响,反映出季节变动必然性的数量特征。再如,对同一事物进行多次测量,由于测量误差所致,或者其它因素的偶然影响,使得测量结果不一致,但利用算术平均数作为其代表值,则可以使误差相互抵消,反映出事物固有的数量特征。另外,算术平均数具有下面一些重要的数学性质,这些数学性质在实际中有着广泛的应用,同时也体现了算术平均数的统计思想。
⑴各变量值与其算术平均数的离差之和等于零,即
 或 
⑵各变量值与其算术平均数的离差平方和最小,即
(最小) 或 (最小)
(二)调和平均数(Harmonic mean)
在实际工作中,经常会遇到只有各组变量值和各组标志总量而缺少总体单位数的情况,这时就要用调和平均数法计算平均指标。
为了方便调和平均数的概念和计算方法的说明,我们先看一个简单的例子。
[例3.6] 市场上早、中、晚蔬菜的价格分别是早晨,0.67公斤/元,中午0.5公斤/元,晚上0.4公斤/元。现在,我们分别按四种方法在购买蔬菜,分别计算平均价格(不管按什么方法购买,平均价格都应该等于花费的现金除所买蔬菜的数量):
第一种买法:早、中、晚各买一公斤则蔬菜平均价格为:=0.523(元/公斤)
第二种买法:早晨买1公斤,中午买2公斤,晚上买3公斤则蔬菜平均价格为:=
=0.523(元/公斤)
第三种买法:早、中、晚各买一元在这种情况下,计算蔬菜平均价格比上述两种方法稍微复杂一些,我们得先计算出一元钱所购买蔬菜的数量,然后再计算蔬菜的平均价格。
要计算蔬菜的平均价格,首先应该计算出早、中、晚各花费1元钱所购买蔬菜的数量:
其中:早晨购买蔬菜的数量==1.5(公斤);
中午购买蔬菜的数量==2(公斤);
晚上购买蔬菜的数量==2.5(公斤)。
蔬菜平均价格为:(元/公斤)
这种计算平均指标的方法同算术平均法有很大的不同,由于资料中缺乏总体单位总量,所以,就不可能直接用算术平均的方法计算平均指标。为了达到计算目的,首先要用变量值的倒数计算出总体单位总量来,然后再计算平均指标,调和平均数法因此而得名,也正是由于这个原因,调和平均数又称为倒数平均数。
第四种买法,早晨买1,中午买2,晚上买3元钱
和第三种买法一样,我们还是得先计算出早晨、中午和晚上所购买蔬菜的数量,然后再计算平均价格。
早晨购买蔬菜的数量==1.5(公斤);
中午购买蔬菜的数量==4(公斤);
晚上购买蔬菜的数量==7.5(公斤)。
蔬菜平均价格为: =(元/公斤)
在上述计算平均价格的过程中,早、中、晚三个时段购买蔬菜所花费的现金是计算平均价格的权数,这种方法我们称为加权调和平均法。
由以上分析过程得出调和平均数的定义:
调和平均数是各个变量值倒数的算术平均数的倒数,习惯上用(H)表示。计算公式为:
简单调和平均数:
 (3.14)
加权调和平均数
 (3.15)
在实际工作中,调和平均数通常是作为算术平均数的变形使用的,也就是由于受所掌握资料的限制,有时不能直接采用算术平均数的计算公式计算平均数,这就需要使用调和平均数的形式进行计算。为了更好地理解调和平均数的应用场合,我们看下面的例子。
[例3.6] 某商品有三种不同的规格,销售单价与销售量如表3.5所示,求这三种不同规格商品的平均销售单价。
表3.5 某商品三种规格的销售数据

从平均价格的实际意义看,其计算方法应该是:

根据题中给出的原始数据(三种规格的销售单价和销售量),可以求出销售额()数据,因此计算平均价格在形式上采用的是加权算术平均数公式,即
(元/件)
如果已知的不是销售量数据,而是销售额,如表3.1—6所示,就应改变计算方法。
表3.6 某商品三种规格的销售数据
 根据表3.6给出的原始数据(三种规格的销售单价与销售额)计算平均价格时,就无法直接采用加权算术平均数形式。这时,需要根据销售单价和销售额数据先求出销售量数据,再用总销售额除以总销售量即得平均价格,即加权调和平均。根据表4.3.5的数据,代入(4.3.5)式得平均价格为:

这与采用加权算术平均数公式的计算结果完全相等。事实上,(4.3.5)式只是加权算术平均数的另一种表现形式,式中(销售额)实际上是销售单价与销售量的乘积,即=,这从下面的式中可以清楚地看出来。

由此可见,调和平均数和算术平均数在本质上是一致的,惟一的区别是计算时使用了不同的数据。在实际应用时,可掌握这样的原则,当计算算术平均数其分子资料未知时,就采用加权算术平均数计算平均数,分母资料未知时,就采用加权调和平均数计算平均数。
(三)几何平均数(Geometric mean)
几何平均数是个变量值乘积的次方根。可分为简单几何平均数和加权几何平均数,计算公式分别为:
简单平均平均数  (3.16)
加权几何平均数  (3.17)
式中,为连乘符号。
几何平均数是适应于特殊数据的一种平均数,在实际生活中,通常用来计算平均比率和平均速度。当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。
[例3.7] 某产品需经三个车间连续加工,已知三个车间制品的合格率分别为95%、90%、98%,求三个车间平均合格率。
由于产品是由三个车间连续加工完成的,第二个车间加工的是第一个车间完工的合格制品,第三车间加工的又是第二车间完工的合格制品,因此,三个车间总合格率是三个车间相应合格率的连乘积,求平均合格率就不能采用算术平均法,而应当用几何平均法。则三个车间平均合格率为:

[例3.8] 某地区GDP 1991~1995年平均发展速度为107.2%,1996~1998年平均发展速度为108.7%,1999~2000年平均发展速度为110%,求该地区1991~2000年间的平均发展速度。
由于总速度是各年发展速度连乘形成的,该资料提供的各时段的平均发展速度所代表的时间长度又有所不同,所以根据该资料求平均发展速度需用加权的几何平均法。所要求的平均发展速度为:

=1.082(或108.2%)
三、平均数之间的关系算术平均数、调和平均数和几何平均数的关系
算术平均数、调和平均数和几何平均数都是数值平均数,即都是根据所有数据计算的。如果从纯数量关系上考察,这三种平均数的关系如下:
1,当一组数据中所有数据不尽相同时,据此计算的三种平均数的结果为:算术平均数最大,调和平均数最小,几何平均数居中。它们的关系用公式表示即为:>>。当一组数据中出现极端值时,通过这种关系我们不难看出,极端值对这三种平均数的影响程度是有差别的,它对算术平均数的影响最大,对几何平均数的影响次之,对调和平均数的影响最小。
2,当一组数据中所有的数据都相同时,据此计算的三种平均数相等,即:。
三种数值平均数的这种关系是纯数学意义上的。当然,在实际应用中,采用何种平均数应取决于现象的客观性质和研究目的。就是说,适宜用算术平均数计算的,就不能用调和平均数或几何平均数计算,反之亦然。算术平均数是应用最为广泛的一种平均数,因为其计算方法是与许多社会经济现象的数量关系相符合的,即许多社会经济现象总体各单位的标志值之和等于总体的标志总量,且这种方法易理解并具有优良的数学性质。调和平均数在实际应用中,通常是作为算术平均数的变形使用的,即利用调和平均数的形式来计算算术平均数。几何平均数适合于对一些特殊数据如比率、速度等的平均。
(二)算术平均数与众数、中位数的关系算术平均数与众数、中位数的关系取决于频数分布的状况。它们的关系如下:
1,当数据具有单一众数且频数分布对称时,算术平均数与众数、中位数三者完全相等,即,这一关系如图3.1所示。
2.当频数分布呈现右偏态时,说明数据存在最大值,必然拉动算术平均数向极大值一方靠,则三者之间的关系为>>,这一关系如图3.2。
3,当频数分布呈现左偏态时,说明数据存在最小值,必然拉动算术平均数向极小值一方靠,而众数和中位数由于是位置平均数,不受极值的影响,因此,三者之间的关系为<<,这一关系如图3.3。

从上面的分析我们可以看出,当频数分布出现偏态时,极端值对算术平均数产生很大的影响,而对众数、中位数没有影响,此时,用众数、中位数作为一组数据的中心值比算术平均数有较高的代表性。
算术平均数与众数、中位数如果从数值上的关系看,当频数分布的偏斜程度不是很大时,无论是左偏还是右偏,众数与中位数的距离约为算术平均数与中位数的距离的两倍,即
︱︳=2︱︳ (3.18)
根据上述关系,可以得出:
 (3.19)
对于一组数据,在已知两个代表值的情况下,可根据上式推算出另一代表值。
[例3.9] 根据某城市住户家庭月收入的抽样调查资料算得众数为2043元,中位数为2271元,问算术平均数为多少?其分布呈何形态?
由已知资料,推算样本的算术平均数为:
(元)
因为 2385 >2271> 2043
即有 >>
所以,该城市住户家庭月收入分布呈右偏态分布。
第二节 数据分布离散趋势的测定描述一组数据离散程度常用异众比率、四分位差、极差、平均差、方差和标准差(含比率的标准差)、变异系数等。
变异指标含义平均指标是统计总体中各单位某一数量标志的一般水平,反映了总体分布的集中趋势。集中趋势只是数据分布的一个特征,它所反映的是各变量值向其中心值聚集的程度。而这种聚集的程度显然有强弱之分,这与各变量值的差异有着密切的联系。变量值的差异越大,数值的集中趋势越弱,变量值的差异越小,数据的集中趋势越强。因此,要全面描述数据的分布特征,除了要对数据集中趋势加以度量外,还要对数据的差异程度进行度量。数据的差异程度就是各变量值远离其中心值的程度,因此也称为离中趋势。
(一)变异指标的概念在统计研究中,通常把一组数值之间的差异程度叫做标志变动度。测定标志变动度大小的指标叫做标志变异指标。标志变动度与标志变异指标在数值上成正比。如果说平均指标说明总体分布的集中趋势的话,标志变异指标则说明总体分布的离中趋势。
(二)变异指标的作用变异指标是描述数据分布的一个很重要的特征值,因此,它在统计分析、统计推断中具有很重要的作用。具体可以概括为以下几点,
1.反映总体各单位变量值分布的均衡性一般来说,标志变异指标数值越大,总体各单位变量值分布的离散趋势越高、均衡性越低,反之,变量值分布的的离散趋势越低、均衡性就越高。
2.判断平均指标对总体各单位变量值代表性的高低平均指标作为总体各单位某一数量标志的代表值,其代表性的高低与总体差异程度有直接关系:总体的标志变异指标值愈大,平均数的代表性愈低;反之,标志变异指标值愈小,平均数代表性愈高。另一方面,平均指标代表性的高低同总体各单位变量值分布的均衡性也有直接关系:总体各单位变量值分布的均衡性越高,平均指标代表性就越高;反之,总体各单位变量值分布的均衡性越低,平均指标代表性就越低。
3.在实际工作中,借助标志变异指标还可以对社会经济活动过程的节奏性和均衡性进行评价
4.标志变异指标是衡量风险大小的重要指标。
(三)变异指标的类型根据所依据数据类型的不同,变异指标有异众比率、四分位差、全距、平均差、方差和标准差、离散系数等。
二、定类数据离散趋势的测度——异众比率非众数组的频数占总频数的比率(variation ratio),称为异众比率,用表示。
异众比率的计算公式为:
 (3.18)
式中:为变量值的总频数;为众数组的频数异众比率的作用是衡量众数对一组数据的代表性程度的指标。异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。异众比率主要用于测度分类数据的离散程度,当然,对于顺序数据也可以计算异众比率。
[例3.10]一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了纪录。整理得不同品牌饮料的频数分布资料如表4.4.1所示,要求根据资料计算异众比率。
表3.7 50名顾客购买饮料统计表
解,
计算结果说明在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”来代表消费者购买饮料品牌的状况,其代表性不是很好。
此外,利用异众比率还可以对不同总体或样本的离散程度进行比较。假定我们在另一个超市对统一问题抽查了100人,购买可口可乐的人数为40人,则异众比率为60%。通过比较可知,本次调查的异众比率小于上一次调查,因此,用“可口可乐”作为消费者购买饮料品牌的代表值比上一次调查要好些。
三、定序数据离散趋势的测度——四分位差上四分位数与下四分位数之差,称为四分位差,亦称为内距或四分间距(inter-quartile range),用表示。
四分位差的计算公式为:
 (3.19)
四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。
四分位差主要用于测度顺序数据的离散程度。当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。
[例3.11]根据例3.2资料计算上下四分位数,那么家庭人均月收入的四分位差为:

四、全距全距又称极差,是一组数据的最大值与最小值之差,用表示。计算公式为:
 (3.20)
式中,、分别表示为一组数据的最大值与最小值。由于全距是根据一组数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,越小,表明数值变动的范围越小,即数列中各变量值差异小。
[例3.12] 例3.1给出的40个同学统计学的考试成绩,其最高成绩为99分,最低成绩为36,则全距为:
(分)
如果资料经过整理,并形成组距分配数列,全距可近似表示为:
≈最高组上限值-最低组下限值全距是描述离散程度的最简单度量值,计算简单直观,易于理解,但其数值大小易受极端变量值的影响,且不反映中间变量值的差异,因而不能准确描述出数据的离中程度。
五、平均差(Mean deviation)
平均差是各变量值与其算术平均数离差绝对值的平均数,用表示。根据掌握资料的不同,平均差有以下两种计算方法:
1,简单平均法对于未分组资料,采用简单平均法。其计算公式为:
= (3.21)
[例3.13] 某厂甲、乙两组工人生产某种产品的产量资料如表3.8所示。
表3.8 平均差计算表

根据表3.8资料可得:
(件) ==(件)
(件) ==(件)
从计算结果看,甲、乙两组平均生产件数相等,但由于甲组的平均差(1.2件)小于乙组的平均差(16件),因而其平均数的代表性比乙组大。
2,加权平均法在资料分组的情况下,应采用加权平均式:
= (3.22)
[例3.14] 某企业100名工人的月工资资料如表3.9所示。
表3.9 平均差计算表

根据表3.9资料可得该企业的月平均工资和平均差为:
 (元)
(元)
计算结果表明,该企业105名工人的月工资水平差异程度平均为80.7元。
平均差计算简便,意义明确,而且平均差是根据所有变量值计算的,因此它能够准确地、全面地反映一组数值的变异程度。但是,由于平均差是用绝对值进行运算的,它不适宜于代数形式处理,所以在实际应用上受到很大的限制。
六、方差和标准差(Variance,Standard deviation)
方差是各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根。
方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均数相比平均相差的数值,因此它能准确地反映出数据的差异程度。但与平均差不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,这更便于数学上的处理。因此,方差、标准差是实际中应用最广泛的离中程度度量值。由于总体的方差、标准差与样本的方差、标准差在计算上有所区别,因此下面分别加以介绍。
(一)总体的方差和标准差设总体的方差为,标准差为,对于未分组整理的原始资料,方差和标准差的计算公式分别为:
 (3.23)
 (3.24)
对于分组数据,方差和标准差的计算公式分别为:
 (3.25)
 (3.26)
[例3.15] 现仍利用[例4.4.5]资料计算方差和标准差,计算过程见表3.10。
表3.10 方差和标准差计算表

=(元2 )
(元)
(二)样本的方差和标准差样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1去除总离差平方和。
设样本的方差为,标准差为,对于未分组整理的原始资料,方差和标准差的计算公式为:
 (3.27)
 (3.28)
对于分组数据,方差和标准差的计算公式为:
 (3.29)
 (3.30)
[例3.16] 如果表3.10的数据为样本资料,则计算的样本方差和标准差为:

 (元)
这与根据总体的方差和标准差计算公式计算的结果相差不大。当很大时,样本方差与总体的方差的计算结果相差很小,这时样本方差也可以用总体方差的公式来计算。
(三)是非标志的方差与标准差在实际生活中,有些事物或现象的特征只表现为两种性质上的差异,例如,产品的质量表现为合格或不合格,人的性别表现为男或女,人们对某种意见表示为同意或不同意;对学生考试成绩分为及格和不及格,等等。这些只表现为是与否、有或无的标志,称为是非标志,也称为交替标志。在进行抽样估计时,是非标志的方差或标准差具有很重要的意义。
1,成数(比例)
如前所述,是非标志只有两种表现,我们把总体中或样本中具有某种表现或不具有某种表现的单位数占全部单位数的比重称为成数,它反映了总体或样本中“是”与“非”的构成,并且代表着两种表现或性质各反复出现的程度,即频率。例如,某一批产品,合格品占95%,不合格品占5%。在这里。95%和5%均为成数。
若以表示总体中具有某种表现的单位数,表示总体中不具有某种表现的单位数,表示总体单位数,则成数可表示为:
 或 
对于样本来说,与总体对应的就是,与总体对应的就是,样本单位数为,则有
 或 
2,是非标志的平均数是非标志是一种品质标志,其表现为文字。因此,在计算平均数时,首先需要将文字表现进行数量化处理。用“1”表示具有某种表现,用“0”表示不具有某种表现,然后以“1”和“0”作为变量值,计算加权算术平均数。现以总体为例予以说明。
 (3.31)
由此可知,总体是非标志的平均数,即为被研究标志具有某种表现的成数,同样可得样本是非标志的平均数即为被研究标志具有某种表现的成数。
3,是非标志的方差与标准差将经过量化处理的是非标志的表现“1”和“0”作为变量值代入总体的方差计算公式:


为区别于一般变量值的方差,我们将是非标志的方差记为,即
 (3.32)
是非标志的标准差为:
 (3.33)
类似地,可得样本是非标志的方差和标准差为:
 (3.34)
 (3.35)
[例3.17] 从一批产品中随机抽取100件产品进行质量测试,测试的结果为96件合格,4件不合格,试计算成数的方差和标准差。
根据所给资料可得,
 
 
是非标志的方差、标准差,当时取得最大值,方差最大值为0.25,标准差最大值为0.5,也就是说,此时是非标志的变异程度最大。如某学生群体中男生数和女生数相等,即男女生的成数均为0.5(或50%),说明该学生群体性别差异程度最大。是非标志的方差、标准差的最小值均为0。
4,方差的数学性质
⑴ 变量的方差等于变量平方的平均数减去变量平均数的平方,即
 (3.36)
其中,,
方差的该数学性质可使变量方差的计算更为简便。
⑵各变量值对算术平均数的方差,小于等于对任意常数的方差。用公式表示即为:
≤ (为任意常数) (3.37)
(四)相对位置的度量:标准分数有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数(Standard score),以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群值。
变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或Z值。
设标准分数为Z,则有: (3.38)
标准分数也给出了一组数据中各数值的相对位置。比如,如果某个数值的标准分数为-2,我们就知道该数值低于均值2倍的标准差。 (4.4.21) 式也就是我们常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,常常需要对各变量数值进行标准化处理。
【例3.18】根据例3.2的数据,计算每个家庭人均收入的标准分数。
解:根据已知数据计算得:。计算每个家庭人均月收入的标准分数如表3.11所示。
表3.11 9个家庭人均月收入的标准分数

由表3.11可知,收入最低的家庭其人均收入与平均数相比低1.042个标准差;而收入最高的家庭人均收入比平均数高1.853个标准差。
标准分数均值为0,标准差为1,即:
实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0、标准差为1。
经验法则表明:当一组数据对称分布时
——约有68.27%的数据在平均数加减1个标准差的范围内
——约有95.45%的数据在平均数加减2个标准差的范围内
——约有99.73%的数据在平均数加减3个标准差的范围内。
由此可见,一组数据中低于或高于平均数3个标准差以上的数据很少。因此,在统计上,往往将平均数3个标准差以外的数据称为异常值或离群值。
七、相对离散程度:离散系数前面介绍的全距、平均差、方差和标准差都是反映一组数值变异程度的绝对值,其数值的大小,不仅取决于数值的变异程度,而且还与变量值水平的高低、计量单位的不同有关。所以,不宜直接利用上述变异指标对不同水平、不同计量单位的现象进行比较,应当先做无量纲化处理,即将上述的反映数据的绝对差异程度的变异指标转化为反映相对差异程度的指标,然后再进行对比。
离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比值。离散系数是一个无名数,可以用于比较不同数列的变异程度。离散系数通常用表示,常用的离散系数有平均差系数和标准差系数,其计算公式分别为:
 (3.41)
 (43.42)
[例3.19] 甲乙两组工人的平均工资分别为138.14元、176元,标准差分别为21.32元、24.67元。两组工人工资水平离散系数计算如下:


从标准差来看,乙组工人工资水平的标准差比甲组大,但不能断言,乙组平均工资的代表性小。这是因为两组工人的工资水平处在不同的水平上,所以不能直接根据标准差的大小作结论。而正确的方法要用消除了数列水平的离散系数比较。从两组的离散系数可以看出,甲组相对的变异程度大于乙组,因而乙组平均工资的代表性要大。
第三节 数据分布偏度与峰度的测定偏度是对数据分布在偏移方向和程度所作的进一步描述;峰度是用来对数据分布的扁平程度所做的描述。
对于偏斜程度的描述用偏态系数,扁平程度的描述用峰度系数。
集中趋势和离中趋势是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰度就是对这些分布特征的描述。
一、偏态的度量偏态是对分布偏斜方向及程度的度量。从前面的内容中我们已经知道,频数分布有对称的,有不对称的即偏态的。在偏态的分布中,又有两种不同的形态,即左偏和右偏。我们可以利用众数、中位数和算术平均数之间的关系判断分布是左偏还是右偏,但要度量分布偏斜的程度,就需要计算偏态系数了。偏态系数的计算方法很多,这里仅介绍两种。
由算术平均数与众数之间的关系求偏态系数任何一个频数分布的算术平均数与众数之间的差异情况,与这个频数分布的形态有固定的关系。若频数分布是对称的,则算术平均数等于众数;若频数分布为右偏,则算术平均数大于众数;若频数分布为左偏,则算术平均数小于众数。用其二者的差量除以标准差,即可求得偏态系数,计算公式为:
 (3.43)
当时,,大体表明频数分布是对称的;当>时,>0,表明频数分布右偏,偏态系数越大,表明右偏程度越大;若<,<0,表明频数分布左偏,偏态系数越小,表示左偏程度越大。
(二)动差法动差又称矩,原是物理学上用以表示力与力臂对重心关系的术语,这个关系和统计学中变量与权数对平均数的关系在性质上很类似,所以统计学也用动差来说明频数分布的性质。
一般地说,取变量的值为中点,所有变量值与之差的次方的平均数称为变量关于的阶动差。用式子表示即为:

当时,即变量以原点为中心,上式称为阶原点动差,用大写英文字母表示。
一阶原点动差,,即算术平均数二阶原点动差,,即平方平均数三阶原点动差,,等等当时,即变量以算术平均数为中心,上式称为阶中心动差,用小写英文字母表示。
一阶中心动差,
二阶中心动差,
三阶中心动差,,等等需要注意的是,计算各阶原点动差和各阶中心动差,如果依据的资料是分组资料,则应用各组的频数或频率加权平均。由于中心动差计算起来比较繁杂,而计算原点动差相对比较简单,通常多从原点动差来推算中心动差。只要展开中心动差的各项,就容易求得它与原点动差的关系。
 

,等等。
采用动差法计算偏态系数是用变量的三阶中心动差与进行对比,计算公式为:
 (3.44)
当分布对称时,变量的三阶中心动差由于离差三次方后正负相互抵消而取得0值,则;当分布不对称时,正负离差不能抵消,就形成正的或负的三阶中心动差。当为正值时,表示正偏离差值比负偏离差值要大,可以判断为正偏或右偏;反之,当为负值时,表示负偏离差值比正偏离差值要大,可以判断为负偏或左偏。越大,表示偏斜的程度就越大。由于三阶中心动差含有计量单位,为消除计量单位的影响,就用去除,使其转化为相对数。同样的,的绝对值越大,表示偏斜的程度就越大。3.12
表3.12 某地区农民家庭人均收入数据偏态计算表

注:表中为各组户数在总户数中所占比重,即频率。
根据表4.5.1数据计算得:
1596(元)
305.26(元)
18838272
将计算结果代入(4.5.1)式得:
从计算结果可以看出,偏态系数为正值,而且数值较大,说明该地区农民家庭人均收入的分布为右偏分布,即人均收入较少的家庭占据多数,而人均收入较高的家庭则占少数,而且偏斜的程度较大。
二、峰度的度量峰度是用来衡量分布的集中程度或分布曲线的尖峭程度的指标。计算公式如下:
 (3.45)
分布曲线的尖峭程度与偶数阶中心动差的数值大小有直接的关系,是方差,于是就以四阶中心动差来度量分布曲线的尖峭程度。是个绝对数,含有计量单位,为消除计量单位的影响,将除以,就得到无量纲的相对数。衡量分布的集中程度或分布曲线的尖峭程度往往是以正态分布的峰度作为比较标准的。在正态分布条件下,=3,将各种不同分布的尖峭程度与正态分布比较,即减3,就得峰度β的测定公式。
当峰度β>0时,表示分布的形状比正态分布更瘦更高,这意味着分布比正态分布更集中在平均数周围,这样的分布称为尖峰分布,如图3.4();β=0时,分布为正态分布;β<0,表示分布比正态分布更矮更胖,意味着分布比正态分布更分散,这样的分布称为平峰分布如图3.4()。

图3.4 尖峰分布与平峰分布示意图
[例3.20] 根据例4.5.1中的数据,计算农民家庭人均收入分布的峰度系数。
根据表4,5.1的计算结果得:
27912466431.8
0.21
由于>0,说明该地区农民家庭人均收入的分布为尖峰分布,说明低收入家庭占有较大的比重。
(六)本章难点
1、集中趋势指标的计算方法与应用场合;
2、离散趋势指标的计算方法与应用场合;
3、如何正确运用离散趋势指标评价总体平均水平的代表性;
4、对标准差、方差等指标含义的准确理解。
5、偏度与峰度指标的计算方法与应用场合。
(七)复习思考题
1、考察一个分布数列的特征时,为什么必须同时运用集中趋势指标和离散趋势指标?
2、对总体进行集中趋势的描述时应遵循哪些基本原则?
3、试比较极差、平均差和标准差三种变异指标的特点,并说明为什么标准差是最常用、最基本的变异指标?
4、试比较算术平均数、调和平均数、几何平均数、中位数与众数的特点。
第四章 时间序列分析
(一)教学目的通过本章的学习,掌握时间序列的概念、类型,学会各种动态分析指标的计算方法。
(二)基本要求要求学会各种水平和速度指标的计算方法,并能对时间序列的长期趋势进行分析和预测。
(三)教学要点
1、时间序列的概念与种类;
2、动态分析指标的计算;
3、长期趋势、季节变动的测定。
(四)教学时数
7——10课时
(五)教学内容本章共分四节:
第四章 时间数列分析本章前一部分利用时间数列,计算一系列分析指标,用以描述现象的数量表现。后一部分根据影响事物发展变化因素,采用科学的方法,将时间数列受各类因素(长期趋势、季节变动、循环变动和不规则变动)的影响状况分别测定出来,研究现象发展变化的原因及其规律性,为预测未来和决策提供依据。
第一节 时间数列分析概述一、时间数列的概念时间数列:亦称为动态数列或时间序列(Time Series),就是把反映某一现象的同一指标在不同时间上的取值,按时间的先后顺序排列所形成的一个动态数列。
时间数列的构成要素:
1.现象所属的时间。时间可长可短,可以以日为时间单位,也可以以年为时间单位,甚至更长。
2.统计指标在一定时间条件下的数值。
二、时间数列的分类时间数列的分类在时间数列分析中具有重要的意义。因为,在很多情况下,时间数列的种类不同,则时间数列的分析方法就不同。因此,为了能够保证对时间数列进行准确分析,则首先必须正确判断时间数列的类型。而要正确判断时间数列的类型,其关键又在于对有关统计指标的分类进行准确理解。
由于时间数列是由统计指标和时间两个要素所构成,因此时间数列的分类实际上和统计指标的分类是一致的。
时间数列分为:总量指标时间数列、相对指标时间数列和平均指标时间数列。
(一)总量指标时间数列总量指标时间数列:又称为绝对数时间数列,是指由一系列同类的总量指标数值所构成的时间数列。它反映事物在不同时间上的规模、水平等总量特征。总量指标时间数列又分为时期数列和时点数列。
1.时期数列:是指由反映某种社会经济现象在一段时期内发展过程累计量的总量指标所构成的总量指标时间数列。
时期数列的特点:
(1)时期数列中各项指标值反映现象在一段时期内发展过程的总量;
(2)各项指标值随着现象的发展进程进行连续登记,因而各项指标值可以相加,相加后的指标值反映现象在更长时期内发展过程的总量;
(3)每项指标值的大小与其所包括的时间长短有直接关系,时期长,指标值大,时期短,指标值小,因此其时期间隔一般应该相等。
2.时点数列时点数列:是指由反映某种现象在一定时点(瞬间)上的发展状况的总量指标所构成的总量指标时间数列。
时点数列的特点:
(1)时点数列中各项指标值反映现象在一定时点上的发展状况;
(2)各项指标值只能按时点所表示的瞬间进行不连续登记,相加无实际经济意义,因而不能直接相加;
(3)各项指标值的大小,与其时点间隔的长短没有直接关系。
(二)相对数时间数列相对数时间数列:是指由一系列同类的相对指标数值所构成的时间数列。它可以反映社会经济现象数量对比关系的发展过程。
它包括:①由两个时期数列对比所形成的相对数时间数列;
②由两个时点数列对比所形成的相对数时间数列;
③由一个时期数列和一个时点数列对比所形成的相对数时间数列。
相对数时间数列反映事物数量关系的发展变化动态,由于各期相对数的对比基数不同,故其各项水平数值不能直接相加。
(三)平均数时间数列平均数时间数列:是指由一系列同类的平均数指标数值所构成的时间数列。它可以反映社会经济现象一般水平的发展变化过程。
这类动态数列可以揭示研究对象一般水平的发展趋势和发展规律。平均数时间数列中各项水平数值也不能直接加总。
三、编制时间数列的原则编制时间数列的目的,在于通过数列中各项指标值对比,说明社会经济现象的发展过程和规律性。因此,为了保证同一时间数列中指标值的可比性,即数列中前后各项指标值可以相互比较,应遵守以下几个基本编制原则:
(一)时间方面的可比性由于时期数列数值的大小,与时期长短成正比。时期愈长指标值愈大;反之则愈小。因此,时期数列中各项指标值所属的时期长短应该前后一致,才能对比,如果时期长短不同,应进行必要的调整。关于时期间隔,为了便于对比分析,间隔最好相等,也可以编制间隔不等的数列。
对于时点数列来说,则不存在指标值所属时间长短问题,只要求注意时点间隔是否一致即可。由于时点数列指标值的大小与时点间隔的长短没有直接关系,其时点间隔虽然可以不一致,但是为了明显地反映社会经济现象发展变化的规律性,时点间隔也应力求一致。
(二)空间的可比性(既总体范围大小应该一致)
总体范围是指时间数列指标值所包括的地区范围、隶属关系范围等。在进行时间数列分析时,要查明所依据的指标值总体范围是否前后一致。只有范围一致才能对比,如有变动应进行必要调整。
(三)指标口径的可比性指标口径是统计实践中的一种说法,它是指指标所包括的经济内容的多少。一般来说,只有同质的现象才能进行动态对比,才能表明现象发展变化的过程及趋势。在经济分析中,经常存在着这样一种情况,即有些指标从指标名称上看,在不同时间上它并没有什么变化,但随着时间的推移,其经济内容却发生了很大的变化。(例如工资的含义。)
(四)指标的计算方法和计量单位方面的可比性指标的计算方法和计量单位方面应该一致。各个指标的计算方法如果不一致,不便于动态对比。指标数值的计量单位也应该一致,否则也不可比。
四、时间数列分析的内容体系编制时间数列的目的就是通过对时间数列的分析来描述事物发展变化的基本过程、基本趋势和基本规律,以对事物的未来走势进行预测,最终为管理决策提供信息依据。因此,对时间数列的分析基本上可以分为三个层次:(见课本288页结构图)
第一个层次就是通过计算一些基本分析指标对事物的发展过程进行一般的统计描述;
第二个层次就是通过对时间数列的结构分析揭示事物发展变化的基本趋势和基本规律;
第三个层次就是在对事物发展变化的趋势及其规律有所认识的基础上,通过建立时间数列模型来对事物的未来进行预测。
第二节 时间数列的分析指标时间数列分析的第一个层次,即最基本的层次,就是从时间的角度对事物发展变化的基本状态进行描述。这种描述包括两个方面的基本内容:一个是回答“多少”的问题,一个是回答“快慢”的问题。在统计学的时间数列分析中,一般将描述前者的动态分析指标称为“水平指标”;将描述后者的动态分析指标称为“速度指标”。
一、时间数列的水平指标时间数列的水平指标共有四个:发展水平、平均发展水平、增长量与平均增长量。
(一)发展水平和平均发展水平
1.发展水平发展水平:是指时间数列中各时间上所对应的指标数值的统称为。它反映某种社会经济现象在一定时期或时点所达到的规模和水平。通常用表示。,,  是时间数列中各个时期或时点的发展水平。
在统计分析中规定:处于时间数列中第一期的指标值,称为最初发展水平();处于最后一期的指标值,称为最末发展水平();处于第一期指标值和最后一期指标值之间的指标值,称为中间发展水平。
在做动态对比时,将作为对比基准期的时期称为基期,其指标值也相应地被称为基期发展水平;将用以分析研究的时期称为报告期,其指标值被称为报告期发展水平。发展水平的这些不同内容,随着研究目的的不同而改变。
2.平均发展水平平均发展水平:是将不同时间的发展水平加以平均而得到的平均数,由于它是不同时间的、动态上的平均,故又称为序时平均数或动态平均数。
平均发展水平(序时平均数)与一般平均数的都反映现象的一般水平,但两者之间却有区别:一般平均数是根据同一时期总体标志总量与总体单位总量对比求得的,是根据变量数列计算的,从静态上说明总体某个数量标志的一般水平;序时平均数则是根据时间数列中不同时间的指标值的总和与时间的项数对比求得的,是根据时间数列计算的,从而说明某一现象在不同时间数值的一般水平。
在动态分析中,利用序时平均数分析社会经济现象的动态变化有很重要的作用:①用它可以反映社会经济现象在一段时间内所达到的一般水平,并对其作出概括的说明;②利用它可以消除现象在短期内波动的影响,便于观察现象的发展趋势和规律;③运用它还可以对不同单位、不同地区等在某一段时间内,某一事物的一般水平进行比较。
序时平均数,可以根据各种时间数列进行计算,由于时间数列中指标的性质不同,计算方法也不同。因此计算平均发展水平的基本思路是:首先要判断时间数列的类型,不同类型的时间数列,平均发展水平的计算方法也不同;其次,就是选择择具体的计算公式。下面分别讲述各种不同时间数列的平均发展水平的计算方法:
(1)总量指标时间数列的序时平均数
A、时期数列的序时平均数。
同一时期数列中各项指标值所属时期的长短相等,可以直接将各项指标值相加除以项数,用简单算术平均法计算序时平均数。其计算公式为, (4.1)
其中,为序时平均数,为各时期的发展水平,n为时期数。
B、时点数列的序时平均数时点数列的序时平均数,根据掌握资料的不同而有不同的计算方法:
①根据每日时点(连续时点)资料计算序时平均数。
在掌握整个研究时期中每日资料的情况下,序时平均数的计算方法与时期数列相同。即将每日数字相加再除以日数,用简单算术平均法计算序时平均数。该方法计算的平均发展水平是最为准确的。其计算公式为:
 (4.2)
其中,——各时点发展水平,n+1——指标项数(天数)
如果我们掌握了一段时期中每次变动的资料,则可以将每一资料所存在的日数为权数,对各时点指标值加权,用加权算术平均法来计算序时平均数。其公式为:
 (4.3)
其中,——每次变动的时点水平;——各时点水平所持续的间隔长度(天数)。
②根据间隔相等的时点资料计算序时平均数在掌握间隔相等时点资料的情况下,计算序时平均数,可以用简单算术平均法,先依次将相邻两个时点指标值相加除以“2”,得到两个时点指标值的序时平均数;然后再将这些序时平均数进行简单算术平均,就可以计算出整个时点数列的序时平均数。
时间间隔相等时点数列序时平均数的一般公式为:
 (4.4)
其中,,,  代表各时点水平,n代表项数,该公式又称为首尾折半法。
时点数列的序时平均数=(1/2首项数值+第二项数值+…+1/2末项数值)/(项数-1)
根据时间间隔相等的时点数列计算序时平均数的方法,是假定现象在各个时点之间的变动是均匀的,但是实际上并不完全如此,所以计算的序时平均数只能是近似值。由于间隔愈短,误差愈小,因此,为了使序时平均数能基本反映实际情况,时点数列的间隔不宜过长。
③根据间隔不等时点资料计算序时平均数在掌握间隔不等时点资料的情况下,可用不同的时点间隔长度作为权数,用加权算术平均法计算序时平均数。其公式为:
 (4.5)
其中,——各时点间隔长度。

(2)相对数时间数列和平均数时间数列的序时平均数相对数和平均数时间数列的序时平均数,是由两个总量指标时间数列对比形成的。由于各相对数和平均数的分母不同,不能直接将不同时间的相对数或平均数相加来计算序时平均数,而应是根据时期数列和时点数列序时平均数的求法,分别求出构成相对数和平均数时间数列的子项和母项数列的序时平均数,然后将它们对比求出相对数和平均数时间数列的序时平均数。其基本计算公式为, (4.6)
其中,为分子数列的序时平均数,为分母数列的序时平均数,为相对数或平均数时间数列的序时平均数。
[例4.1]某企业产值和职工人数资料如下表,计算该企业的年平均劳动生产率。(课本294页)
表4.1 某企业职工人数与总产值统计表时间
1991
1992
1993
1994
1995
1996
1997
1998
年末职工人数(人)
总产值(万元)
790
70.61
810
73.71
810
76.14
830
83.83
850
90.10
880
108.24
870
98.25
885
106.86
分析:劳动生产率是一个相对指标,而如果用每年的总产值除以相应年份的年平均职工人数所编制的年劳动生产率时间数列就属于相对指标时间数列。根据公式,只从计算相对数时间数列序时平均数的角度讲,就不一定把该数列编制出来了,直接分别计算其子项数列——总产值和母项数列——职工人数的序时平均数,然后将它们对比就可以了。但是,需要特别注意的是,职工人数和总产值两个时间数列在各自计算序时平均数时要注意时间口径的一致性。根据资料,对于年平均职工人数我们只能计算出1992-1998这7年的平均数。所以总产值这一总量指标时间数列虽然能计算出1991一1998这8年的平均数,但为了保持时间口径的可比性,它同样只能计算1992-1998这7年的平均数。因此只能计算出1992-1998年这一时期的年平均劳动生产率。
年平均劳动生产率
(万元/人年)
(二)增长量与平均增长量
1.增长量增长量:是时间数列中报告期发展水平与相比较的基期发展水平之差,反映社会经济现象报告期比基期增加或减少的数量,即:增长量=报告期发展水平一基期发展水平一般而言,分析的目的不同,选择的基期就不同。因此,根据基期的不同,可将增长量分为:累计增长量和逐期增长量。
(1)逐期增长量逐期增长量:是指时间数列中各期发展水平与其前期发展水平之差,说明现象逐期增加或减少的数量,用公式表示为:
逐期增长量=报告期发展水平一报告期上期发展水平
 (4.7)
在实际工作中,如果利用历年各月(季)的资料编制的时间数列,还可以计算一种特殊的逐期增长量——年距增长量,即用报告年的某月(季)的发展水平减去上一年同月(季)的发展水平。其意义在于消除由于季节不同对某些社会经济现象的影响。
(2)累计增长量累计增长量:是指时间数列中报告期发展水平与某一固定基期发展水平之差,说明现象在一定时期内总的增加或减少的数量,用公式表示为:
累计增长量=报告期发展水平-固定基期发展水平
= (4.8)
在同一时间数列中,各逐期增长量的代数和一定等于相应时期的累计增长量,即
 (4.9)
2.平均增长量平均增长量:是指时间数列中各逐期增长量的序时平均数,说明某社会经济现象在一段时期内平均每期增加或减少的数量。一般用简单算术平均法计算。其公式为:
平均增长量
 (4.10)
公式中第一步可以认为是平均增长量的定义公式,而第二步是根据累计增长量和逐期增长量的关系所得到的。还需要说明的一个问题是,增长量虽然有两类:累计增长量和逐期增长量,但由于累计增长量在不同时间上不具有可加性,即将累计增长量再累计没有什么经济意义,因此,所谓平均增长量就是指逐期增长量的序时平均数。
增长量和下面要讲的增长速度实际上是从两个不同的角度说明同一个问题,即分别从绝对数和相对数方面说明经济现象的增长程度。
二、时间数列的速度分析指标
(一)发展速度与增长速度
1.发展速度发展速度:是反映社会经济现象发展变化快慢程度的动态相对指标,它是根据两个不同时期的发展水平对比求得的。其计算结果一般用倍数或百分数表示。用公式表示为:
发展速度=报告期发展水平/基期发展水平根据对比的基期不同,可分为环比发展速度和定基发展速度两种。
定基发展速度:是时间数列中报告期期发展水平与固定基期发展水平对比所得到的相对数,说明某种社会经济现象在较长时期内总的发展方向和速度,故亦称为总速度。即报告期的水平是该固定基期的多少倍或百分之多少。
环比发展速度:是时间数列中报告期发展水平与前期发展水平之比,说明某种社会经济现象的逐期发展方向和速度。即报告期是上一期的多少倍或百分之多少。用公式表示为:
定基发展速度:
,, (4.11)
环比发展速度:
,, (4.12)
不难看出,定基发展速度与环比发展速度存在一定的数量关系:

(1)相邻若干个环比发展速度的连乘积等于相应的定基发展速度 ;
 (4.13)
(2)相邻两个定基发展速度之商等于相应的环比发展速度 。
2.增长速度增长速度:是表明社会经济现象增长程度的动态相对指标,它是根据增长量与基期发展水平对比求得的,用以说明报告期水平比基期水平增加了若干倍(或百分之几),其计算结果一般用倍数或百分数表示。用公式表示为:
增长速度=报告期增长量/基期发展水平
=(报告期发展水平-基期发展水平)/基期发展水平 =发展速度-1
增长速度由于采用的基期不同,可分定基增长速度和环比增长速度两种。用公式表示为:
定基增长速度:
,, (4.14)
(或 ,,) (4.15)
环比增长速度:
,, (4.16)
(或 ,,) (4.17)
可见增长速度等于发展速度减1。当报告期水平高于基期水平时,发展速度大于1或100%,增长速度为正值,表示现象增长的程度,亦称增长率;当计算期水平低于基期水平时,发展速度小于1或100%,增长速度为负值,表示现象降低的程度,亦称降低率。
(二)计算和运用速度指标应注意的问题
(1)时间数列中的指标值为0或负数时,不宜计算速度。
(2)速度指标与发展水平指标要结合使用。
速度是一个相对值,它与对比的基期值的大小有很大关系,大的速度背后,其隐含的增长绝对值可能很小;小的速度背后,其隐含的增长绝对值可能很大。这就是说,由于对比的基点不同,可能会造成速度数值上的较大差异,进而造成高的速度掩盖了低的增长。为了求得一个具有可比性的指标,就需要把速度指标与水平指标结合起来,计算增长1%的绝对值指标。
统计上把增长速度和增长量结合起来的指标,就是增长百分之一的绝对值。其计算公式为:
增长1%的绝对值 = 逐期增长量/环比增长速度 = 前期水平/100
证明: (4.18)
增长百分之一绝对值这一指标不仅可用于比较同一事物不同时期增长速度的经济意义,还可以用于比较不同国家、不同地区、不同单位之间同一事物增长速度所隐含的不同经济意义。对我们正确评价和处理速度与效益的关系是颇有好处的。
(三)平均发展速度与平均增长速度
1.平均速度指标平均速度:就是速度指标的动态平均数。因为速度指标有发展速度和增长速度两种,所以,平均速度指标也有两种:平均发展速度与平均增长速度。
从理论上讲,所谓平均发展速度是指时间数列中各期环比发展速度的序时平均数,它表明社会经济现象在一个较长时期内逐期发展变化的平均程度;而所谓平均增长速度也是指时间数列中各期环比增长速度的序时平均数,它表明社会经济现象在一个较长时期内逐期增长的平均程度。
但是,从计算平均速度的方法看,平均增长速度并不能根据各期环比增长速度直接计算,而是先计算平均发展速度,然后,根据平均发展速度与平均增长速度的关系来计算平均增长速度,即:
平均增长速度=平均发展速度一1
因此,所谓平均速度指标的计算方法问题实际上就是指平均发展速度的计算。
2.平均发展速度的计算方法平均发展速度通常采用两种方法计算:儿何平均法与方程法。
(1)几何平均法:又称水平法,它的基本出发点是从时间数列的最初发展水平开始,以数列的平均速度去代替各期的环比发展速度,由此推算出期末理论发展水平与期末实际发展水平相一致,即在基期发展水平的基础上,平均每年以多快的发展速度发展(),经过若干(季、月)后,才能达到报告期的发展水平()。公式为:
其中, 表示平均发展速度。
 (4.19)
由这一公式变形,可得平均发展速度的“几何法”计算公式,
根据定基发展速度和环比发展速度的关系,即将公式
 (4.20)
代入上式得平均发展速度的另一个计算公式:
 (4.21)
(2)方程法:又称累计法,它的基本出发点是:从时间数列的最初发展水平αo开始,以数列的平均速度去代替各期的环比发展速度,由此推算出各期理论发展水平之和与各期实际发展水平之和相一致,即:

解这个高次方程,其正根即为平均发展速度。但是,要求解这个高次方程是非常麻烦的,因此,在实际工作中,往往利用己经编好的《平均增长速度查对表》来计算。
由此可见,用方程法计算平均发展速度,侧重于考察中长期计划各期水平的总和,亦即计划期间的累计总量。这种方法适用于计算基本建设投资额、新增固定资产额、住宅建筑面积、造林面积等;指标的平均发展速度。
3.计算和应用平均速度指标应注意的问题
(1)几何平均法和高次方程法是计算平均发展速度的基本方法,但两种方法的侧重点不同:前者是从最末水平出发来研究问题,而后者则是从各期水平的累计总和出发进行考察。因此,它们的应用条件是不同的,同一资料,两种方法计算的结果也不相同。所以,在计算平均发展速度时要根据研究现象的性质、研究目的来选择合适的方法。例如,如果我们研究的是类似于年末人口数这样的存量现象,则利用方程法来计算其平均发展速度就没有多少意义。
(2)要根据事物的发展状态,应用分段平均发展速度来补充说明整个时期的总平均发展速度。因为总平均速度仅能笼统的反映现象在较长时期内逐期平均发展的程度,而掩盖了这种现象在不同时期的波动状况。尤其是当研究的时期较长时,更要注意这方面的问题。
(3)在应用几何平均法计算平均发展速度时,还要注意与环比发展速度结合进行分析。因为几何平均法计算的平均发展速度只考虑了最末水平与最初水平,中间各期水平无论怎样变化,对平均速度的高低都无影响。如果中间各期水平出现了特殊高低变化,或者最初、最末水平受到特殊因素的影响,就会降低或失去平均速度的意义。
(4)注意平均速度指标与原时间数列的发展水平、增长量、平均水平等指标的结合应用,以便对研究现象做出比较确切和全面的认识。
时间数列的趋势分析一、时间数列结构分析的意义
1.什么是时间数列的结构分析社会经济现象的发展变化是由许多错综复杂的因素共同作用的结果。①有些属于基本因素,它对事物的发展起决定性作用,影响事物在一段较长时间内呈现出一定的趋向,沿着一个方向(上升或下降)发展;②有些属于偶然的或非基本的因素,它对事物的发展只起局部的非决定性作用,影响时间数列各期发展水平出现短期不规则的波动;③还有些属于季节性因素,影响时间数列以一年为周期的季节性波动。为了研究社会经济现象发展变化的趋势或规律,并以此为依据来预测未来,就需要将这些不同因素的不同作用结果从时间数列的实际数据中分离出来,这就是时间数列的结构分析问题。
2.时间数列结构分析的意义即通过对时间数列进行深入的分析,研究社就经济现象发展变化的趋势或规律,并以此为依据来预测事物发展的前景,为决策层制定政策与计划,实行科学管理提供有效的咨询服务。
二、时间数列的构成因素社会经济现象的性质多种多样,发展的时空条件千差万别,影响事物发展的具体原因不可胜数。但就共同规律而言,一般可归纳为长期趋势、季节变动、循环变动和不规则变动四个因素。
1.长期趋势(T)
长期趋势:是指客观社会经济现象在一个相当长的时期内,由于受某种基本因素的影响所呈现出来一种基本走势。尽管在这个时期内,事物的发展仍有波动,但基本趋势不变。如股票市场的“牛市”和“熊市”。
2.季节变动 (S)
季节变动:是指由于自然条件、社会条件的影响,社会经济现象在一年内或更短的时间内,随着季节的转变而引起的周期性变动。如农产品收购、农业生产资料和其他季节性商品的销售、几大节日的客运量等,就有明显的季节性,而且年复一年地呈规律性变动。
季节变动一般以一年为周期。此外有的社会季节现象是以一日、一周、一月为周期而产生变动,亦称为准季节变动。如市内公共汽车的乘客,早晨逐渐增多,上、下班时间达到高峰,入夜以后逐渐减少,是以一日为周期的变动;市内商店的顾客、影剧院的售票,星期六和星期日最多,是以一周为周期的变动;由于机关、团体、企业习惯上在月初发工资,因此,银行活期储蓄存款月初增加,月末减少,这是以一月为周期的变动。
3.循环变动(C)
循环变动:是指社会经济现象以若干年为周期的涨落起伏相同或基本相同的一种波浪式的变动。如股票市场由牛市到熊市的周期再到下一个牛市与熊市的周期;资本主义经济由危机、萧条、复苏、繁荣的一个周期再到下一个危机、萧条、复苏、繁荣的周期。虽然每一个周期可能长短不同,但盛衰起伏周而复始。事物的循环变动,也是由事物发展的内在原因决定的。
4.不规则变动(I)
不规则变动:指客观社会经济现象由于天灾、人祸、战乱等突发事件或偶然因素引起是无周期性波动。
社会经济现象的发展变化,都是上述四种因素的全部或部分变动影响的结果。在现实生活中有些社会经济现象无循环变动,以年为单位的时间数列无季节变动。因此,时间数列预测分析应从实际出发,实际包含几个因素就分解和测定几个因素。
三、时间数列构成因素的结合方式由于客观存在在内容上的复杂性和方式上的多样性,影响客观事物的各种因素在其发生作用的过程中,所表现出来的关系也是多种多样的。在统计分析中,将这种关系一般概括为以下两种假设:
第一种假设是:各个组成部分所具有的变动数值是各自独立,彼此相加的,从而整个时间数列数值与各种构成之间的数量关系应该表现为下列公式:
Yi=Ti+Si+Ci+Ii (4.22)
第二种假设是:各个组成部分所具有的变动数值是相互依存,彼此相乘的,从而整个时间数列数值与各种构成之间的数量关系应该表现为下列公式:
Yi=Ti×Si×Ci×Ii (4.23)
四、长期趋势的测定方法
(一)长期趋势:是指现象在相当长的时期内,受某种基本因素的影响,持续增长或不断下降的趋势。例如,各国经济的发展,多半具有向上增长的趋势,主要是由于人口的增加飞技术的进步以及财富的积累等因素的结果。
(二)作用或意义分析时间数列的长期趋势,①描述社会经济现象在较长时期内发展变化的基本状态,以便进一步研究其发展变化的规律;②为预测事物未来的发展情况提供依据;③测定长期趋势,为研究季节变动时消除长期趋势的影响提供依据。
(三)测定长期趋势的基本方法测定长期趋势的基本方法是对时间数列进行修匀,修匀的基本目的就是消除影响事物变化的非基本因素。修匀的方法很多,但比较常用的是移动平均法和数学模型法。
1.移动平均法
(1)移动平均法的基本思想:通过扩大原时间序列的时间间隔,并按一定间隔长度逐期移动,分别计算出一系列移动平均数,这些平均数形成的新的时间序列对原时间序列的波动起到一定的修匀作用,削弱了原时间序列中季节周期、循环周期及短期偶然因素的影响,从而呈现出现象发展的变动趋势。
(2)具体操作方法首先,确定移动平均数的移动周期长度。
①移动周期一般以季节周期、循环变动周期长度为准而确立;
②如若不存在明显的季节周期和循环周期,一般而言,我们在确定移动周期的时间长度时,最好取奇数项目。
③如根据数据资料的特点,还非取偶数项不可,例如当时间数列中包含明显的季节变动时,如果是季度资料,则需要用四期移动平均来消除季节变动;而如果是月度资料,则需要用12期移动平均。此时,统计中的一般做法就是再对移动平均数时间数列进行第二次偶数项移动平均,目的是为了“正位”,第二次移动的周期一般取两期。
其次,就是计算移动平均数。
2.数学模型法数学模型法就是根据时间数列发展形态的特点,选择一种合适的数学方程式,进而以自变量x代表时间,y代表实际观测值,然后依据此方程式来分析长期趋势的方法。用数学模型法测定长期趋势,关键在于两个方面:
首先,是要科学的选择模型。
数学模型有直线型和曲线型两种类型,而每一种类型又有很多种具体形式。因此,在建立模型之前首先要判断趋势的形态。方法有两种:
一种是散点图法,即用直角坐标系做两个变量的散点图,然后根据散点图的形状来确定数学模型;
另一种是指标法,即通过计算时间数列的动态分析指标来确定时间数列的类型,基本结论是:①若时间数列的环比增长量大体相等,则其趋势线近似于一条直线,即;②若时间数列的二次增长量大体相等(即逐期增长量大体上呈等量递增或递减态势),则其趋势线近似于一条抛物线;③若时间数列的各期环比发展速度大体相等,则其趋势线近似于一条指数曲线。抛物线、指数曲线等都属于曲线型模型。在社会经济现象的客观现实中,有很多是按照曲线的轨迹演进,因此曲线模型在经济社会中是大量存在的。但是,曲线又是由很多直线联结而成,因此研究直线模型是研究各种曲线模型的基础。所以,本章主要介绍直线模型。
其次,是确定模型中的参数。
求解模型,实际上就是确定模型中的待定系数,即参数。从数学方法的角度看,最理想的方法就是"最小二乘法"。
选择直线模型来分析其长期趋势,并假设其方程为:,其中表示时间数列的实际水平值的估计值或叫长期趋势值;X表示时间变量,a、b是两个待定系数,分别表示趋势线在y轴上的截距和斜率。
依据这一时间数列的实际资料和“最小二乘法”的标准方程组求出这一直线方程中的两个参数。标准方程组如下:
 (4.24)
得出a、b两个参数的具体数值,则可得到方程。
最后,把各个时期的时间变量在代入这个趋势方程中,便得到各期的长期趋势值。
直线模型的简化计算法:
为了简化计算,可以将时间数列中的自变量,即时间变量的原点移动若干期。其中,最简便的方法是把原数列最中间的时间作为原点。具体做法是:
当时间数列的项数为奇数项时,可以取最中间一项的时间顺序号为0,中间以前的时间序号从中间往前依次为一1,-2,-3,…,中间以后的时间序号从中间往后依次为1,2,3,…;
当时间数列为偶数项时,将最中间的两项,前面的一项取为-1,后面的一项取为1,然后,从中间到两边,以前各期依次取-3,-5,-7,…;以后各期依次取3,5,7,…。若按上述规则取值,从而使9.20式中的∑xi=0,做到了这一点,就可以使标准方程简化为:
 (4.25), (4.26)
用简化公式计算的直线趋势方程和标准方程组所求出的方程实际上是同一条趋势线,所不同的只是原点的改变。原点改变后的趋势值和改变前的趋势值肯定是相等的。
第三节 季节变动分析二、季节变动的概念和特征
(一)季节变动概念季节变动:是指某些社会经济现象,由于受自然因素和社会条件、人们的消费习惯等因素的影响,在一年之内或更短的时间,随着季节更换而引起的一种有规律的变动。
在现实生活中,季节变动是一种极为普遍的现象。例如:商业经营中时令商品的销售量;农业生产中的蔬菜、水果、禽蛋的生产量;工业生产中的服装、水力发电等,都受生产条件和气候变化等因素的影响而形成有规则的周期性重复变动。
(二)季节变动有三个特征
1.季节变动按照一定的周期进行,是一种有规律的变动;
2.季节变动每年重复进行;
3.每个周期变化的强度大体相同。
季节变动是各种周期性变动中的很重要的一种,因此,分析季节变动的原理和方法,是分析其他周期性变动的基础。
季节变动的分析原理与方法
(一) 季节变动的分析原理季节变动是一种各年变化强度大体相同且每年重现的有规律的变动。根据这一基本特征,我们可以将其归纳为一种典型的季节模型。所谓季节模型,就是指一时间序列在各年中所呈现出的典型状态,这种状态年复一年以基本相同的形态出现。季节模型是由一套指数组成的,各指数刻画了现象在一个年度内各月或各季的典型特征。如果所分析的是月份数据,季节模型就由12个指数组成;若为季度数据,季节模型就由4个指数组成。其中各个指数是以全年月或季度资料的平均数为基础计算的,因而12个月(或4个季度)指数的平均数应等于100%,而各月(或季)的指数之和应等于1200%(或400%)。季节模型正是以各个指数的平均数等于100%为条件而构成的,它反映了某一月份或季度的数值占全年平均数的大小。如果现象的发展没有季节变动,则各期的季节指数应等于100%;如果某一月份或季度有明显的季节变化,则各期的季节指数应大于或小于100%。因此,分析季节变动,也就是对一个时间序列计算出该月(或季)指数,即所谓季节指数,然后根据各季节指数与其平均数(100%)的偏差程度来测定季节变动的程度。这就是季节变动分析的基本原理。
(二)季节变动的分析方法
1.季节变动的分析方法和长期趋势的分析方法的联系和区别区别:长期趋势通过平均的方法将其他三个因素消除(抵消);而季节变动则采用新的方法消除季节变动以外的三个因素。
在长期趋势的分析中,构成时间数列的四个因素中,除了长期趋势外,其他三个因素,即季节变动、循环变动和不规则变动,要么是周期性的,要么是随机性的,而不管是周期性的,还是随机性的,我们都可以通过平均的方法使它们相互抵消,抵消的结果就是长期趋势。但在测定季节变动的时候,我们要消除的是构成时间数列的四因素中除了季节变动的其他三个因素,即长期趋势、循环变动和不规则变动。如果说,平均的方法在消除循环变动和不规则变动是比较理想的话,则对长期趋势的消除就不那么理想了,这时候就需要采用新的方法,这是二者的区别。
联系:当现象变动的长期趋势不明显,甚至没有,那么从时间数列中测定季节变动,实际上就只需要消除循环变动和不规则变动,这时测定季节变动的方法和测定长期趋势的方法从本质上看就完全一样了,都是平均法的思想,这就是二者的联系。
2.测定季节变动的方法同期平均法,可以分两种情况来选择,①在现象不存在长期趋势或长期趋势不明显的情况下,一般是直接用平均的方法通过消除循环变动和不规则变动来测定季节变动,在统计学中将这种方法称为“同期平均法”;②现象具有明显的长期趋势时,一般是先消除长期趋势,然后再用平均的方法再消除循环变动和不规则变动,统计学中,把这种方法称为“移动平均趋势剔除法”。
(1)同期平均法同期平均法是在现象不存在长期趋势或长期趋势不明显的情况下,测定季节变动的一种最基本的方法。它的基本思想和长期趋势测定中的移动平均法的思想是相同的。实际上,“同期平均法”就是一种特殊的“移动平均法”,即:一方面它是平均;另一方面,这种平均的范围是仅仅局限在不同年份的相同季节中,季节不同,平均数的范围也就随之而“移动”。因此所谓“同期平均”就是在同季(月)内“平均”,而在不同季(月)之间“移动”的一种“移动平均”法。“平均”是为了消除非季节因素的影响,而“移动”则是为了测定季节因素的影响程度。同期平均法来测定其季节变动。步骤如下:
第一,计算各年同季(月)的平均数,目的是要消除非季节因素的影响。道理很简单,因为同样是旺季或者淡季,有些年份的旺季更旺或更淡,这就是非季节因素的影响。因为我们假设没有长期趋势,因此,这些因素通过平均的方法就可以相互抵消。
第二,计算各年同季(或同月)平均数的平均数,也即时间数列的序时平均数,目的是计算季节比率。因为就从测定季节变动的目的讲,只计算“异年同季的平均数”已经可以反映现象的季节变动趋势了:平均数大,表明是旺季,越大越旺;平均数小,表明是淡季,越小越淡。但是,这种大与小、淡与旺的程度只能和其它季节相比才能有个准确的认识,因此,就需要将“各年同季的平均数”进行相对化变换,即计算季节比率,对比的标准就应该是时间数列的序时平均数。
第三,计算季节比率。方法是将各年同季的平均数分别和时间数列的序时平均数进行对比。一般用百分数表示,用公式表示为:
×100% (4.27)
[例4.2]某服装公司1998—2000年各月销售量资料如表9.5.1。试用按月(或季)平均法计算各月的季节指数。
表4.2 1998—2000年各月销售量资料及季节指数计算表月份
各年销售量(万件)
合 计
同月平均
季节比率(%)
1998
(1)
1999
(2)
2000
(3)
(4)=(1)
+(2)+(3)
(5)=(4)÷(3)
(6)=(5)÷1260.56
1月
2月
3月
4月
5月
6月
7月
8月
9月
10月
11月
12月
80
120
200
500
800
2500
2400
600
200
100
60
40
120
200
350
850
1500
4500
6400
900
400
250
100
80
320
400
700
1500
2400
6800
7200
1500
600
400
200
110
520
720
1250
2850
4700
13800
16000
3000
1200
750
360
230
173.3
240
416.7
950
1566.7
4600
5333.3
1000
400
250
120
76.7
13.8
19.0
33.1
75.4
124.3
364.9
423.1
79.3
31.7
19.8
9.5
6.1
合计平均
7600
633.3
15650
1304.2
22130
1844.2
45380
3781.67
15126.7
1260.56
1200
100
解:根据上述步骤销售量季节指数计算过程见表4.2。
表4.2中的季节指数一栏,是以指数形式表现的典型销售量。每个指数代表1998—2000年间每个月份的平均销售量。比如,一月份的季节指数为13.8%,表示该月份销售量为全年平均销售量的13.8%,而全年平均销售量则作为100%。这样从各月的季节指数序列,可以清楚地表明该服装公司销售量的季节变动趋势。即1、2、3、4月份是销售淡季,5、6、7为销售旺季,7月份比全年平均销售量高323.1%(432.1-100%),8月份开始下降,到12月份降到最低点,比全年平均销售量低93.9%(6.1%-100%)。
同期平均法计算简单,易于理解。应用该方法的基本假定是:原时间序列没有明显的长期趋势和循环波动,因而,通过若干年同期数值的平均,不仅可以消除不规则波动,而且当平均的周期与循环周期一致时,循环波动也可以在平均过程中得以消除,但实际上,许多时间序列所包含的长期趋势和循环波动,很少能够通过平均予以消除。因此,当时间序列存在明显的长期趋势时,该方法的季节指数不够准确。当存在剧烈的上升趋势时,年末季节指数明显高于年初的季节指数;当存在下降趋势时,年末的季节指数明显低于年初的季节指数。只有当序列的长期趋势和循环波动不明显或影响不重要,可忽略不计时,应用该方法比较合适。
(2)移动平均长期趋势剔除法
1)移动平均长期趋势剔除法,就是在现象具有明显长期趋势的情况下,测定季节变动的一种基本方法。
2)基本思路:先从时间数列中将长期趋势剔除掉,然后再应用“同期平均法”剔除循环变动和不规则变动,最后通过计算季节比率来测定季节变动的程度。
剔除长期趋势的方法一般用移动平均法。因此,它是长期趋势的测定方法——“移动平均法”和季节变动的测定方法——“同期平均法”的结合运用,在方法上没有新的思想。
,移动平均趋势剔除法”来测定季节变动趋势。其基本步骤如下:
第一,先根据各年的季度〈或月度〉资料(Y)计算四季(或12个月〉的移动平均数,然后为了“正位“,再计算二季〈月〉移动平均数,作为各期的长期趋势值(T)。
第二,将实际数值(Y)除以相应的移动平均数(T),得到各期的Y/T。这就是消除了长期趋势影响的时间数列,它是一个相对数,称为季节指数。其结果为表中第四列数值。
第三,将Y/T重新按“同期平均法”计算季节比率的方式排列。然后,按照该方法要求,先计算“异年同季平均数”,然后再计算“异年同季平均数的平均数”,即消除长期趋势变动后,新数列的序时平均数;最后,计算季节比率并画图显示。
[例4.3]根据表4.2的资料,按移动平均趋势剔除法计算销售量的季节指数。
解:首先求出12个月移动平均趋势值T,并求得,计算结果如表4.3
表4.3 销售量季节指数计算表(Ⅰ) 单位:万件

然后将表4.3中的重新排列,如表4.4,求出各年同月平均数,使不规则变动消除,已是季节指数,但由于12个月的总和不等于1200%,需进行调整。其调整系数为:调整系数==0.9892,用调整系数乘以同月平均数,即得季节指数,见表4.4的最后一栏。
表4.4 销售量季节指数计算表(Ⅱ)

三、季节变动的调整含有季节变动因素的时间序列,由于受季节影响而产生波动,使序列中的其他特征不能清晰地表现出来,因此,需要将季节变动的影响从时间序列中剔除,以便观察其他特征的影响,这称为季节变动的调整。其方法是将原时间序列除以相应的季节指数,即
 (4.28)
结果即为调整后的时间序列,反映了在没有季节因素影响的情况下,时间序列的变化形态。
[例4.4]根据表4.2的资料,对1998—2000年各月的销售量作季节调整。
解:根据表4.4中的季节指数可得计算结果如表4.5
表4.5 销售量的季节变动调整

根据调整后的序列配合的趋势线为,各月调整后的趋势值见表4.5
第四节 循环变动分析一、循环变动的测定方法
(一)循环变动:是在整个时间数列中,某些在以年度为计量单位的条件下,环绕着长期趋势周而复始的一种上下波动。在社会经济生活中,循环波动是大量存在的,但最为典型的还应该是国民经济的循环波动。
(二)循环波动不同于长期趋势,它所表现的并不是超着某一单一方向持续上升或下降,而是涨落相间的波浪式发展。
(三)循环波动也不同于季节变动。
季节变动一般是以一年、一季或月等为周期,它们都在一年以内,可以预见,而循环变动没有固定的循环周期,一般在数年以上,并且也没有固定的变动期限或规律,很难事先预知;季节变动在各年的被动强度大致相同,无明显差异,循环波动在不同时期的振幅有明显的差异,其产生的机制在经济过程内部。
(四)循环波动有残余法、直接法、循环平均法等多种测定方法。但常用的方法是剩余法。剩余法的基本原理是:先从影响时间数列的基本因素中,通过分解法逐步消除长期趋势及季节波动,然后再用平均法消除不规则变动,剩余部分大致能反映循环变动。
第一,测定时间数列的长期趋势值T与季节变动S。
第二,从时间数列中剔除长期趋势值T和季节变动S,求得C.I,即: (4.29)
需要说明的是,本例中因为在上例中已经将季节变动从时间数列中分离了出来,因此,直接从时间数列中将长期趋势和季节变动一次剔除掉。如果季节变动不知到,则应该按照季节变动测定的第二中方法,即先从数列中剔除长期趋势,得到,然后再用“同期移动平均法”计算季节比率,得到,最后再从中剔除s,得到。
第三,对进行移动平均,消除I,最后得到循环变动C。
本章难点
1、时期数列与时点数列的区分;
2、动态平均数与静态平均数的区分;
3、各种动态平均数的计算及分析;
4、长期趋势、季节变动、循环变动的测定和分析。
复习思考题
1、何谓时间序列,它包括哪些构成要素?
2、比较时期数列与时点数列的不同。
3、为什么计算平均发展速度不用算术平均法而用几何平均法?
4、给你一个时间序列,你如何将其主要因素测定出来,你准备如何完成这一工作?
第五章 统计指数
(一)教学目的通过本章的学习,使学生正确理解指数的概念和作用,从而掌握各种指数的编制原理和计算方法。
(二)基本要求要求掌握指数的概念、性质、种类和作用,学会编制综合指数、平均数指数及平均指标指数,并能将不同的指数区分开来,进一步学会利用指数体系进行因素分析。
(三)教学要点
1、指数的概念与种类;
2、总指数的编制方法;
3、平均指标指数的编制方法;
4、指数体现与因素分析;
5、指数数列的编制及类型。
(四)教学时数
6——8课时
(五)教学内容本章共分四节:
第一节 指数的概念与分类一、指数的概念统计指数简称指数,作为一种特殊的相对指标,是动态分析的进一步深入和发展。
1650年英国人沃汉(Rice Youghan)首创物价指数,用于度量物价的变化状况。其后指数的应用范围不断扩大,其含义和内容也随之发生了变化。从内容上看,指数由单纯反映一种现象的相对变动到反映多种现象的综合变动;从对比的场合上看,指数由单纯的不同时间的对比分析到不同空间的对比分析等等。指数有广义和狭义之分。从广义上讲,任何两个数值对比形成的相对数都可以称为指数;从狭义上讲,指数是用于测定总体各变量在不同场合下综合变动的一种特殊相对数。但从指数理论和方法上看,指数所研究的主要是狭义的指数。因此,本章所讨论的主要是狭义的指数。
为了更好地理解指数的含义,我们首先应明确指数的性质。概括的讲,指数有以下性质。
第一,相对性。 指数是总体各变量在不同场合下对比形成的相对数,它可以度量一个变量在不同时间或不同空间的相对变化,如一种商品的价格指数或数量指数,这种指数称为个体指数;它也可用于反映一组变量的综合变动,如消费价格指数反映了一组指定商品和服务的价格变动水平,这种指数称为综合指数。总体变量在不同时间上对比形成的指数称为时间性指数,在不同空间上对比形成的指数称为区域性指数。目前,时间性指数应用得比较广泛,本章所讲内容也均以时间性指数为例。
第二,综合性。指数是反映一组变量在不同场合下的综合变动水平。这是就狭义的指数而言的,它也是指数理论和方法的核心问题。实际上所计算的主要是这种指数。没有综合性,指数就不可能发展成为一种独立的理论和方法论体系。综合性说明指数是一种特殊的相对数,它是由一组变量项目综合对比形成的。比如,由若干种商品和服务构成的一组消费项目,通过综合后计算价格指数,以反映消费价格的综合变动水平。
第三,平均性。指数是总体水平的一个代表性数值。平均性的含义有二:一是指数进行比较的综合数量是作为个别量的一个代表,这本身就具有平均的性质;二是两个综合量对比形成的指数反映了个别量的平均变动水平。
二、指数的分类
(一)按所反映的内容不同,可以分为数量指数(Quantity index number)和质量指数(Quality index number)。数量指数是反映物量变动水平的,如产量指数、商品销售量指数等;质量指数是反映事物内涵数量的变动水平的,如价格指数、产品成本指数等。
(二)按计入指数的项目多少不同,可分为个体指数(Individual index number)和综合指数(Aggregative index number)。个体指数是反映某一项目或变量变动的相对数,如一种商品的价格或销售量的变动水平;综合指数是反映多个项目或变量综合变动的相对数,如多种商品的价格或销售量的综合变动水平。
(三)按计算形式不同,可分为简单指数(Simple index number)和加权指数(Weighted index number)。简单指数又称不加权指数,它把计入指数的各个项目的重要性视为相同;加权指数则对计入指数的项目依据重要程度赋予不同的权数,而后再进行计算。目前应用的主要是加权指数。
(四)按对比性质不同,可以分为动态指数和静态指数。动态指数又称为时间指数。它是将不同时间上的同类现象水平进行比较的结果,反映现象在时间上的变化过程和程度。如物价指数、股票价格指数、工业生产指数等;静态指数包括空间指数和计划完成情况指数两种。空间指数是将不同空间的同类现象水平进行比较的结果,反映现象在空间上的差异程度。计划完成情况指数则是将某种现象的实际水平与计划任务对比的结果,反映计划的执行情况或完成与未完成的程度。
三、指数的作用指数对于分析社会经济现象的发展变化和发展变化中各因素的影响程度具有重要作用。一般地讲,统计指数主要有以下三个方面的作用。
(一)指数能够综合反映事物的变动方向与变动程度指数是用百分比表示的相对数。百分比大于或小于100%,反映现象变动方向是正还是负;而比100%大多少或小多少则反映现象变动程度的大小。例如,商品零售物价指数为125%,则说明多种商品零售物价总的变动情况,具体到某种商品价格可能有涨有落,但从总体上看零售物价仍然上涨了25%。
(二)指数能够对复杂的社会经济现象进行因素分析复杂现象变动中,往往受到两个以上因素的影响,例如,商品销售额的变动受销售量和商品价格两个因素的影响,而职工平均工资的变动受工资水平与职工人数构成两个因素的影响。
例如:现象的总量指标是若干因素的乘积。
1.商品销售额=商品销售量×单位商品价格;
2.产品总成本=产品生产量×单位产品成本;
3.
----一个总量指标受三个因素影响商品销售额的变动(报告期同基期比较),取决于很多因素(经济、政治、社会文化、消费心理等),从可以测度的因素来考察,商品销售额的变动受销售量和价格两个因素的共同影响。我们可以利用指数体系分析各构成因素对总指数的变动影响,这种影响可以从相对数和绝对数两个方面进行分析。
(三)指数可以研究事物在长时间内的变动趋势由于用指数进行变动比较可以解决不同性质数列之间不能对比的问题,因此,指数法适用于有联系而又性质不同的时间数列之间的对比关系,通过对指数数列的分析还可以反映事物的发展变化趋势。
第二节 总指数的编制方法一、权数的确定确定权数时,需要考虑以下几个方面的问题。
1.要根据现象之间的内在联系来确定权数。比如,为了反映多种产品数量的综合变动状况,需要把它们综合后进行对比,但由于不同产品具有不同的使用价值和计量单位,无法直接进行加总,这就首先需要找到一种共同的尺度将各种不同产品综合到一起。我们知道,不同使用价值的产品可以通过产品价格或生产成本等转化成可比的价值量。这里的产品价格或生产成本就成了不同产品的共同计量尺度,它一方面使不能直接加总的产品转化成可以加总的量,同时也对所计算的产品项目起到一种加权作用。在此,产品价格或产品成本也就是我们所寻找的计算物量指数的权数。同样,为了反映多种产品价格或生产成本的综合变动状况,也需要首先解决加总的问题。表面上看,不同产品的价格或生产成本都是货币量,似乎可以直接相加,但它们只是产品价值的一种货币表现,不同产品之间往往有着较大差异,相加后通常没有实际意义,因为计入指数的并不是一个数量单位的产品,这就需要把它们转化成可比的价值量。为此,我们需要以不同产品的物量为尺度,一方面使不同产品的价格或成本转化成可比的价值量,同时也起到一种加权作用。由此可见,在计算数量指数时,应以相应的质量(反映事物内涵的数量)指标为权数,比如商品零售量指数应以零售价格为权数,产品产量指数应以生产价格或生产成本为权数等等;而计算质量指数时,应以相应的物量指标为权数,如零售价格指数应以销售量为权数,生产价格或生产成本指数应以生产量为权数,等等。
2.确定权数的所属时期。无论是计算数量指数,还是计算质量指数,都要求指数中分子和分母必须是同一时期的。这里的同一时期,既可以都是基期,也可以都是报告期或某一个固定时期等。但是用不同时期的权数,会产生不同的计算结果,而且指数的实际意义也会不同。权数应确定在哪一个时期,通常取决于计算指数的预期目的和所研究现象的特点。
3.确定权数的具体形式。权数可以是一组不同产品的价格、成本、生产量或销售量等形式,也可以是一组产品的价值量或其他总量形式。此外,权数也可以采取比重形式,比如用某一类商品销售额占总销售额的比重,对各类商品价格进行加权计算物价指数。采用哪种形式的权数,主要取决于计算指数时所依据的数据形式和所选择的计算方法。
二、加权综合指数的编制
(一)综合指数的概念和特点通过加权来测定一组项目综合变动的指数,称为加权综合指数(weighted aggregative index number)。综合指数是编制和计算总指数的一种基本形式,它是由两个总量指标对比而形成的指数。在所研究的总量指标中,包含两个或两个以上的因素,将其中一个或一个以上的因素指标固定下来,仅观察其中一个因素的变动,这样编制出来的总指数就叫综合指数。
综合指数从编制方法来看,具有以下特点:
1,先综合后对比。即先解决总体中各个个体由于使用价值、经济用途、计量单位、规格、型号等不同不能直接简单相加对比的问题。为此,需要引入一个媒介因素(权数),使不能直接相加,不能直接对比的现象变成能够直接相加,能够直接对比的现象,这个因素称之为同度量因素。
2,把总量指标中的同度量因素加以固定,以测定所要研究的因素,即指数化指标的影响程度。例如,若要观察两个时期多种商品销售总额中的销售量的影响,需要把两个时期各种商品的价格作为权数固定在同一时期,以测定两个时期各种商品销售量的影响。
3,分子与分母所研究对象的范围原则上必须一致。
4,综合指数的计算对资料要求较高,需要使用全面资料。
(二)综合指数的具体形式对于加权综合指数,若所测定的是一组项目的物量变动状况,则称为数量指数,如产品产量指数、商品销售量指数等;若所测定的是一组项目的质量变动状况则称为质量指数,如价格指数、产品成本指数等。但由于权数可以固定在不同时期,因而加权综合指数有不同的计算公式。较为常用的是拉氏指数和帕氏指数两种形式。
1,拉氏指数:同度量因素固定在基期的综合指数若要反映多种商品价格的综合变动情况,不能简单地直接加总,但可以找到与之对应的商品销售量,由于
商品价格 × 商品销售量 = 商品销售额
 ×  = 
商品销售额具有可加性,如果直接将报告期和基期的商品销售总额对比,得到如下公式:
 (5.1)
式中,、分别表示商品的价格和销售量;0、1 分别表示基期和报告期;表示总指数。
上式总指数是商品价格和销售量两种因素共同变动作用的结果,反映的是商品销售总额的变动程度。如果只想反映商品价格的变动程度,可将商品销售量作为同度量因素固定起来,若固定在基期的水平上,就得到拉氏物价指数公式
 (5.2)
同理,如果只想反映商品销售量的变动程度,可将商品价格作为同度量因素固定起来,若固定在基期的水平上,就得到拉氏物量指数公式
 (5.3)
(5.2)、(5.3)式是由德国统计学家拉斯贝尔(Laspeyre)于1864年提出的,故被称为拉氏公式。
[例5.1]某商店三种商品销售情况如表5.1。
表5.1 商品销售量和商品价格资料

据表5.1资料,可得拉氏价格指数,

=380-400=-20(元)
计算结果表明,三种商品的价格水平平均下降5%,由于价格下跌,使商品销售额减少20元,从消费者一方看,使居民少支出20元。
拉氏物量指数:

= 480 -400 =80(元)
计算结果表明,三种商品的销售量平均增长20%,由于销售量增长使商店增加销售额80元,或居民由于多购买商品而增加支出80元。
2,帕氏指数:同度量因素固定在报告期的综合指数该方法是由另外一位德国统计学家帕煦(Paashe)于1874年提出的,故又称为帕氏指数,公式为:
帕氏物价指数
 (5.4)
帕氏物量指数
 (5.5)
[例5.2]利用表5.1资料计算帕氏指数。
帕氏价格指数

= 444 -480 = -36 (元)
计算结果说明,三种商品的价格水平平均下降了7.5%,由于价格下跌,使商店减少销售额36元,或居民少支出36元。
帕氏销售量指数

 = 444 -380 = 64 (元)
计算结果说明,三种商品的销售量平均增长16.8%,由于销售量增长而使商店增加销售额64元。
从以上计算和分析中看到,同一个资料,帕氏指数与拉氏指数的结果是不同的。为什么会出现这种现象?现以价格指数为例进行讨论。从包含的因素看,帕氏价格指数用报告期的销售量作为同度量因素,以基期作为比较标准,销售量从变到,所以帕氏价格指数在反映零售商品价格变动的同时,也包含有销售量变动的因素在内,这意味着帕氏指数并没有完全排除同度量因素的干扰。用公式表示为:


因此,公式中包含有的影响。从绝对数来看

式中被称为价格与销售量的共变影响额。
是不是由于共变影响因素的存在就完全否认帕氏指数而全部选择拉氏指数呢?这还应该从指数应用的现实经济意义去分析。计算价格指数的目的,是测定商品价格的波动情况,以说明市场物价变动对人民生活的影响程度。如果用拉氏指数公式即同度量因素固定在基期,其分子与分母之差额说明由于物价的变动,居民按过去的购买量及其结构购买商品,支出的金额的多少,这显然没有什么现实意义的。从实际生活角度看,人们更关心在报告期销售量条件下,由于价格变动对实际生活的影响。如果用帕氏指数公式即同度量因素固定在报告期,可以同时反映出价格和消费结构的变化,具有比较明确的经济意义,公式的分子与分母之差额,说明由于物价的变动,居民按目前的购买量及其结构购买商品,支出的金额的多少。可见,用帕氏指数公式计算价格指数,比较符合价格指数的计算目的。销售量指数的计算目的在于反映销售量的变动,把价格固定在基期水平上意味着在原来价格水平的基础上测定销售量的综合变动是比较恰当的。因此,在编制销售量指数时,一般应采用基期的商品价格作为同度量因素。这种选择同时也是指数体系的要求。
综上所述,在计算质量指标指数时,应采用报告期的数量指标作为同度量因素。在计算数量指标指数时,应采用基期质量指标作为同度量因素。这是编制综合指数的一般原则。
3.同度量因素固定在某一特定时期的综合指数将同度量因素固定在某一特定时期的水平上,其公式为:
杨格物价指数  (5.6)
杨格物量指数  (5.7)
这种方法是英国学者杨格(Young)于1818年首先采用的,故又称之为杨格公式。该指数的同度量因素不是基期水平,也不是报告期水平,而是某一典型水平或若干期的平均水平,因此,这里的指数时期和同度量因素的时期是不同的。选择固定的同度量因素,不仅简化了指数计算,而且可以避免某些非正常情况所造成的不可比性,从而便于观察现象长期变化发展的趋势。因此,杨格公式在实践中经常采用。当然,同度量因素在间隔一定时期后,随着情况的变化就应及时加以修正和调整。
三、加权平均数指数的编制
(一)加权平均数指数的特点加权平均数指数(weighted average index number)是计算总指数的另一种形式。它是以某一时期的总量为权数对个体指数加权平均计算出来的。其基本特点是:先计算出各个单项事物的个体指数,然后再对这些个体指数进行加权平均以求得总指数。加权的目的,是为了衡量不同商品价格(或物量)的变动对总指数造成的不同影响。
(二)加权平均数指数的具体形式加权平均数指数因权数所属时期的不同,分为基期总量加权指数和报告期总量加权指数以及固定权数加权指数。
1.加权算术平均数指数算术平均数指数按采用权数的形式不同可以分为基期权数的算术平均数指数和固定权数的算术平均数指数。
基期权数的算术平均数指数。它是采用基期总量指标价值总额作为权数,对个体指数进行加权平均计算的指数。其公式如下:
 (5.8)
 (5.9)
[例5.3]根据表5.1资料,整理后得资料如表5.2所示。
表5.2 某商店三种商品的销售额计算表

用表5.2资料代入基期权数形式的加权算术平均数指数的两个计算公式得:


上述计算结果与拉氏综合指数的计算结果完全一致,这说明基期权数形式的加权算术平均数指数可以看作拉氏综合指数的变形。但必须具备一个特定的条件,即以基期总值为权数,并且两种形式指数包括的计算范围要完全一致。因此,掌握了各种个体指数,以及各物品的基期价值资料时,就可以运用基期加权算术平均数公式来计算拉氏综合指数。采用基期价值这个特定权数加权,加权算术平均数指数与拉氏综合指数的联系如下:


在我国统计实践中,数量指标指数一般采用基期权数形式的加权算术平均数指数公式计算。
固定权数的算术平均数指数。在国内外广泛使用的加权算术平均数指数中,所用的权数并不是基期或报告期的价值指标(或),而是采用某种固定权数()。固定权数是指某一个固定时期的权数,即可以根据全面调查资料,也可以采用各种有关抽样调查资料,用相对数(比重)的形式固定下来,在相当长的时期内一直使用相当方便。如资本主义国家编制的工业生产指数,多采用工业部门增加值所占的比重资料作为权数。固定权数形式的加权算术平均数指数公式为:
 (5.10)
 (5.11)
上式中,代表某一固定时期的权数。
2.加权调和平均数指数调和平均数指数按采用权数形式的不同也可以分为两种:报告期权数的调和平均数指数和固定权数的调和平均数指数。
(1)报告期权数的调和平均数指数。它是采用报告期价值量作为权数,对个体指数进行加权平均计算的指数。其公式如下:
 (5.12)
 (5.13)
[例5.4]根据表5.1资料,整理后得资料如表5.3所示。
表5.3 某商店三种商品的销售额计算表

用表5.3资料代入报告期权数形式的加权调和平均数指数的两个计算公式得:


上述计算结果与帕氏综合指数的计算结果完全相同。这是否说明这两种指数在方法上没有实质的区别呢?事实不是这样。只有在特定的条件下,即两种形式指数包括的计算范围完全一致时,它们的计算结果才相同。也只有在这种条件下报告期权数形式的加权调和平均数指数才是帕氏综合指数的变形。因此,当掌握了各种个体指数和各物品的报告期价值资料时,就可以运用报告期加权调和平均数指数公式计算帕氏综合指数。采用报告期价值()这个特定权数加权,加权调和平均数指数与帕氏综合指数的联系如下:


在我国统计实践中,质量指标指数一般采用报告期权数形式的加权调和平均数指数公式计算。
(2)固定权数的调和平均数指数。这种加权调和平均数指数在实际工作中应用较少。其计算公式如下:
 (5.14)
 (5.15)
第三节 指数体系与因素分析一、指数体系的意义及其作用而它们具有非常实际的经济分析意义。在经济分析中,一个指数通常只能说明某一方面的问题,而实践中往往需要将多个指数结合起来加以运用,这就要求建立相应的“指数体系”。
指数体系可以有两种不同的涵义。“广义的指数体系”类似于指标体系的概念,泛指由若干个内容上互相关联的统计指数所结成的体系。根据考察问题的需要,构成这种体系的指数可多可少。譬如,工业品批发价格(或出厂价格)指数、农产品收购价格指数、消费品零售价格指数等构成了“市场物价指数体系”;而国民经济运行的生产、流通和使用各个环节以及国民经济各部门的多种经济指数则构成了“国民经济核算指数体系”,其中除了上面列举的有关价格指数之外,还包括诸如国内总产出价格指数和物量指数、国内生产总值(GDP)价格指数和物量指数、投资价格指数和物量指数、以及资产负债存量价格指数等等,其内容构成十分复杂。
“狭义的指数体系”仅指几个指数之间在一定的经济联系基础之上所结成的较为严密的数量关系式。其最为典型的表现形式就是:一个总值指数等于若干个(两个或两个以上)因素指数的乘积。我们下面专门讨论这种形式的指数体系。例如:
销售额指数 =销售量指数× 销售价格指数总产值指数 =产量指数× 产品价格指数总成本指数 =产量指数 × 单位产品成本指数总产量(或总产值)指数 =员工人数指数× 劳动生产率指数增加值指数 =员工人数指数 × 劳动生产率指数 × 增加值率指数销售利润指数 =销售量指数 × 销售价格指数 × 销售利润率指数显然,这些指数体系都是建立在有关指数化指标之间的经济联系基础之上的,因指数体系的分析作用主要有两个方面:一是进行“因素分析”,即分析现象的总变动中各有关因素的影响程度;二是进行“指数推算”,即根据已知的指数来推算未知的指数。
二 总量指标指数体系及因素分析
(一)总量指标指数体系由总量指数及其若干个因素指数构成的数量关系式,称为总量指标指数体系。对于指数体系的理解,需要把握以下两个问题:
第一,在指数体系中,总量指数与各因素指数之间的数量关系表现为两个方面:一是从相对量来看,总量指数等于各因素指数的乘积,如以上所举几个例子;二是从绝对量来看,总量的变动差额等于各因素指数变动差额之和。
第二、在加权指数体系中,为使总量指数等于各因素指数的乘积,两个因素指数中通常一个为数量指数,另一个为质量指数,而且各因素指数中权数必须是不同时期的,比如数量指数用基期权数加权,质量指数则必须用报告期权数加权,反之亦然。
加权综合指数由于所用权数所属时期的不同,可以形成不同的指数体系。但实际分析中比较常用的是基期权数加权的数量指数和报告期权数加权的质量指数形成的指数体系。该指数体系可表示为,
 (5.16)
因素影响差额之间的关系为:
 (5.17)
(二)总量指标的两因素分析总量指标两因素分析,就是通过总量指标指数体系将影响总量指标变动的两个因素分离出来加以计算,从而对总量指标的变动作出解释。
[例5.5]现以表5.1的资料为例,说明总量指标两因素的分析方法。
1,计算出销售额的总变动,即
销售额总指数:

销售额增加数:
= 444-400 =44(元)
它说明报告期三种商品的总销售额比基期增长了11%,增加的金额为44元。
2,分析销售额总变动的具体原因。通过销售额指数体系,就把销售额的变动归结为销售量和商品价格两个因素变动共同作用的结果。分析销售额总变动的具体原因,就是利用指数体系分离出销售量的变动和价格的变动对销售量变动的影响方向、程度和实际效果。分析过程如下:
(1)销售量变动影响。具体情况如下:
销售量指数:

对销售额的影响:
= 480 -400 =80(元)
它说明了由于报告期商品销售量的变动而使商品销售额增长20%,由此引起的商品销售额增加的金额为80元。
(2) 物价变动的影响。具体情况如下:
价格指数:

对销售额的影响,
=444 - 480 = -36 ( 元 )
它说明了由于物价的变动使报告期三种商品的总销售额比基期下降了7.5%,由此引起的商品销售额减少的绝对额为36元。
上述分析使用的指数体系,代入数据可表示如下:
111% = 120% × 92.5%
其因素影响的绝对值之间的关系为:
44元 = 80元+(-36元)
通过上述分析可以看出,该商店三种商品的销售额报告期比基期增长11%,是由于销售量增长20%与价格下降7.5%共同引起的。商品销售额增加44元,是由于销售量变动使其增加80元和价格变动使其减少36元共同影响的。在本资料的销售量和价格两因素中,前者对销售额是正影响,后者是负影响。
(三)总量指标变动的多因素分析在具体分析任务的要求下,总量指标指数体系可以由更多的指数组成,用以分析多因素变动对现象总体变动影响程度,说明总体现象变动的具体原因。例如,工业企业原材料支出总额的变动可以分解为产品产量,单位产品原材料消耗量和单位原材料价格三个因素的变动影响,因此,需要编制原材料支出总额指数及其包括的三个因素指数形成的总量指标指数体系,来进行多因素变动的分析。
多因素现象的指标体系,由于所包含的现象因素较多,因此指数的编制过程比较复杂,所以,以下两点是编制多因素指数时需要加以注意的原则。
1,在编制多因素指标所组成的综合指数时,为了测定某一因素指标的变动影响,要把其它所有因素都固定不变。
2.综合指数中的各因素要按合理顺序排列,一般是数量指标在前,质量指标在后;主要指标在前,次要指标在后。总之,要根据所研究现象的经济内容,依据各因素之间的内在联系加以具体确定。例如,就工业企业原材料支出总额的组成因素的排列顺序而言,要按产品产量、单位产品原材料消耗量(单耗)、单位原材料价格的顺序排列,如原材料支出总额=产量 × 单耗 × 单位原材料价格上述公式中,产量与单耗的乘积为原材料消耗量,它具有经济意义;而单耗与单位原材料价格的乘积表示单位产品原材料的消耗额,也具有经济意义。可见上述公式中各因素的排列顺序,能够保持它们之间彼此适应和互相结合,因而是合理的。
设、、分别代表产量、单耗和原材料单价,则原材料支出总额指数体系及绝对量关系式如下:
 (5.18)
 (5.19)
[例5.6]设有某企业三种产品的产量,单耗和原材料单价的关资料,以及原材料支出总额的计算资料分别如表5.4和表5.5所示。
表5.4 三种产品的产量和单耗情况

表5.5 三种产品原材料支出总额计算表

根据表5.4和表5.5资料,可以分析原材料支出总额的变动情况及其原因。
1,原材料支出总额的变动情况,即原材料支出总额指数:

原材料支出实际总差额:

它说明该工厂报告期原材料支出总额比基期增长29.09%,增加金额即多用11040元。
2,产量变动影响情况,即产量指数,

产量影响差额:
46050 -37950 = 8100(元)
它说明由于产量增加使原材料支出额增长21.34%,多支出费用8100元。
3,单位产品原材料消耗量变动影响,即产品单耗指数:

产品单耗影响差额:
45375 -46050 = - 675(元)
它说明由于单位产品原材料消耗量的降低使原材料支出额下降1.47%,少支出675元。
4,单位原材料价格变动影响,即原材料价格指数,

原材料价格影响差额:
48990 -45375 =3615(元)
它说明由于原材料价格提高,使原材料支出额增加7.97%,绝对额增加3615元。
以上各指数之间的关系如下:
129,09% =121.34%×98.53%×107.97%
其因素影响差额之间的关系为:
1104(元)=8100(元)+(-675)(元)+3615(元)
可见,原材料支出总额增加29.09%(绝对额为11040元)是由于产量、单耗、原材料价格三个因素分别影响增支21.34%(或8100元) -1.47%(或-675元) 7.97%(或3615元)共同变动共同作用而造成的。
通过相对数和绝对数两个方面的分析,影响超支的因素一目了然,便于管理者找出控制成本费用的方法,改善企业的经营管理。事实上,因素分析作为一个非常有用的统计分析方法,可以被引入企业财务分析等诸多领域。
多因素指数分析方法和前面的两因素分析方法基本类似,只是由于研究目的和要求不同,对影响现象的因素分解的程度不同。因此,通过因素之间的合并,多因素指数体系可以变成两因素指数体系。如上例,若把单位原材料消耗量与单位原材料价格合并,上述指数体系则变成了单位产品原材料消耗额和产量两因素构成的指数体系。相反,我们也可根据实际经济分析的需要把两因素进一步分解为多个因素。明确了这个道理,也就掌握了多因素指数体系的应用。
三、平均指标变动的因素分析在资料分组条件下,平均指标的变动受两个因素的影响,一是受各组平均指标变动的影响,二是受各组单位数在总体中所占比重变动的影响。这样,我们可以运用指数因素分析方法来分析这两个因素变动对平均指标变动的影响方向和影响程度,即进行平均指标的两因素分析。
根据指数因素分析方法的要求,对于平均指标变动进行两因素分析,首先必须建立一个平均指标指数体系。其通用公式为:
可变构成指数=固定构成指数× 结构影响指数
上式用符号可以表示为,
 (5.17)
而因素影响差额之间的关系为:
 (5.18)
上述各项指数的具体涵义说明如下:
1.可变构成指数 ()。统计上把在分组条件下包含各组平均水平及其相应的单位数结构这两个因素变动的总平均指标指数,称为可变构成指数。其计算公式为:
 (5.19)
式中,代表总平均指标,为各组标志值即平均水平,为各组单位数。
2,固定构成指数()。为了单纯反映变量值变动的影响,就需要消除总体中个组单位数所占比重变化的影响,即需要将总体内部结构固定起来计算平均指标指数,这样的指数叫固定构成指数。它只反映各组平均水平对总平均指标变动的影响。其计算公式可表示为,
 (5.20)
3.结构影响指数()。为了单纯反映总体结构变动的影响,就需要把变量值固定起来,这样计算的平均指标指数叫结构影响指数。它只反映总体结构变动对总平均指标变动的影响。其计算公式为:
 (5.21)
[例5.7]设有某公司员工人数和月平均工资的分组资料如表5.6所示。试对该公司员工平均工资的变动进行因素分析。
根据表5.6资料,具体分析步骤如下:
1,计算出平均工资的总变动基期平均工资:
报告期平均工资:
可变构成指数:
月平均工资增加额:=1457.5-1320=137.5(元)
它说明该公司员工总平均工资报告期比基期提高了10.42%,平均每人增加月工资137.5元
表5.6 某公司员工工资情况表

2,进一步分析总平均工资变动的具体原因。这需要利用平均工资指数体系,分离出组平均工资和员工人数结构变动对总平均工资的影响程度和绝对数量。因此,总平均工资的变动,决定于组平均工资水平和员工人数结构的影响。采用平均指标体系分析如下:
(1)平均工资(变量值)变动影响固定构成指数:

=107.01%
对总平均工资的绝对影响数:
=1457.5-1362=95.5(元)
(2)总体结构变动影响结构影响指数:

对总平均工资的绝对影响数:
=1362-1320=42(元)
上述三个指数之间的关系,可表示如下:
110.42%= 107.01% × 103 18%
各因素影响的绝对数之间的关系为:
137,5元 =95,5元 + 42元计算结果表明,由于各等级工资水平的变化,使平均工资提高7.01%,即增加了95.5元;由于员工工资分布的结构变化,使平均工资提高3.18%,即增加了42元;两者共同影响,使得全公司员工的总平均工资提高10,42%,即增加了137.5元。
第四节 几种常用的经济指数工业生产指数、产品成本指数、消费者价格指数和零售物价指数、农副产品收购价格指数、股票价格指数。
指数作为一种重要的经济分析指标和方法,在实践中获得了广泛地应用。但在不同场合,往往需要运用不同的指数形式。一般而言,选择指数形式的主要标准应该是指数的经济分析意义,除此而外,有时还要求考虑实际编制工作的可行性,以及对指数分析性质的某些特殊要求。现以国内外常见的主要经济指数为例,对指数方法的具体应用加以介绍。
一,工业生产指数
工业生产指数概括反映一个国家或地区各种工业产品产量的综合变动程度,它是衡量经济增长水平的重要指标之一。世界各国都非常重视工业生产指数的编制,但采用的编制方法却不完全相同。
在我国,工业生产指数是通过计算各种工业产品的不变价格产值来加以编制的。其基本编制过程是:首先,对各种工业产品分别制定相应的不变价格标准(记为);然后,逐项计算各种产品的不变价格产值,加总起来就得到全部工业产品的不变价格总值;将不同时期的不变价格总值加以对比,就得到相应时期的工业生产指数。
记时期的不变价格总产值为(….),则该时期的工业生产指数就是固定加权综合指数的形式:
 或  (5.22)
采用不变价格法编制工业生产指数的特点是,只要具备了完整的不变价格产值资料,就能够很容易地计算出有关的生产指数;而且可以在不同层次上(如各地区、各部门、各企业等)进行编制,满足各方面的分析需要。
然而,不变价格的制定和不变价格产值的计算本身却是一项非常浩繁的工作,这项工作又必须连续不断地、全面地展开,其难度可想而知。尤其是在市场经济条件下,要在整个工业生产领域内运用不变价格计算完整的产值资料,面临着很多实际的问题。因此,我国工业生产指数编制方法的改革势在必行。
与我国的情况不同,在国外,较为普遍地采用平均指数形式来编制工业生产指数。计算公式为:
 (5.23)
其中,为各种工业品的个体产量指数,则为相应产品的基期增加值。编制这种工业生产指数的目的是为了说明工业增加值中物量因素的综合变动程度,其分析意义与一般的工业总产量指数是有所不同的。
在实践中,为了简化指数的编制工作,常常以各种工业品的增加值比重作为权数,并且将这种比重权数相对固定起来,连续地编制各个时期的工业生产指数,
 (5.24)
这里运用了“固定加权算术平均指数”
二、零售价格指数零售价格指数(Retail price index)是反映城乡商品零售价格变动趋势的一种经济指数。它的变动直接影响到城乡居民的生活支出和国家财政收入,影响居民购买力和市场供需平衡以及消费和积累的比例。因此,零售价格指数是观察和分析经济活动的重要工具之一。
根据不同需要,可以编制不同的零售价格指数。比如,可就城乡分别编制零售价格指数,也可以编制地区零售价格指数,以及零售商品分类价格指数。先将我国零售商品价格指数编制中的一些主要问题说明如下。
(一)代表规格品的选择全社会零售商品的种类多达上百种,要编制包括全部商品的零售价格指数显然是不可能的。因此,在编制价格指数时,只能选择部分具有代表性的商品。首先应对商品进行科学的分类,在此基础上分别选择能代表各类别的代表规格品。例如,我国目前对消费品分为食品类、饮料和烟酒类、服装和鞋帽类、纺织品类、中西药品类、化妆品类、书报杂志类、文化体育用品类、日用品类、家用电器类、首饰类、燃料类、建筑装潢类、机电产品类等14个大类。大类下又分小类,小类下分若干商品细目。
(二)典型地区的选择全国零售价格总指数用于反映全社会零售商品价格的总体变动水平,但要包括所有的地区这是不可能的,一般选择部分具有代表性的地区编制价格指数。典型地区的选择既要考虑其代表性,也要注意类型上的多样性以及地区分布上的合理性和稳定性。例如,1992年全国共选取146个市 80个县作为取得数据的基层填报单位。
(三)商品价格的确定全社会零售价格总指数包括了商品牌价、议价和市价等因素。对所选代表性商品使用的是全社会综合平均价。一种商品的综合平均价是该商品在一定时期内的牌价、议价、市价的加权平均,其权数是各种价格形式的商品零售量或零售额。根据每种代表品基期和报告期的综合平均价,计算每种商品的价格指数,以此作为计算类指数的依据。
(四)权数的确定我国目前的零售价格总指数是采用加权算术平均形式计算的,其权数是根据上年商品零售额资料,并根据当年住户调查资料予以调整后确定的。在确定权数时,先确定各大类权数,然后确定小类权数,最后确定商品权数。权数均以百分比表示,各层权数之和等于100。为便于计算权数一律取整数。
(五)指数的计算从1985年起,我国开始采用部分商品平均价格法计算全社会商品零售价格总指数。其计算公式为:
 (5.25)
式中,为个体指数或各层的类指数;为各层零售额比重权数。
具体计算过程是,先分别计算出各代表规格品基期和报告期的全社会综合平均价,并计算出相应的价格指数,然后分层逐级计算小类 中类 大类和总指数。
[例5.8]现以部分资料(见表5.7)说明价格总指数的编制和计算过程。
表5.7 零售价格总指数计算表商 品 类 别及 名 称
代 表 规格品
计量单位
平均价格(元)
权数(w) (%)
指数 (%) 



总指数一,食品类
1、粮食细粮面粉大米粗粮
2、副食品
3、烟酒茶
4、其他食品二、衣着类三、日用品类四、文化娱乐用五、书报杂志类六、药及医疗用品类七、建筑装潢材料类 八、燃料类
标准梗米标一
kg
kg
2.40 3.50
2.52 3.71
100
51
35
65
40
60
35
45
11
9
20
11
5
2
6
2
3
115.1 117.5 105.3 10.6 105.0 106.0 104.8 125.4 126.0 114.8 115.2 109.5 110.4 108.6 116.4 114.5 105.6
1151.4 5992.5 3685.5 6864.0 4200.0 6360.0 3668.0 5643.0 1368.0 1033.2 2304.0 1204.5 552.0 217.2 698.4 229.0 316.8
解:
(1)计算出各代表规格品的价格指数。如面粉价格指数为:

(2)根据各代表规格品的价格指数及给出的相应权数,加权算术平均计算小类指数。如细粮类价格指数为:

(3)根据各小类指数及相应的的权数,加权算术平均计算中类指数。如粮食类价格指数为:

(4)根据各中类指数及相应的权数,加权算术平均计算大类指数。如食品类价格指数为:

=117.5%
(5)根据各大类指数及相应的权数,加权算术平均计算总指数。即

=115.1%
三、消费价格指数消费价格指数(Consumer price index)是世界各国普遍编制的一种指数,但不同国家对这一指数赋予的名称又有不同。我国称之为居民消费价格指数。
居民消费价格指数是反映一定时期内城乡居民所购买的生活消费价格和服务项目价格的变动趋势和程度的一种相对数。通过这一指数,可以观察消费价格的变动水平及对消费者货币支出的影响,研究实际收入和实际消费水平的变动状况。通过城镇居民消费价格指数,可以分析生活消费品和服务项目价格变动对职工货币工资的影响,为研究职工生活和制定工资政策提供依据。
居民消费价格指数可就城乡分别编制城市居民消费价格指数和农民居民消费价格指数,也可就全社会编制全国居民消费价格总指数。城市居民消费价格指数是反映城市职工及其家庭所购买的生活消费品和服务项目价格变动趋势和程度的相对数,其编制过程与零售价格指数类似,但内容有所不同。消费价格指数包括消费品价格和服务项目价格两个部分。编制该指数时,首先要对消费品和服务项目进行分类,并选择消费品和服务项目的代表。目前的居民消费价格指数分为食品类、衣着类、家庭设备及用品类、医疗保健用品类、交通和通信工具类、娱乐教育文化用品类、居住类、服务项目类等。其中服务项目分为房租、水电费、交通费、邮电费,医疗保健费、学杂保育费、文娱费、修理费及其它服务费等八大类。指数中的权数原则上应采用居民消费支出的构成资料,但由于数据来源的限制,目前仍根据社会商品零售额和服务行业的营业额来确定。最后,分别求出消费品价格指数和服务价格指数,并将二者进行加权平均汇总。其计算公式为:
 (5.26)
式中,为类指数,为权数,分别为消费品零售额和服务项目营业额占二者总和的比重。
居民消费价格指数除了能反映城乡居民所购买的生活消费品和服务项目价格的变动趋势和程度外,还有以下几个方面的作用:
第一,反映通货膨胀状况。通货膨胀的严重程度是用通货膨胀率来反映的,它说明了一定时期内商品价格持续上升的幅度。通货膨胀率一般以居民消费价格指数来表示。其计算公式为:
 (5.27)
第二,反映货币购买力变动。货币购买力是指单位货币能够购买到的消费品和服务的数量。居民消费价格指数上涨,货币购买力则下降,反之则上升,因此,居民消费价格指数的倒数就是货币购买力指数,计算公式为:
 (5.28)
第三,反映对职工实际工资的影响。消费价格指数的提高意味着实际工资的减少,消费价格指数下降则意味着实际工资的提高。因此,利用消费价格指数可以将名义工资转化为实际工资。计算公式为:
 (5.29)
四、股票价格指数
股票在最初发行时,通常是按面值出售的。股票面值是指股票票面上所标明的金额。但股票在证券市场上交易时,就出现了与面值不一致的市场价格。股票价格一般是指股票在证券市场上交易时的市场价格。股票价格是一个时点值,有开盘价、收盘价、最高价、最低价等等,但通常以收盘价作为该种股票当天的价格。股票价格受多种因素的影响,但正常情况下通常与两个直接因素相关:一是预期股息;二是银行存款利息率。股票价格的高低与预期股息成正比,与银行利息率成反比。因此,股票价格的形成可以用下列公式表示:
 (5.30)
股票市场上每时每刻都有多种股票进行交易,且价格各异,有跌有涨。用某一种股票的价格显然不能反映整个股票市场的价格变动,这就需要计算股价平均数和股票价格指数。
(一)股价平均数股价平均数是股票市场上多种股票在某一时点上的算术平均值,一般以收盘价来计算。计算公式为:
股价平均数= (5.31)
式中,为第种股票的收盘价;为样本股票数。
因股票市场上股票交易品种繁多,股价平均数(股票价格指数也是一样)只能就样本股票来计算。但所选择的样本股票必须具有代表性和敏感性。代表性是指在种类繁多的股票中,既要选择不同行业的股票,又要选择能代表该行业股价变动趋势的股票;敏感性是指样本股票价格的变动能敏感地反映出整个股市价格的升降变化趋势。
(二)股票价格指数股票价格指数(Stock price index)是反映某一股票市场上多种股票价格变动趋势的一种相对数,简称股价指数,其单位一般以“点”(point)表示,即将基期指数作为100,每上升或下降一个单位称为“1点”。
股票价格指数的计算方法很多,但一般以发行量为权数进行加权综合。计算公式为:
 (5.32)
式中,为第种样本股票报告期价格;为第种样本股票基期价格;为第种股票的发行量,可以确定为基期,也可以确定为报告期,但大多数股价指数是以报告期发行量为权数计算的。
[例5.9]设有三种股票的价格和发行量资料如表5.8,试计算股票价格指数。
表5.8 三种股票的价格和发行量资料

解:根据表5.2资料得股价指数为:
=103.09%
即股价指数上涨了3.09点。
目前,世界各国的主要证券交易所都有自己的股票价格指数,比如,美国的道琼斯股票价格指数和标准普尔股票价格指数、伦敦金融时报指数、法兰克福DAX指数、巴黎CAC指数、瑞士的苏黎世SMI指数、日本的日京指数、香港的恒生指数等等。我国的上海和深圳两个证券交易所也编制了自己的股票价格指数,如上交所的综合指数和30指数、深交所的成分股指数和综合指数等。
五,农副产品收购价格指数
农副产品收购价格指数旨在反映各种农副产品收购价格的综合变动程度,由此可以考察收购价格变化对农业生产者收入和商业部门支出的影响。
我国的农副产品收购价格指数的编制方法是,从十一类农副产品中选择276种主要产品,以它们各自的报告期收购额作为权数,加权调和平均得到各类别的农副产品收购价格指数和农副产品收购价格总指数,公式为:
 (5.33)
其中,为入编指数的各种农副产品的个体价格指数。
采用加权调和平均法的原因在于,农副产品的收购季节性强,时间比较集中,产品品种相对较少,在期末能够较迅速地取得各种农副产品收购额和代表规格品的价格资料。
六、产品成本指数
产品成本指数概括反映生产各种产品的单位成本水平的综合变动程度,它是企业或部门内部进行成本管理的一个有用工具。记各种产品的产量为q,单位成本为p,则全部可比产品(即基期实际生产过且计算期仍在生产的产品)的综合成本指数通常采用帕氏指数来编制:
 (5.34)
该指数的分子与分母之差可以表示,由于单位成本水平的降低(或提高),使得计算期所生产的那些产品的成本总额节约(或超支)了多少。
类似地,在对成本水平实施计划管理的场合,还可以编制相应的成本计划完成情况指数,用以检查有关成本计划的执行情况。其编制方法可以采用帕氏公式:
 (5.35)
其中,为计划规定的单位成本水平。该分子与分母之差,可以说明计划执行过程中所节约或超支的成本总额。
不过,在同时制定了产量计划的条件下,则应该采用拉氏公式编制成本计划完成情况指数:
 (5.36)
其中,为计划规定的产量水平。该指数可以在兼顾产量计划的前提下来检查成本计划执行情况,即避免由于片面追求完成成本计划而破坏了产量计划。但在企业按照市场需求组织生产,没有制定产量计划,或不要求格守产量计划指标的情况下,上面的拉氏指数就失效了。
本章难点
1、广义指数与狭义指数的区分;
2、数量指数与质量指数的区分;
3、指数化因素与同度量因素的区分;
4、综合指数与平均数指数的联系;
5、平均数指与平均指标指数的区分。
复习思考题
1、什么是统计指数,它有哪些作用?
2、与一般相对数比较,总指数所研究的现象总体有何不同?
3、简述综合指数与平均数指数的内在关系?
4、何谓同度量因素,它在综合指数计算中有何作用?它与平均指数的权数有何不同?
5、什么是指数体系,指数体系的作用有哪些?
6、平均数指数与平均指标指数有何不同?
第六章 抽样与抽样估计
(一)教学目的通过本章的学习,掌握抽样基本理论及参数的估计方法,学会对总体参数进行区间估计。
(二)基本要求要求掌握抽样调查中的基本概念、抽样估计的基本方法,学会样本统计量的计算方法,并能对总体参数进行估计。
(三)教学要点
1、不同抽样组织形式的抽样误差计算;
2、总体均值及比例的区间估计;
3、必要抽样数目的计算方法。
(四)教学时数
7——9课时
(五)教学内容本章共分四节第一节 抽样调查的基本概念一、统计推断
统计学是一门关于数据资料的收集、整理、分析和推断的科学,它的目的是提供显示被研究客观事物的群体特征和数量规律性的方法。根据所掌握客观事物数据资料全面与否,统计学可以分成两类。一类称为描述统计学,它研究如何全面收集被研究客观事物的数据资料并进行简缩处理,描述其群体特征和数量规律性。本书前几章内容即属于描述统计学范畴。另一类称为推断统计学,它研究如何有效地收集和使用被研究客观事物的不完整并且带有随机干扰的数据资料,以对其群体特征和数量规律性给出尽可能精确、可靠的推断性结论。这是统计工作中经常遇到的问题。
[例6.1] 某省政府部门欲了解全省农民收入的平均水平。该省幅员辽阔,人口众多,如果采用普查则工作量及调查费用将异常庞大。一个可行的方法是在全省抽取部分农户进行调查,根据这部分调查所得收入数据资料去推断全省农民收入的平均水平。
[例6.2] 某地为加强环境保护,加强水质监测,考察河水中某种污染物质是否超标。显然对河水全部检验是不可能的,只能从河水中按照一定地点定时取样检验,根据检验结果推断河水中污染物是否超标。
[例6.3] 某水泥厂加强产品质量控制和管理,需考察水泥标号是否达到规定标准,其方法是将水泥做成试块进行耐压试验。由于这种试验是一种破坏性试验,显然不能把全部水泥都做成试块,只能从全部水泥中抽取部分进行试验。
从上面例子可以看出,在很多统计问题中,或者由于人力、物力、财力或时间限制,或者由于取得全部数据是不可能的,或者虽然能够取得全面数据但数据收集本身带有破坏性,我们不能收集全面数据,只能从中收集部分数据,依据这部分数据对所研究对象的数量特征或数量规律性进行推断。这种依据部分观测取得的数据对整体的数量特征或数量规律性进行的推断称为统计推断。
统计推断有两种类型。一类是参数估计(Estimation of parameters),由对部分进行观测取得的数据对研究对象整体的数量特征取值给出估计方法。另一类是假设检验(Hypothesis testing),由对部分进行观测取得的数据对研究对象的数量规律性是否具有某种指定特征进行检验。本章研究参数估计问题,下一章研究假设检验问题。
二、几个基本概念
1.总体和个体总体(Population)和个体(Item)是统计学中的两个基本概念。对总体和个体有两种理解。一种是具体的理解,即个体是统计问题中的每个研究对象,总体是研究对象的全体。例如在研究某省农民收入统计问题中,每个农户就是个体,该省全体农户组成总体。在这种理解下,总体都是有限的,即包含的个体数有限。另一种是抽象的理解。例如在农民收入统计问题中,我们关心的仅仅是“收入”这个统计指标的数量特征及其分布情况,并不关心其它的指标。“收入”作为一个统计指标可以在一定范围内取数值,就此指标而言不同农户所取的值是不同的,抽取了若干农户就观察到了收入指标的这样或那样的数值。而在不同的抽取中观察到的数值又不尽相同,即取值带有随机性。所以这个统计指标是一个随机变量。由于我们关心的仅仅是作为随机变量的统计指标的数量特征及分布,所以我们就把具体的研究对象及其全体放在一边,而把这个统计指标称为总体,其所取的每个可能值称为个体。在这种理解下,总体既可以是有限的,也可以是无限的。当一个总体只取有限个可能值时,则称其为有限总体;当它可取无穷多个值时,则称其为无限总体。例如在农民收入统计问题中,收入是在一定区间内取数值的,而一个区间包含有无穷多个数,因此从可以取无穷多个值这一点讲,收入总体应理解为一个无限总体。
以上关于总体和个体的两种理解在统计中都有应用。在一个具体的统计问题中究竟应采用第一种理解还是第二种理解,应根据具体统计问题的特点及研究目的而定。一般地说,在抽样调查领域取第一种理解,因为抽样调查中所研究的总体都是非常具体的总体。在经典的统计理论与方法研究中则取第二种理解,后者常可把总体抽象化为一个随机变量进行研究。通常我们以表示作为总体的随机变量,亦即我们所研究的统计指标。
2.样本为了研究总体的数量特征和分布规律,必须知道的信息。如果不收集全面数据,也必须收集其部分数据,利用部分数据提供的有关总体的信息对的数量特征和分布规律进行统计推断,这就需要对总体进行抽样观测。为了使统计推断结论具有一定的精确度和可靠度,所需要的信息量不能太少,因而一般我们对总体还不止只进行一次抽样观测,而要进行多次抽样观测,比如次,通过抽样观测就得到总体的一组观测数据,其中是第次抽样观测的结果。称()为进行一次容量为n的抽样的样本观察值,称为样本容量。对于一次具体的容量为的抽样而言,()是完全确定的一组数据,但是对不同的容量为的抽样来说,它则随每次抽样而改变,即取值带有不确定性。由于我们要依据抽样结果进行分析推断,并研究比较各种推断方法的好坏,因而一般考虑问题时就不应该把一次抽样的容量为的抽样的结果看作固定的个数据,而应看作维随机变量(),称它为容量为的样本(Sample)。
因此样本这一概念具有二重性。当我们一般地讨论抽样时,样本应理解为维随机变量(),而在一次具体的抽样中,样本则是个确定的数据(),是维随机变量()的一个观察值。在一个统计问题中样本究竟应作何理解结合上下文不难确定。
我们抽样的目的是为了对总体的数量特征和分布规律进行推断,因而要求样本必须应很好地反映总体的特征,这就对抽取样本的方法提出一定要求。通常提出以下两点要求:
第一,代表性,要求样本的每个分量应与总体有相同的分布;
第二,独立性,要求为相互独立的随机变量,即任何一次抽样结果既不影响其它抽样结果,也不受其它抽样结果影响。
满足上述两点要求的样本称为简单随机样本,获得简单随机样本的方法称为简单随机抽样(Simple random sampling)。由概率论易知,对有限总体进行无放回随机抽样所得的样本即为简单随机样本。今后若不特别声明,样本均指简单随机样本。
3.统计量虽然样本提供了总体的信息,但样本提供的信息是分散的,不集中,不便于有效地对总体进行推断。为了能有效地推断总体,我们必须对样本进行“加工”,把样本中所包含的有关总体某一特征的信息“提取”“聚集”在一起,这就是根据推断问题的需要构造样本的适当函数,不同的样本函数反映总体的不同特征,一旦有了样本观察值就可以由此给出总体特征的推断值。因此自然要求这种样本函数应不包含任何未知参数。称这种样本函数为统计量(Statistic)。
定义6.1 设()是总体容量为n的样本,若样本函数
()
中不含任何未知参数,则称为一个统计量。
例如

就是一个统计量,称为样本均值(Sample mean),

也是统计量,称为样本方差(Sample variance),

也是统计量其中是自然数,称为样本阶原点矩(Moment of order k about the origin)。
三、抽样分布根据样本统计量去估计总体参数,必须知道样本统计量分布。
定义6.2 某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每一个样本算出的该统计量数值的相对数频数分布或概率分布。
由于现实中我们不可能将所有的样本都抽出来,因此,统计的抽样分布实际上是一种理论分布。
(一)样本均值的抽样分布从单位数为N的总体中抽取样本容量为n的随机样本,在重复抽样的条件下共有个可能的样本,在不重复抽样条件下,共有个可能样本。对于每一个样本,我们都可以计算出样本的均值,因此,样本均值是一个随机变量。所有的样本均值形成的分布就是样本均值的抽样分布。
[例6.4]设一个总体含有4个个体(元素),即N=4,取值分别为:

总体分布为均匀分布,如图6.1所示。
图6.1
总体均值:
总体方差:
若重复抽样,n=2 则共有个可能样本。具体列示如表5.1.1。
表6.1 可能的样本及其均值

每个样本被抽中的概率相同,均值为
样本均值的抽样分布如表5.1.2和图5.1.2所示。
样本均值抽样分布的形状与原有总体的分布有关,如果原有总体是正态分布,样本均值也服从正态分布。
如果总体分布是非正态分布,当x为大样本()时,样本均值的分布趋于服从正态分布;当x为小样本时,其分布不是正态分布。
下面再让我们来看看样本均值抽样分布的特征:数学期望和方差。
设总体共有N个元素,其均值为,方差为,从中抽取容量为n的样本。
 (6.1)
(重复抽样) (6.2)
(不重复抽样) (6.3)
对于无限总体,样本均值的方差,不重复抽样也可按重复抽样来处理;对于有限总体,当很大,而又很小,修正系数会趋于1,不重复抽样也可按重复抽样来处理。
样本均值抽样分布的特征—数学期望和方差的计算公式,可以通过[例6.4]加以验证。
样本均值的均值
样本均值的方差
表6.2 样本均值的抽样分布

图6.2 样本均值的抽样分布
(二)抽样比例的抽样分布比例即结构相对数,即成数。
总体比例 
样本比例 
当n很大时,样本比例p的抽样分布可用正态分布近似。
对于样本比例p,若,就可以认为样本容量足够大了。
 (6.4)
(重复抽样) (6.5)
(不重复抽样) (6.6)
与样本均值分布的方差一样,样本比例的方差,对于无限总体,不重复抽样也可按重复抽样来处理;对于有限总体,当很大,而,修正系数会趋于1,不重复抽样也可按重复抽样来处理。
第二节 抽样估计的基本方法
一、抽样调查在社会经济领域和其它一些领域,我们经常需要利用抽样调查来估计总体的参数。在实际问题中,待估计的总体参数主要有总体均值(Population mean)、总体总值(Population total)、总体比例(Population proportion)、总体总数(Number of unit of population)。例如估计一个地区职工平均工资、估计一个省夏粮总产量、估计一个社区家庭电脑拥有率及家庭电脑总数等等。我们把待估计的总体参数称为目标量。
由于抽样调查所面临的总体及个体都是很具体的,而且个体与个体之间是可以辨别的,因而这里所涉及的总体都是有限总体。例如在职工平均工资调查中,职工总数是有限的。在夏粮总产量调查中,总播种面积也是有限的。正是因为这里的总体及个体都是很具体的,因此我们对总体和个体取第一种理解,个体就是调查对象,总体就是调查对象全体。
在抽样调查中,为了使样本能最大限度地避免人为干扰和偏差,同时还能对由于抽样引起的误差——抽样误差进行估计,并且使抽样误差控制在所允许的限度内,即使估计量——用于对目标量进行估计的统计量具有一定精度,科学地获得样本的方法是对总体进行概率抽样。所谓概率抽样是指具有如下特点的抽样:
1.能够确切地区分不同的样本,即能够明确表明一个确定的样本究竟是由哪些个体组成;
2.对每个可能的样本都赋予一个被抽到的概率;
3.按照事先赋予的概率通过某种随机形式抽取样本;
4.利用样本调查数据估计目标量时仍需与抽样概率相联系。
在实际问题中,抽样可以逐个进行,即每次只从总体中抽取一个个体,连续抽次,也可以一次性抽取容量为的样本。在逐个抽取时每次抽取个体可以采用放回抽取也可以采用不放回抽取,前者称为放回抽样,后者称为不放回抽样。在抽取个体时不同的个体可以按相等的概率被抽到,也可以按不等概率被抽到,前者称为等概率抽样,后者称为不等概率抽样。
概括地说,抽样调查是通过对有限总体实施概率抽样,利用样本调查数据对总体参数进行估计。
二、抽样单元与抽样框总体是由个体组成的。在某地区人口抽样调查中,每个人就是一个个体,该地区全体人口构成人口总体。在农民收入调查中,每个农户就是一个个体,全体农户构成农户总体。在企业调查中,每个独立经营核算企业就是一个个体,全体独立经营核算企业构成企业总体。在大规模抽样调查中,当总体包含个体数量非常庞大时,直接对个体抽样在操作上往往是不方便的。为使概率抽样能够实施,同时也为了具体抽样便利,通常将总体划分成互不重迭且又穷尽的若干部分,每个部分称为一个抽样单元(Sampling unit),每个抽样单元都是由若干个体组成的集合。如果抽样单元只由一个个体组成就称为最小抽样单元。抽样单元的划分应视具体情况而定,它可以是自然形成的,也可以是人为划定的。例如在人口变动抽样调查中可将县(区)、乡(街道)或村(居)民委员会作为抽样单元;在农产量抽样调查中可将人为分割的等面积的地块作为抽样单元。为抽样便利,在大规模抽样调查中往往分成不同级别的抽样单元。例如在职工收入抽样调查中将企(事)业单位作为一级抽样单元,将职工作为二级抽样单元;在农产量抽样调查中,若以省为总体,可分别将县、乡、村、农户作为一、二、三、四级抽样单元。将抽样单元分级主要是基于具体抽样方法的考虑。在抽样单元分为不同级别时,最末一级抽样单元即最小抽样单元是调查单元。
为了抽样方便,必须有一份关于抽样单元的名册或清单,这样的名册或清单称为抽样框(Sampling frame)。在抽样框中,每个抽样单元都被编上一个号码,由此可以按一定随机化程序对号码进行抽样。抽出号码后,抽样调查工作者根据抽样框找到与被抽到的号码相对应的具体抽样单元实施调查。当抽样单元有不同级别之分时,相应地应建立不同级别的抽样框。例如以省为总体的农产量抽样调查,当分别以县、乡、村、农户作为各级别抽样单元时,相应地应编制县抽样框、乡抽样框、村抽样框和户抽样框。一旦上一级别的某个抽样单元被抽中,必须在下一级别抽样框中连续抽样。
显然,一个有效的抽样框所包含的抽样单元应既无遗漏又无重复。编制高质量的抽样框是保证抽样调查达到预期目的的前提条件之一。
三、抽样方法抽样调查中的一个基本问题是样本的抽取方法。在抽样调查中总体目标量的估计量及其精度都与具体抽样方法有关。最基本的抽样方法有以下五种,实际调查所用的方法通常是这五种方法的各种形式的组合。
简单随机抽样简单随机抽样(Simple random sampling)也称为单纯随机抽样。从包含个抽样单元的总体中抽取容量为的简单随机样本,可以是从总体中逐个不放回地抽取次,每次都是在尚未入样的单元中等概率抽取的,也可以是从总体中一次取得全部个单元,只要保证全部可能的样本每个被抽到的概率都相等即可。
简单随机抽样是其他抽样方法的基础,因为它在理论上最容易处理,并且当总体包含的抽样单元数不太大时实施并不困难。但是当很大时实施就很困难,主要是编制一个包含全部个抽样单元的抽样框通常很不容易。另外当很大时所抽到的样本单元往往很分散,使调查极不方便。因此在大规模的抽样调查中很少单独采用简单随机抽样。
分层抽样将总体中的抽样单元按某种原则划分或若干个子总体,每个子总体称为层。在每个层内独立地进行抽样,这样的抽样称为分层抽样(Stratified sampling)。如果在每层内均采用简单随机抽样,就称为分层随机抽样。在分层抽样中,先根据层样本对层的参数进行估计,然后再将这些层估计加权平均或求和作为总体均值或总值的估计。
分层抽样特别适用于既要对总体参数进行估计也要对子总体(层)参数进行估计的情形。分层抽样实施和组织都比较方便,样本单元分布比较均匀。当层内单元指标差异较小而层间单元指标差异较大时,采用分层抽样可以大大提高估计的精度。例如在居民收入调查中,按收入分布情况将居民分为最高收入层、高收入层、中等偏上层、中等收入层,中等偏下层、低收入层、最低收入层实施分层抽样,其估计精度就会比简单随机抽样有显著提高。
二阶抽样与多阶抽样为抽样方便,有时我们把总体分成两个级别的抽样单元:初级抽样单元和次级抽样单元,总体由若干初级单元组成,每个初级抽样单元由若干次级抽样单元组成,先按某种方法在由初级单元构成的一级抽样框中抽样,然后在中选的初级单元中由次级单元构成的二级抽样框中抽样,抽样过程分为两个阶段,这种抽样方法称为二阶抽样(Two stage sampling)。例如在企业职工收入调查中,把企业作为初级抽样单元,职工作为次级抽样单元,先对企业进行抽样,再在被抽中企业内对职工进行抽样,然后对被抽中的职工进行调查,这就是二阶抽样。如果总体可以划分成多个级别的抽样单元,每一级别的抽样单元由若干下一级别的抽样单元组成,相应地存在多个级别的抽样框,抽样时先在一级抽样框中对一级单元抽样,再在中选的一级单元中对二级单元抽样,依次类推,这种抽样方法称为多阶抽样(Multi-stage sampling)。多阶抽样实施方便,而且不需要对每个高级别的抽样单元建立关于低级别抽样单元的抽样框,调查费用也比较低。例如在省抽县、县抽乡、乡抽村、村抽户的农产量四阶抽样中,凡未被抽中的县、乡、村就不必编制关于乡、村、户的抽样框。多阶抽样的主要缺点是估计量的结构比较复杂,估计量方差的估计也很复杂。
在二阶抽样中,如果对初级单元不再进行随机抽样,让所有的初级单元都入样,而在初级单元中对次级单元进行随机抽样,这样的二阶抽样就是分层随机抽样,层即初级单元。
(四)整群抽样在二阶抽样中如果把初级抽样单元称作由次级抽样单元组成的群,在抽中的群内不再对次级单元进行抽样而是进行普查,那么这种抽样方法就称为整群抽样(Cluster sampling)。当总体包含的次级单元为数众多且又缺少必要的档案资料因而无法直接对次级单元编制抽样框,而由次级单元组成的群的抽样框是现成的或者很容易编制时,常常采用整群抽样。整群抽样的优点是只需具备群即初级抽样单元的抽样框即可,无需具备关于次级单元的抽样框。整群抽样的效率与群的划分密切相关,如果总体划分成群后,群内差异小而群间差异大则估计精度就比较低。因此群的划分原则应是尽量扩大群内差异,使每个群都有较好的代表性。由此可知,划分群的原则正好和分层的原则相反。
(五)系统抽样若总体中的抽样单元都按一定顺序排列,在规定的范围内随机抽取一个单元作为初始单元,然后按照一套事先定好的规则确定其他样本单元,这种抽样方法称为系统抽样(Systematic sampling)。与其他几种抽样方法不同的是,这里只有初始单元是随机抽取的,其他样本单元都随着初始单元的确定而确定。最简单的系统抽样是在取得一个初始单元后按相等的间隔抽取后继样本单元,这种系统抽样称为等距抽样。等距抽样的优点是实施简单,整个样本中只是初始单元需随机抽取,其余单元皆由此决定。另外等距抽样有时甚至不需要编制抽样框,只需给出总体抽样单元的一个排列即可。如果对总体抽样单元的排列规则有所了解并加以正确利用,那么等距抽样就能达到相当高的精度。等距抽样的主要缺点是估计量精度的估计比较困难。
以上对几种常用的抽样方法作了简单的介绍。在实际运用中会有许多变化,例如在某些抽样方法中,抽取样本单元可采用不放回抽样,也可采用放回抽样;可采用等概率抽样,也可采用不等概率抽样。在具体设计抽样方案时还应考虑多种因素,以决定抽样方法的选择和组合。
四、抽样调查设计一次大规模抽样调查欲想取得预期效果,必须经过周密准备、科学设计和规范实施才能实现。
进行抽样调查首先必须明确调查目的,规定调查内容,确定调查对象,只有这样才能编制一个高质量的抽样框,为抽样的实施提供良好的前提。当然在这一阶段还需进行调查人员培训,落实调查经费,开展试调查以为正式调查提供经验,发现并处理抽样方案设计中需改进之处,使日后大规模进行的抽样调查能科学、严格地实施。
一次抽样调查实施效果如何,关键取决于抽样调查设计。抽样调查设计的核心部分包括以下三个方面。
(一)抽样方案设计这一部分主要包括两个问题,一个是抽样方法的选择和组合,即决定如何进行抽样的问题;另一个是样本容量的确定,即在选定的抽样方法下抽多少样本单元的问题。抽样方法的选择和组合应考虑到尽可能使抽样方便,易于实施,同时还必须考虑到应使样本有较好的代表性,有利于依此样本所进行的估计有较高的精度。样本容量的确定则与精度和费用两个因素有关。在一定的抽样方法下,欲想提高估计精度必须扩大样本量,欲想节省调查费用必须压缩样本量,两者对样本量的要求是矛盾的。因此不存在使精度最高且使费用最省的抽样设计。在实际问题中只能采用如下的原则确定样本量:
1.使估计量达到规定的精度要求,确定使费用最省的样本量;
2.在调查费用固定的约束下,确定使估计精度最高的样本量。
以上原则称为最优设计原则。
(二)调查方法确定按已设计好的抽样方案抽得样本单元后,接下来需进行的第二项工作即是调查,亦即从调查单元收集所需的调查项目的数据。如何保证调查数据完整、真实、可靠,使源头数据不存在调查误差,是这一部分的关键问题。调查方法多种多样,可以采用问卷调查,也可以采用座谈会调查、电话调查、面访调查,问卷可以当面发放、回收,也可以通过邮寄、上网发放回收。问卷设计格式灵活多样,提哪些问题,采用什么方式提,各问题排列顺序如何,均应视调查对象的特点进行恰当的设计,以有利于被调查者更好地配合,提高回收率,减少无回答率。
(三)估计量的构造取得调查数据后,下一步的工作就是如何使用这些数据,即根据调查目的对目标量给出尽可能精确、可靠的估计。这里首先应解决的问题是建立由所得数据能够给出目标量估计值的估计方法,也就是构造估计量的问题。估计量把样本中反映总体参数特征的信息集中在一起,提供了由样本数据给出总体参数估计值的方法。从信息使用角度而言,一个好的估计量应该是包含待估参数尽可能多的信息从而精度比较高的估计量,所以在构造估计量时除了必须使用调查指标的样本信息即基本信息外,还应考虑是否存在可供利用的辅助信息,若存在可供利用的辅助信息,而且获得这些信息不需很多投入,那么综合使用了基本信息和辅助信息的估计量就比只使用单一的基本信息的估计量含有更多的有用信息,从而有利于提高估计量的精度。其次,应使估计量具有较好的概率性质,例如无偏性、方差小。这就必须研究所构造的估计量是否具有无偏性,并从理论上给出其方差计算公式,方差越小的估计量精度越高。第三,虽然估计量方差计算公式可以在理论上对其精度进行分析,但对一次具体的抽样调查而言不能计算出方差的真值,因为要计算方差真值必须使用全面调查资料。为了描述估计效果的好坏,必须给出依据样本能对估计量方差进行估计的方法,这就是构造估计量方差的估计量,有了样本数据由此可给出估计量方差的估计值。第四,在大规模社会经济抽样调查中,取得调查数据后,后期数据处理工作通常异常巨大,为了使数据处理尽可能简便,应尽可能采用自加权估计量,即估计量能表示成样本调查值之和与某一固定常数乘积的形式,从而大大简化估计量冗繁的计算。同时也有助于简化估计量方差的估计量的计算。在构造估计量时,兼顾估计量应具有良好的性质同时又具有方便的计算形式是这一阶段设计时必须周密考虑的问题。
第二节 抽样误差一、抽样误差的概念
(一)?抽样误差的一般概念一般地说,抽样误差是指样本指标与被它估计未知的总体参数(总体特征值)之差。具体地是指样本平均数x与总体平均数X的差,样本成数p与总体成数P的差(p-P)。例如,某地区全部小麦平均亩产400公斤,而抽样调查得到的平均亩产为391公斤或403公斤,则样本指标与总体指标之间的误差为-9公斤或3公斤。
(二)?统计调查误差的种类统计调查误差按产生的原因可以分为登记性误差和代表性误差。
二、影响抽样误差的因素
1.总体各单位标志值的差异程度。差异程度愈大则抽样误差愈大,差异程度愈小则则抽样误差愈小。
2.样本单位数。在其他条件相同的情况下,样本的单位数愈多,则抽样误差愈小。
3.抽样方法。抽样方法不同,抽样误差也不同。一般情况下重复抽样误差比不重复抽样误差要大一些。
4.抽样调查的组织形式。不同的抽样组织形式就有不同的抽样误差。
三、抽样平均误差
(一)?抽样平均误差的意义抽样平均误差是反映抽样误差一般水平的指标,其实质是抽样指标的标准差。抽样平均误差反映抽样指标和总体指标间的平均误差程度。
(二) 抽样平均误差的计算
1.平均数抽样的平均误差重复抽样条件下: (6.7)
不重复抽样条件下: (6.8)
2.成数抽样平均误差重复抽样条件下: (6.9)
不重复抽样条件下: (6.10)
3.重复抽样和不重复抽样条件下抽样平均误差的区别。
从上面的计算公式可看到,在其他条件相同的情况下,重复抽样和不重复抽样仅差一个修正因子的平方根(。由于所以不重复抽样的平均误差小于重复抽样的平均误差的倍。又称抽样比例或抽样强度。
四、抽样极限误差
1.抽样极限误差的概念抽样极限误差是指抽样指标与总体指标之间误差可允许的最大范围。
因平均误差反映抽样的可能误差范围,而实际上每次抽样推断中只抽一个样本,因此实际上的抽样误差可能大于抽样平均误差,也可能小于抽样平均误差。误差太大或太小都会给抽样工作造成不利影响,因而在抽样估计时,应根据研究对象的变异程度和分析任务的要求确定可允许误差的范围,这一允许范围称极限误差。
2.抽样误差的概率度把极限误差或分别除以或得相对数t,表示误差范围为抽样平均误差的t倍。t是测量估计可靠程度的一个参数,称抽样误差的概率度。
或 (6.11)
3.抽样极限误差与概率度、抽样平均误差的关系。
抽样极限误差与概率度、抽样平均误差可以互相推算。即:
或  (6.12)
或 (6.13)
以上公式展开以后可得到下面公式:
 或  (6.14)
 或  (6.15)
第四节 参数估计和样本大小的确定一、参数估计概述在许多实际问题中,总体被理解为我们所研究的那个统计指标,它在一定范围内取数值,而且是以一定的概率取各种数值的,从而形成一个概率分布,但是这个概率分布往往是未知的。例如为了制定绿色食品的有关规定,我们需要研究蔬菜中残留农药的分布状况,对这个分布我们知之甚少,以致它属于何种类型我们都不清楚。有时我们可以断定分布的类型,例如在农民收入调查中,根据实际经验和理论分析如概率论中的中心极限定理,我们断定收入服从正态分布,但分布中的参数取何值却是未知的。这就导致统计估计问题。统计估计问题专门研究由样本估计总体的未知分布或分布中的未知参数。直接对总体的未知分布进行估计的问题称为非参数估计;当总体分布类型已知,仅需对分布的未知参数进行估计的问题称为参数估计。本节我们研究参数估计问题。本节及以后假定抽样方法为放回简单随机抽样,样本的每个分量都与总体同分布,它们之间相互独立。
二、参数估计的基本方法
(一)估计量与估计值
1.参数估计就是用样本统计量去估计总体参数
2.用来估计总体参数的统计量的名称称为估计量,如样本均值、样本比例、样本方差等都可以是一个估计量。
3.估计量的具体数值称为估计值
(二)点估计与区间估计参数估计方法有点估计与区间估计两种方法。
1.参数估计的点估计法设总体的分布类型已知,但包含有未知参数,从总体中抽取一个简单随机样本,欲利用样本提供的信息对总体未知参数进行估计。构造一个适当的统计量

作为的估计,称为未知参数的点估计量(Point estimate)。当有了一个具体的样本观察值后,将其代入估计量中就得到估计量的一个具体观察值,称为参数的一个点估计值。今后点估计量和点估计值这两个名词将不强调它们的区别,通称为点估计,根据上下文不难知道此处的点估计究竟是点估计量还是点估计值。
通俗地说,用样本估计量的值直接作为总体参数的估计值称为点估计。
2.参数估计的区间估计法在参数估计中,虽然点估计可以给出未知参数的一个估计,但不能给出估计的精度。为此人们希望利用样本给出一个范围,要求它以足够大的概率包含待估参数真值。这就是导致区间估计(Interval estimation)问题。
定义4:设是未知参数,是来自总体的样本,构造两个统计量,,对于给定的(0<<1),若、满足
  
则称随机区间[,]是参数的置信水平(Confidence level)为的置信区间(Confidence interval),称为[,]的置信系数,,称为置信限(Confidence limit)。
这里有几点需要说明:
(1)区间[,]的端点,及长度-都是样本的函数,从而都是随机变量,因此[,]是一个随机区间。
(2)  是说随机区间[,]以的概率包含未知参数真值,区间长度-描述估计的精度,置信水平描述了估计的可靠度。
(3)因为未知参数是非随机变量,所以不能说落入区间[,]的概率是,而应是随机区间[,]包含的概率是。
通俗地说,在点估计的基础上,给出总体参数的一个范围称为区间估计。
(三)评价估计量的标准
1.无偏性
定义5,设是未知参数的一个点估计量,若满足
 即估计量的数学期望等于被估计参数则称是的无偏估计量(Unbiased estimate),否则称为有偏估计量。
需要注意的是,由于估计量是样本的函数,样本量是维随机变量,所以对求平均是按样本的概率分布求平均。
无偏性是我们衡量点估计量好坏的一个评价标准,这个评价标准的直观意义如下。由于样本的出现带有随机性,所以基于一次具体抽样所得的参数估计值未必等于参数真值,这是由样本的随机性造成的。我们希望当大量使用这个估计量对参数进行估计时,一系列估计值的平均值应该与待估参数真值相等。这就从平均效果上对估计量的优劣给出一个评价标准。
2.有效性定义6,设,均为未知参数的无偏估计量,如果对参数的一切可能取值有

且严格不等号至少对参数的某个可能值成立,则称无偏估计量比有效(Efficiency)。
一个无偏估计量并不意味着他就非常接近被估计的参数,他还必须与总体参数的离散程度比较小。对同一总体参数的两个无偏点估计量,方差小者更有效。
3.一致性
定义7,设对容量为的样本,是参数的一个估计量,,若对任意>0,

则称是的一个一致的估计量序列,或称此估计量序列具有一致性。
随着样本容量的增大,点估计量的值越来越接近总体参数
4.均方误差准则对未知参数的两个无偏估计,我们可以通过比较它们的方差来判断哪个更好,但对于有偏估计仅比较方差就很难说明哪个更好。由于我们所关心的是估计量取值“集中”于参数真值的程度,即整体上偏离其真值的大小,因而采用均方误差(Mean square error)描述估计量的好坏更为合理。
定义8,设、是参数的两个估计量,若对的一切可能值,
 
且严格不等号至少对参数的某个可能值成立,则称在均方误差意义下优于。其中称为均方误差,记为。
三、总体均值的区间估计
(一)正态总体且方差已知;或非正态总体、方差未知、大样本情况下在这种情况下,样本均值的抽样分布呈正态分布,其数学期望为总体均值,方差为。则称为总体均值在置信水平下的置信区间。
设样本来自正态总体是总体均值,是总体方差,当已知时数理统计证明服从正态分布,从而服从标准正态分布,对给定的置信系数查表可得上分位点,使得

从而有


 (6.16)
则 即是的置信水平为的置信区间。
[例6.5]保险公司从投保人中随机抽取36人,计算得36人的平均年龄岁,已知投保人平均年龄近似服从正态分布,标准差为7.2岁,试求全体投保人平均年龄的置信水平为99%的置信区间。
解:查表得


故全体投保人平均年龄的置信水平为99%的置信区间为[36.41,42.59]
在不重复抽样条件下,置信区间为:
 (6.17)
[例6.6]一家食品公司,每天大约生产袋装食品若干,按规定每袋的重量应为100g。为对产品质量进行检测,该企业质检部门采用抽样技术,每天抽取一定数量的食品,以分析每袋重量是否符合质量要求。现从某一天生产的一批食品8000袋中随机抽取了25袋(不重复抽样),测得它们的重量如表6.3所示。
表6.3 25袋食品重量

已知产品重量服从正态分布,且总体方差为100g。试估计该批产品平均重量的置信区间,置信水平为95%。
解:已知=100g,n=25,=95%,=1.96
根据样本资料,计算的样本均值为:

根据(6.17)式得
=105.36±1.96××
即105.36±3.914115=(101.4459,109.2741),该批产品平均重量在95%置信水平下的置信区间为:101.4459~109.2741。
若总体方差未知,可用样本方差S2代替
[例6.7]承[例6.5]假定保险公司从投保人中随机抽取36人,得到他们的年龄数据如表6.4所示。
表6.4 36名投保人的年龄

若总体方差未知,试建立投保人年龄90%的置信区间。
解:已知n=36,=90%,=1.645,由于总体方差未知,但为大样本,故可用样本方差代替。
根据样本资料计算的样本均值和样本标准差为:
 
(样本均值和样本标准差的计算,也可直接通过Excel软件中的描述统计功能计算,计算结果如图6.3所示)

图6.3 描述统计运行结果则置信区间为:

即39.5±2.13=(37.37,41.63),投保人平均年龄在90%的置信水平下的置信区间为37.37岁~41.63岁。
(二)正态总体、方差未知、小样本情况下如果总体服从正态分布,无论样本容量大小,样本均值的抽样分布都服从正态分布。只要总体方差已知,即使在小样本情况下,也可以按(5.3.1)式或(5.3.2)式计算总体均值的置信区间。如果总体方差未知,需用样本方差S2代替,在小样本情况下,应用分布来建立总体均值的置信区间。
分布是类似正态分布的一种对称分布,他通常要比正态分布平坦和分散。随着自由度的增大,分布逐渐趋于正态分布。
正态总体、方差未知、小样本情况下,总体均值在置信水平下的置信区间为:
 (重复抽样条件下) (6.18)
 (不重复抽样条件下) (6.19)
其中为t分布临界值,可以查t分布临界值表得到,也可由Excel计算得到。
Excel计算,可使用粘贴函数,Tinv”完成。操作步骤依次为:Tinv→→df→确定
[例6.8]已知某种电子元件的寿命服从正态分布,现从一批电子元件中随机抽取16只,测得其寿命如图6.4中的原始数据部分。

图6.4 16只电子元件寿命原始数据及描述统计部分结果试建立该批电子元件使用寿命95%的置信区间。
根据样本资料计算的样本均值和样本标准差为:
 
(样本均值和样本标准差的计算,也可直接通过Excel软件中的描述统计功能计算,计算结果如图6.4所示)
由=95%知,==2.131
则该批电子元件平均使用寿命95%的置信区间为:

即=(1476.8,1503.2),该批电子元件平均使用寿命在95%的置信水平下的置信区间为1476.8小时~1503.2小时。
现将总体均值的区间估计总结如表6.5所示.
表6.5 不同情况下总体均值的区间估计

四、总体比例的区间估计在大样本(一般经验规则:)条件下,样本比例的抽样分布可用正态分布近似。在这种情况下,数理统计已经证明如下结论:
置信水平为的置信区间为:
 (重复抽样) (6.20)
 (不重复抽样) (6.21)
[例6.9]某城市想要估计下岗职工中女性所占的比例,采取重复抽样方法随机抽取了100名下岗职工,其中65人为女性。试以95%的置信水平估计该城市下岗职工中女性所占比例的置信区间。
解:已知,,
根据(5.3.5)式得:

即65%±9.35%=(55.65%,74.35%),95%的置信水平下估计该城市下岗职工中女性所占比例的置信区间为55.65%~74.35%。
[例6.10]某企业共有职工1000人,企业准备实行一项改革,在职工中征求意见,采用不重复抽样方法,随机抽取200人作为样本,调查结果显示,由150人表示赞成这项改革,有50人表示反对。试以95%的置信水平确定赞成改革的人数比例的置信区间。
解:已知,,
根据(5.3.6)式得:


即75%±5.37%=(69.63%,80.37%),95%的置信水平下估计赞成改革的人数比例的置信区间为69.63%~80.37%。
五、总体方差的区间估计数理统计证明,对于容量为的正态总体样本方差,若总体方差为,则服从自由度为的分布。对给定的置信系数,查分布表可得上分位点和下分位点,使得

从而有


 , 
则  即是的置信水平为的置信区间。
即 (6.22)
[例6.11] 食品厂从生产的罐头中随机抽取15个称量其重量,得样本方差(克),设罐头重量服从正态分布,试求其方差的置信水平为90%的置信区间。
解,查分布表得
 
 
故总体方差的置信水平为90%的置信区间为。
六,样本大小的确定
(一)影响样本大小的因素在抽取样本时样本容量应多大是一个很实际的问题。样本容量取得比较大,收集的信息就比较多,从而估计精度比较高,但进行观测所投入的费用、人力及时间就比较多;样本容量取得比较小,则投入的费用、人力及时间就比较少,但收集的信息也比较少,从而估计精度比较低。这说明精度和费用对样本量的影响是矛盾的,不存在既使精度最高又使费用最省的样本量。一个常用的准则是在使精度得到保证的前提下寻求使费用最省的样本量。由于费用通常是样本量的正向线性函数,故使费用最省的样本量也就是使精度得到保证的最小样本量。
(二)估计总体均值时样本大小的确定在简单随机重复抽样下,设样本来自正态总体,总体均值的点估计为样本均值。如果要求以估计时的绝对误差为,可靠度为,即要求





故只要需取绝对误差

从而解得
(重复抽样条件下) (6.23)
同理,在简单随机不重复抽样条件下,我们可以得出估计总体均值时样本容量的计算公式为:
(不重复抽样条件下) (6.24)
[例6.12] 在某企业中采用简单随机抽样调查职工月平均奖金额,设职工月奖金额服从标准差为10元的正态分布,要求估计的绝对误差为3元,可靠度为95%,试问应抽多少职工?
解:已知则

即需抽取43名职工作为样本进行调查。
(三)估计总体比例时样本大小的确定在简单随机重复抽样条件下,估计总体比例时,我们可以定义绝对误差为:

从而得到样本容量:
(重复抽样条件下) (6.25)
同理,在简单随机不重复抽样条件下,我们可以得出估计总体比例时样本容量的计算公式为:
(不重复抽样条件下) (6.26)
[例6.13]根据以往的生产统计,某种产品的合格率为90%,现要求绝对误差为5%,在置信水平为95%的置信区间时,应抽取多少个产品作为样本?
已知,  
则=
本章难点
1、如何理解抽样估计的基本理论;
2、抽样误差的含义与计算方法;
3、不同类型总体的参数区间估计问题。
复习思考题
1、什么是抽样估计,抽样估计的基本方法有哪些?
2、在抽样估计中,为什么说准确性的要求和可靠性的要求是一对矛盾,在实际估计中又如何解决这对矛盾?
3、抽样估计的优良标准是什么?
4、什么是抽样平均误差、抽样极限误差,两者在抽样估计中发挥什么作用?
5、类型抽样中的分组和整群抽样中的分群有什么不同意义和不同要求?
6、为什么说对总体指标的区间估计只能是一种可能范围估算,而不是绝对范围估算?
假设检验
(一)教学目的假设检验是抽样推断的继续和必要补充,在推断统计中起重要作用。了解假设检验的基本思想,掌握检验的步骤,学会对总体均值和总体比例的假设检验。
(二)基本要求
要求掌握假设检验的基本思路,区分假设检验中的两类错误,学会对总体参数进行假设检验。
(三)教学要点
1、假设检验的基本思想;
2、假设检验的基本概念及步骤;
3、不同总体的各种参数的假设检验。
(四)教学时数
4——6课时
(五)教学内容本章共分三节第一节 假设检验的基本原理一、假设检验的基本思想
1.小概率原理如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。
总 体 样 本
(某种假设) 观察结果
(接受) (拒绝)
小概率事件 小概率事
未 发 生 件 发 生
2.假设的形式
——原假设,H1——备择假设
双尾检验:H0:μ=μ0, H1:μ≠μ0
单尾检验:H0:μ≥μ0, H1:μ<μ0
H0:μ≤μ0, H1:μ>μ0
假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。
二、假设检验规则与两类错误
1.确定检验规则检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝H0;反之,差异不显著,接受H0。
差 异
临界点
判 断
c
拒绝H0
c
接受H0
怎样确定c?
2.两类错误
接受或拒绝H0,都可能犯错误
I类错误——弃真错误,发生的概率为α
II类错误——取伪错误,发生的概率为β
检验决策
H0为真
H0非真
拒绝H0
犯I类错误(α)
正确
接受H0
正确
犯II类错误(β)
α大β就小,α小β就大
基本原则:力求在控制α前提下减少β
α——显著性水平,取值:0.1,0.05,0.001,等。如果犯I类错误损失更大,为减少损失,α值取小;如果犯II类错误损失更大,α值取大。
确定α,就确定了临界点c。
①设有总体:X~N(μ,σ2),σ2已知。
②随机抽样:样本均值 。
③ 标准化,。
④确定α值,
⑤查概率表,
知临界值
⑥计算Z值,作出判断。
三、假设检验的一般步骤
(1)
建立总体假设
H0,H1
(2) (3) (4)
抽样得到样 选择统计量 根据具体决策
本观察值 确定H0为真 要求确定α
(6) 时的抽样分布 (5)
计算检验统计量 确定分布上的临界
(7)
的数值 点C和检验规则
总体均值、比例和方差的假设检验
一、总体均值的检验类型
条 件
检验统计量
H0、H1
拒绝域
I
正态总体
σ2已知
(1) H0:μ=μ0
H1:μ≠μ0
(2) H0:μ≥μ0
H1:μ>μ0
(3) H0:μ≥μ0
H1:μ<μ0
II
正态总体σ2未知(n<30)
(1) H0:μ=μ0
H1:μ≠μ0
(2) H0:μ≤μ0
H1:μ>μ0
(3) H0:μ≥μ0
H1:μ<μ0
III
非正态总体n≥30
σ2已知或未知
(1) H0:μ=μ0
H1:μ≠μ0
(2) H0:μ≥μ0
H1:μ>μ0
(3) H0:μ≥μ0
H1:μ<μ0
二、两个总体均值之差的检验类型
条 件
检验统计量
H0、H1
拒绝域
I
两个正态总体
σ1,σ2已知
(1) H0:μ1=μ2
H1:μ1≠μ2
(2) H0:μ1≤μ2
H1:μ1>μ2
(3) H0:μ1≥μ2
H1:μ1<μ2
II
两个正态总体σ1,σ2未知,
但相等
(1) H0:μ1=μ2
H1:μ1≠μ2
(2) H0:μ1≤μ2
H1:μ1>μ2
(3) H0:μ1≥μ2
H1:μ1<μ2
III
两个非正态总体
n1≥30,
n2≥30,σ1,σ2已知或未知
(1) H0:μ1=μ2
H1:μ1≠μ2
(2) H0:μ1≤μ2
H1:μ1>μ2
(3) H0:μ1≥μ2
H1:μ1<μ2
三、总体成数的检验
条 件
检验统计量
H0、H1
拒绝域
1.
(P)
np≥5
nq≥5
(1) H0:P=P0
H1:P≠P0
(2) H0:P≤P0
H1:P>P0
(3) H0:P≥P0
H1:P<P0
2.
(P1-P2)
n1p1≥5
n1q1≥5
n2p2≥5
n2q2≥5
(1) H0:P1=P2
H1:P1≠P2
(2) H0:P1≤P2
H1:P1>P2
(3) H0:P1≥P2
H1:P1<P2
第三节 假设检验中的其他问题一、利用置信区间进行假设检验
(一)、双侧检验
1.求出双侧检验均值的置信区间
已知时:
未知时:
2.若总体的假设值在置信区间外,拒绝
(二)左侧检验
1.求出单边置信下限

2,若总体的假设值小于单边置信下限,拒绝
(三)、右侧检验
1.求出单边置信下限

2.若总体的假设值大于单边置信下限,拒绝
二、利用 P-值进行假设检验
1.P-的含义
P-是一个概率值,如果我们假设原假设为真,P-值是观测到的样本均值不同于(<或 >((实测值的概率。
左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积;
右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积。
被称为观察到的(或实测的)显著性水平。
2.利用 P 值进行决策
1)单侧检验若p-值 ( (,不能拒绝
若p-值 < (,拒绝 
2)双侧检验若p-值 ( (/2,不能拒绝 
若p-值 < 2/(,拒绝 
本章的重点
1、假设检验的基本思想;
2、不同总体的各种参数的假设检验。
复习思考题
1、抽样推断与假设检验是一回事吗?若不是,两者关系如何?
2、什么是零假设,零假设与备择假设有什么不同?
3、第一类错误与第二类错误有何不同?
4、如果“总体均值等于4”的零假设在研究过程中被错误地拒绝了,请问这是犯了第几类错误?
第八章 相关与回归分析
(一)教学目的相关与回归分析是一种常用的统计分析方法。通过本章的学习使学生对相关的概念、类型有一定的认识,掌握相关程度的测定方法、判定相关的类别以及回归分析的基本方法。
(二)基本要求要求了解相关的概念、类型,掌握相关程度的测定方法,学会线性回归分析的方法及检验。
(三)教学要点
1、相关关系的概念、种类和特点;
2、回归分析的概念、种类和特点;
3、线性相关关系、相关程度的测定及判断;
4、一元线性回归方程的配合、估计标准误差的计算及说明。
(四)教学时数
5——8课时
(五)教学内容本章共分三节:
第一节 相关的基本概念一、相关关系与函数关系
1.相关关系相关关系是指现象之间确实存在的,但关系值不固定的相互依存关系。即对于某一变量的每一个数值,另一变量有若干个数值与之相适应。如:身高1.75米的人可以表现为许多不同的体重;再如,施肥量与亩产之间,一定的施肥量,其亩产数值可能各不相同。
2.函数关系函数关系反映着现象之间存在着严密的依存关系,在这种关系中,对于某一变量的一个数值,都有另一变量的确定的值与之对立,如:圆的面积S与半径r是函数关系,r值发生变化,则有确定的s值与之对应。
二、相关关系的种类
(一)根据相关关系的程度划分,可分为不相关、完全相关和不完全相关
1.不相关。如果变量间彼此的数量变化互相独立,则其关系为不相关。自变量x变动时,因变量y的数值不随之相应变动。
2.完全相关。如果一个变量的变化是由其他变量的数量变化所唯一确定,此时变量间的关系称为完全相关。即因变量y的数值完全随自变量x的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这种情况下,相关关系实际上是函数关系。所以,函数关系是相关关系的一种特殊情况。
3.不完全相关。如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。大多数相关关系属于不完全相关,是统计研究的主要对象。
(二)根据相关关系的方向划分,可分为正相关和负相关
1.正相关。指两个变量之间的变化方向一致,都是呈增长或下降的趋势。即自变量x的值增加(或减少),因变量y的值也相应地增加(或减少),这样的关系就是正相关。
2.负相关。指两个因素或变量之间变化方向相反,即自变量的数值增大(或减小),因变量随之减小(或增大)。
(三)根据自变量的多少划分,可分为单相关和复相关
1.单相关。两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量。
2.复相关。三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量。
(四)根据变量间相互关系的表现形式划分,直线相关(或线性相关)和曲线(或非线性)相关
1.直线相关(或线性相关)。当相关关系的自变量x发生变动,因变量y值随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关通称为直线(或线性)相关。
2.曲线(或非线性)相关。在两个相关现象中,自变量x值发生变动,因变量y也随之发生变动,这种变动不是均等的,在图像上的分布是各种不同的曲线形式,这种相关关系称为曲线(或非线性)相关。曲线相关在相关图上的分布,表现为抛物线、双曲线、指数曲线等非直线形式。
三、相关分析
(一)相关分析的主要内容相关分析是研究变量之间关系的紧密程度,并用相关系数或指数来表示。其目的是揭示现象之间是否存在相关关系,确定相关关系的表现形式以及确定现象变量间相关关系的密切程度和方向。
(二)相关关系的判断
1.相关表在定性判断的基础上,把具有相关关系的两个量的具体数值按照一定顺序平行排列在一张表上,以观察它们之间的相互关系,这种表就称为相关表。
2.相关图把相关表上一一对应的具体数值在直角坐标系中用点标出来而形成的散点图则称为相关图。利用相关图和相关表,可以更直观、更形象地表现变量之间的相互关系。
3.相关系数相关图可以帮助我们直观了解相关关系,但这只是初步的判断,是相关分析的开始。为了说明现象之间相关关系的密切程度,就要计算相关系数。相关系数是直线相关条件下说明两个现象之间相关关系密切程度的统计分析指标。
四、相关系数
1.简单相关系数的含义反映两个变量之间线性相关密切程度和相关方向的统计测定,它是其他相关系数形成的基础。
2.简单相关系数的计算
 (8.1)
或化简为: (8.2)
3.相关系数的性质
1)相关系数的取值范围在-1和+1之间,即:–1≤r≤ 1
2)计算结果,若r为正,则表明两变量为正相关;若r为负,则表明两变量为负相关。
3)相关系数r的数值越接近于1(–1或+1),表示相关系数越强;越接近于0,表示相关系数越弱。如果r=1或–1,则表示两个现象完全直线性相关。如果r=0,则表示两个现象完全不相关(不是直线相关)。
4)判断两变量线性相关密切程度的具体标准为:
,称为微弱相关;,称为低度相关;,称为显著相关;称为高度相关。
4、样本相关系数的显著性检验检验两个变量之间是否存在线性相关关系,等价于对回归系数的检验,采用 t 检验,具体步骤为:
提出假设::( ( ( ;,( ( 0
计算检验的统计量: (8.3)
若(t(>,拒绝
若(t(<,接受
第二节 简单线性回归分析一、回归分析的概念
相关关系能说明现象间有无关系,但它不能说明一个现象发生一定量的变化时,另一个变量将会发生多大量的变化。也就是说,它不能说明两个变量之间的一般数量关系值。
回归分析,是指在相关分析的基础上,把变量之间的具体变动关系模型化,求出关系方程式,就是找出一个能够反映变量间变化关系的函数关系式,并据此进行估计和推算。通过回归分析,可以将相关变量之间不确定、不规则的数量关系一般化、规范化。从而可以根据自变量的某一个给定值推断出因变量的可能值(或估计值)。
回归分析包括多种类型,根据所涉及变量的多少不同,可分为简单回归和多元回归。简单回归又称一元回归,是指两个变量之间的回归。其中一个变量是自变量,另一个变量是因变量。
根据变量变化的表现形式不同,回归分析也可分为直线回归和曲线回归。对具有直线相关关系的现象配之以直线方程进行回归分析,即直线回归;对具有曲线相关关系的现象配之以曲线方程进行回归分析,则称为曲线回归。
二、一元线性回归模型
1.一元线性回归模型
 (8.4)
模型中,y 是 x 的线性函数(部分)加上误差项。线性部分反映了由于 x 的变化而引起的 y 的变化;误差项 ( 是随机变量,反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响,是不能由 x 和 y 之间的线性关系所解释的变异性; 和 称为模型的参数。
2.一元线性回归模型基本假定
1)误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的 x 值,y 的期望值为
2)对于所有的 x 值,ε的方差 都相同
3)误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N( 0, )
3.一元线性回归方程
 (8.5)
描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程。方程的图示是一条直线,因此也称为直线回归方程。是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值;是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值。
4.估计的回归方程
 (8.6)
总体回归参数和是未知的,必需利用样本数据去估计。用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程。
三、回归方程的参数估计—最小二乘法使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即。可解得:
 (8.7)
四、回归方程的检验
1.回归方程的显著性检验检验自变量和因变量之间的线性关系是否显著。具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著,如果是显著的,两个变量之间存在线性关系;如果不显著,两个变量之间不存在线性关系。具体步骤如下:
1)提出假设
:线性关系不显著
2)计算检验统计量F
 (8.8)
3)确定显著性水平(,并根据分子自由度1和分母自由度n-2找出临界值作出决策:若F( ,拒绝;若F< ,接受
2.拟合优度检验
 (8.9)
反映回归直线的拟合程度,取值范围在 [ 0,1 ] 之间。 (1,说明回归方程拟合的越好; (0,说明回归方程拟合的越差。
3.回归系数的显著性检验
1)提出假设
, = 0 (没有线性关系)
, ( 0 (有线性关系)
2)计算检验的统计量
 (8.10)
3)确定显著性水平(,并进行决策
( t(> ,拒绝;( t(< ,接受
第三节 非线性回归分析一、非线性回归的含义对具有曲线相关关系的现象配之以曲线方程进行回归分析,则称为非线性回归。
无论是自然现象还是社会现象,现象间的关系不都是线性关系,而且许多关系在一段时间内表现出线性特征,在更长的时间内,可能又表现为非线性特征;也有些关系在较短时间内表现为非线性特征,而在长期内又表现为线性特征。对于非线性关系,需要使用相应的模型来拟合,非线性模型一般都比较复杂,但有些非线性模型可以化为线性模型。
二、非线性回归模型的估计对于非线性模型的回归问题,一般先化为线性模型,然后利用最小二乘法求出参数估计值,最后再经过适当的变换,就可回到所求的回归曲线。
下面给出几种常见的非线性模型及其线性化方法。
1.指数函数
 (8.11)
两边同时取对数
 (8.12)
令,则
 (8.13)
2.幂函数
 (8.14)
两边同时取对数
 (8.15)
令,,则
 (8.16)
3.双曲函数
 (8.17)
令,,则

4.对数函数
 (8.18)
令,则
 (8.19)
5.罗吉斯蒂曲线
 (8.20)
令,,则
 (8.21)
本章的重点
1、相关关系与函数关系的区分;
2、相关关系的判断及测定;
3、估计标准误差的计算;
复习思考题
1、什么是相关关系?相关关系与函数关系有何区别?
2、什么是单相关、复相关和偏相关?请各举一例说明。
3、简述相关分析与回归分析的联系与区别。
4、在相关与回归分析时应注意哪些基本原则?
第九章 国民经济统计概述
(一)教学目的通过本章的学习,了解国民经济统计的产生与发展,掌握国民经济统计的基本概念及统计基本原则,学会计算和运用常用的国民经济统计指标分析、说明国民经济现象数量的变动规律与特征。
(二)基本要求熟练计算和运用常用的国民经济统计指标分析、并说明国民经济现象数量的变动规律与特征。
(三)教学要点
1、国民经济两大核算体系比较;
2、国民经济统计的常用分类;
3、国民经济统计的常用指标的计算。
(四)教学时数
0——6课时(周三课时不学)
(五)教学内容本章共分三节:
第一节 国民经济统计的基本内容一、国民经济统计与宏观经济管理
1.国民经济横向:社会再生产的各个部门总合;纵向:社会再生产各环节的总和。
2.、国民经济统计以国民经济为整体的统计核算,从数量角度研究国民经济运行的条件、过程、结果及其内在联系。
3.国民经济统计是宏观经济管理与调控的重要基础之一。
二、国民经济统计的内容体系
(一)国民经济统计的要求
1.“整体性”要求
2.“层次性”要求
3.“关联性”要求
(二)国民经济统计的内容(国民经济五大核算)
1.国内生产与国民收入核算
2.投入产出核算
3.资金流量核算
4.国际收支核算
5.资产负债核算关系:总量与结构、国内与对外、流量与存量三、国民经济核算体系的基本框架两种不同模式的国民经济核算体系:MPS:物质产品平衡表体系(东方体系);
SNA:国民经济帐户体系(西方体系)。两种核算体系的差异体现在生产范围、核算方法和内容三个方面。我国国民经济核算体系由MPS转向SNA。
国民经济统计的主要分类一、三次产业的分类依据社会经济活动的不同发展阶段,或者说人类生产活动的发展顾序和人类需要程度依次排序所作的分类;
第一类产业部门,又称第一次产业或初级生产,是以农业为主包括农、林、牧、渔、猎等业。第二类产业部门,又称第二次产业或次级生产,是以制造业为主包括采矿、建筑等业。第三类产业部门,又称第三次产业或第三级生产,是以服务业为主包括商业、交通运输、教育、卫生以及政府的行政管理等;
用于研究不同产业的发展变化,及三次产业之间的衔接及其协调发展关系。
二、产业部门(活动部门)分类
产业部门分类的对象是产业活动单位。所谓产业活动单位,就是以生产技术差别为依据所划分的生产单位;
产业部门分类,就是按照从事经济活动的同质性,对产业活动单位所作的部门分类。凡是主要产品或主要成果相同的经济活动单位,就归入同一个产业部门;
联合国等国际组织以及我国有关部门,都制定有标准产业(行业)分类目录。在标准产业(行业)分类目录中,排列部门次序的原则是:(1)物质生产在前,非物质生产在后;(2)反映社会生产发展的历史过程,即按农、牧、林、渔、采掘、制造、建筑、商业、运输、邮电、金融、保险、教育、科研、文化、卫生等行业排列;(3)有的沿用过去习惯的次序。
三、机构部门分类
机构部门分类的对象是机构单位。机构单位是指能够独立地拥有资产、发生负债,并与其他实体进行交易的经济单位(即能独立地编制资产负债表,拥有财务决策和资金收支的单位);
机构部门分类:按照经济职能、行为和目的对机构单位所进行的分类归纳。
一般分为:居民部门、(非金融)企业部门、金融企业部门、政府部门、国外部门。
第三节 国民经济常用的经济指标一、国民经济统计指标体系
1.社会总产品:全社会生产的全部物质和服务产品的总和。
2.社会中间产品:本期生产而由被本期生产所消耗的产品总量。
3.社会最终产品:可供社会最终使用的产品总量。
4.、社会净产品:本期新创造的产品总量。
5.社会总产出:社会总产品的全部价值量总和。
6.社会中间消耗:本期消耗的全部中间产品价值量总和。
7.社会最终产值:全部社会最终产品的完全价值总和。
8.社会净产值:社会净产品的价值量总和。
二、国民经济生产指标
1.国内总产出
2.中间产品与最终产品
3.国内生产总值和国内生产净值中间产品:核算期内生产、又被消耗或被进一步加工形成其他新产品的那些生产资料。包括生产过程中消耗掉的各种原材料、辅助材料、燃料、动力、低值易耗品和为生产的有关服务活动等。
最终产品:核算期内生产、未被加工或消耗,可供最终使用的那些产品。包括⑴用于消费的各种货物和服务;⑵用于投资的各种货物;⑶用于出口的各种货物和服务。
4.国内生产总值(GDP)和国内生产净值(NDP)
1)国内生产总值(GDP):由本国常住生产者所创造的社会最终产品的价值总量。
从生产角度计算──生产法国内生产总值(GDP)=∑(各部门的总产出-该部门的中间消耗)=∑各部门的增加值
从使用角度计算──使用法(支出法)
国内生产总值(GDP)=总消费+总投资+(出口-进口)
2)国内生产净值(NDP):等于国内生产总值减去固定资产折旧,是一个没有任何重复计算的社会最终生产成果指标。
生产法国内生产净值(NDP)=∑(各部门的总产出-该部门的中间消耗和折旧)
=∑各部门的净增加值使用法(支出法)
国内生产净值(NDP)=总消费+净总投资+(出口-进口)
三、收入分配和收入使用指标
(一)国民总收入和国民净收入
国民总收入(国民生产总值)及其与国内生产总值的关系:
GNI=GDP+得自国外的要素收入净额国民净收入(国民生产净值)及其与国内生产净值的关系:
NNI=NDP+得自国外的要素收入净额狭义的“国民收入(NI)”指标:
NI = NNI-生产税(间接税) 净额
(二)国民可支配收入及其使用国民可支配总收入(GNDI)=GNI+得自国外的经常转移收入净额国民可支配净收入(NNDI)=GNDI-固定资产折旧国民总储蓄=GNDI-国民总消费国民净储蓄=国民总储蓄-固定资产折旧四、资产负债和国民财富指标经济流量与存量的关系资产的概念、特征和种类金融资产与金融负债国民财富=全部非金融资产+(全部金融资产-全部金融负债)
=全部非金融资产+(对外金融债权-对外金融负债)+ 货币黄金和特别提款权
MPS的国民财产=国民财富-自然资源本章的重点
1、国民经济核算体系;
2、常住单位与非常住单位的区分;
3、各种国民经济统计指标的计算以及内在联系。
复习思考题
1、什么是国民经济核算体系?它的构成是什么?
2、产业部门分类与机构部门分类的区别是什么?
4、我国新国民经济核算体系是由哪两大部分组成的?
5、从核算和分析的角度看,“国内生产总值”与“国内生产净值”两个指标各有何优劣?