《统计学》教案
山东工商学院统计系吴 风 庆
总论本章学习重点:本章是全课程的总纲,主要讲述统计学的对象和方法、统计的作用和统计学的基本概念,难点是统计学概念的理解和运用以及概念之间的相互关系。
第一节 统计学的性质与作用一、“统计”一词的含义统计是一种社会调查活动,不论是宏观社会的整体调查研究,还是微观事物的观察分析,都需要统计。在日常生活中“统计”有着多种含义。例如,开学时,辅导员要统计一下到校的学生人数;篮球比赛中教练员要统计每个队员的投篮命中率、犯规的次数;农户在农作物收获后统计其产量等。这时“统计”是一个动词,我们一般称其为统计工作,它是指搜集、整理和分析数字资料的工作,具有计数的含义。
统计工作的结果形成一系列的数字资料,也称统计资料或统计数据,这是“统计”的另一个含义。它和前面讲的统计工作是紧密相连的,是统计工作的结果。例如,我们班的学生人数120人,女生占30%,男女生的比例为2.33:1等 。 国家统计局每年出版统计年鉴,反映国家的经济、文化教育以及科技发展等情况,这些都是在这个意义上的统计。
除了上面所讲的两个方面的含义之外,“统计”一词还有另外的含义,即作为一门科学的统计学,它是研究客观现象的数量方面的科学。
“统计”一词虽有上述三方面的涵义,但它们之间又是具有密切联系的。统计资料是统计工作的成果,统计学是统计实践活动的经验总结和理论概括,统计工作是在统计理论的指导下进行和完成的。
二、统计学的性质
1.统计学研究的对象是客观现象的数量方面。早期统计所研究的问题有人口调查、出生与死亡的登记等,后来又扩大到社会经济和生物实验等方面。目前不论社会的、自然的、或实验的,凡是有大量数据出现的地方,都要用到统计学。凡能以数量来表现的均可作为统计学的研究对象。统计方法已渗透到其他科学领域,成为当前最活跃的学科之一。
2.统计学研究的是总体现象的数量特征与规律性。统计学所研究的是总体的数量特征及其分布的规律性。总体是由许多个体组成的,各个个体在数量特征上受必然和偶然两种因素的支配,必然因素反映了该总体的特征,但由于受偶然因素的影响又是有差异的,如何通过这些个体的差异来描述或推断总体的特征就产生了统计学。
3.统计学是一门方法论的科学。在统计学界对统计学的性质有实质性科学和方法论科学之争。我们认为统计学是实用性很强的方法论科学,就统计工作来说,它总是研究实际问题的,统计的方法也是从现实问题中产生的。然而统计学的发展有一个过程,早期的国势学派和政治算术学派虽然也利用一些统计方法来记述和分析现实问题,但这时还没有形成独立的统计学。随着统计方法的应用日益广泛,其内容也不断发展和充实,尤其是概率论的发展为统计方法提供了理论基础,使统计的方法相对独立地形成了自己的科学体系,即统计学。其内容包括如何去搜集资料,如何对搜集的资料加以整理、概括和表示,以及如何对取得的数据进行分析和推断等一系列方法。这些方法和原理构成了统计学的基本内容。目前统计方法已成为科学研究和各种管理的重要工具,它是一门年轻而引人入胜的科学,并且还在不断地发展。
三、统计的作用为党和国家各级领导机构决策和执行服务;
为企业单位、社会事业单位进行管理服务;
为广大人民了解情况、参与社会经济活动、提高思想水平服务;
为科研机构和人员进行理论研究服务;
为各国人民相互了解、发展国际交流合作服务。
国家管理系统的决策、执行、信息、咨询、监督五个环节中,统计在信息、咨询、监督三个环节中具有重要的作用,因而往往将信息、咨询、监督称为统计的三大职能,其实统计的各项具体作用都是在统计信息的基础上派生出来的。
第二节 统计学的理论基础和研究方法一、统计学的理论基础社会经济统计学是一门社会科学,它以马克思主义哲学和政治经济学作为自己的理论基础。坚持以马列主义的理论为指导,运用唯物辩证的方法,研究社会经济发展的新情况和新问题、总结新经验,是做好统计工作,发展统计学的根本保证。
二、统计的研究方法
1、大量观察法。统计要认识社会经济现象发展的特征和规律性,必须从总体上进行观察,即对研究总体的全部或足够多数单位进行调查并进行综合分析,这种方法称为大量观察法。这是由统计研究对象的大量性和复杂性决定的。大量复杂的社会经济现象是在诸多因素的综合作用下形成的,各单位的特征及其数量表现有很大的差别,不能任意抽取个别或少数单位进行观察。必须在对被研究对象的全面分析的基础上,确定调查对象的范围,观察全部或足够多数的调查单位,借以对客观现象的规律性有所了解。运用大量观察法对同类社会经济现象进行调查和综合分析,使次要的、偶然的因素作用相互抵消,从而排除其影响,以研究主要的共同起作用的因素所呈现的规律性。统计调查中的许多方法,如统计报表、普查、抽样调查、重点调查等,都是对大量单位进行观察研究,来了解社会经济现象及其发展情况的。
2、综合分析法。综合分析法,是指对大量观察所获得的资料,运用各种综合指标的方法,以反映总体一般的数量特征,并对综合指标进行分解和对比分析,以研究总体的差异和数量关系。对大量原始数据进行整理汇总,计算各种综合指标,以显示出现象在具体时间、地点以及各种因素共同作用下所表现的规模、水平、集中趋势和差异程度等,概括地描述总体的综合特征和变动趋势。常用的综合指标有,总量指标、相对指标、平均指标、变异指标、动态指标等。
3、统计分组法。根据统计研究的任务和事物内在的特点,将被研究的社会经济现象划分为性质不同的几个部分,称为统计分组法。分组法是统计整理阶段的专门方法,也是贯穿统计研究全过程的方法。通过对总体各个不同组成部分及其相互关系的分析,可以补充、丰富和深化对总体的认识。
4、归纳推断法。所谓归纳是指由个别到一般,由事实到概括的推理方法。 归纳法可以使我们从具体的事实得出一般的知识,扩大知识领域,增长新的知识,所以是统计研究中常用的方法。
第三节 统计学的基本范畴一、统计总体与总体单位
(一)概念统计总体和总体单位,又可以简称为总体和个体,是反映统计认识对象的基本概念。
凡是客观存在的,在同一性质基础上结合起来的许多事物的整体,就是统计总体。组成统计总体的个体称为总体单位。例如,一个工业企业,有以职工为单位组成的职工总体,有以每台设备组成的设备总体,有以产品为单位组成的产品总体,有以销售行为为单位组成的销售总体等。
总体和个体是多种多样的,常见的主要有两种,即:以某种客观存在的实体为单位组成的总体,如以个人、家庭、学校、设备、产品、商品等为单位组成的总体称作实体总体;以某种行为、事件为单位组成的总体,如买卖行为、工伤事故、犯罪事件、体育活动等为单位组成的总体称作行为总体。
一个统计总体中所包括的总体单位数可以是无限的,这样的总体称为无限总体;也可以是有限的,则称为无限总体。在社会经济现象中统计总体大多是有限的。在统计调查中,对无限总体不能进行全面调查,只能调查其中一小部分单位,据以推断总体。对有限总体既可作全面调查,也可只调查其中的一小部分。例如职工普查(全面)及职工抽查(小部分)。凡是调查总体的一小部分单位时,往往要根据局部资料来推算全体。为了保证推算的准确性,必须设法使局部资料具有较高的代表性。提高这种代表性的一个重要方法,就是使局部资料尽量能多包括一些单位。因为所包括的单位数如果太少,就会出现偏高或偏低的偶然现象,降低了代表性,如果单位数增多,这种偶然偏差就趋于互相抵消,从而提高了代表性,有可能据以显现出总体的真象来。例如,某市职工是一个总体,每个职工是一个总体单位,如果要了解该市职工工资的一般水平,只抽查少数几个职工是不行的,因为所抽查的那几个职工的工资可能偏高或偏低,不能代表全体。但如果抽查足够多的职工求其平均工资,则偶然性的偏差就会大大减少,就可得出比较可靠的数据。
(二)特点统计总体的形成必须具备一定的条件,作为统计研究具体对象的统计总体,其形成条件主要有三条:
第一,同质性。组成统计总体的所有单位必须是在某些性质上是相同的,例如工业企业总体,必须是由进行工业生产经营的基层单位组成的。如果是国有工业企业总体,便又多了一个所有制性质上的相同标志,它的范围便小于工业企业总体了。或数量标志数值;
第二,大量性。统计总体是由许多总体单位构成的。小型总体(抽样总体)的单位数要足够多;
第三,差异性。构成总体的各单位除了同质性一面还必须有差异性一面,否则便不需要进行统计调查研究了。例如职工总体中的每个职工,在工种、性别、年龄、文化程度、工资等方面都有差异,这样才构成社会经济统计调查的内容。
这三个条件缺一不可,必须同时具备,才能形成统计总体。
(三)关系总体和总体单位不是固定不变的,随研究目的不同,它们是可以变换的。例如,我们研究某市机械工业状况,每个机械厂则是这个总体中的一个单位。如果我们把研究领域扩大为以工业局为单位的全部工业,则机械工业局即为总体单位。
二、标志与指标
(一)概念标志是说明总体单位属性和特征的名称。例如,当我们研究的总体是我国煤炭工业的状况时,每个煤炭工业企业是总体单位,企业的经济类型、职工人数、产量等都是每个煤炭工业企业具有的标志。
标志按其表现形式有数量标志与品质标志两种。凡是表示总体单位数量特征的标志,称数量标志。它能用数量来表示,如企业的职工人数、产量、产值;职工的年龄、工龄、工资等。凡是表示总体单位质的特征的标志,称品质标志。如职工的性别、企业的经济类型、工人的工种等。标志的具体表现是在标志名称之后所表明的属性或数值,如某职工的性别是女,民族是汉族。这里的“性别”和“民族”是品质标志名称。而“女”和“汉族”是这类标志的属性的具体表现。又如该工人的年龄是35岁,工资是96元,则“年龄”和“工资”是数量标志的名称,而“35岁”和“96元”则是它们的数值表现。
统计指标是说明总体特征的。对统计指标的概念,有两种理解和使用方法。一种情况是把说明总体数量特征的名称,如全国总人口、工资总额、谷物总产量等等叫做统计指标。这是统计指标的设计形态。我们在讨论统计理论和进行统计设计时所说的统计指标,就属于这一种。另一种是把指标名称和具体时间地点的统计数值结合起来,如某年末全国总人口118517万人,北京市职工工资总额202.5亿元,河北省谷物总产量2136.4万吨等等,叫做统计指标。这是统计指标的完成形态,在实际工作中对统计数据进行加工整理、分析研究时所说的统计指标是指后一种。
(二)关系
1.指标与标志的区别:
(1)指标是说明总体特征的,而标志则是说明总体单位特征的。
(2)标志有不能用数值表示的品质标志与能用数值表示的数量标志,而指标都是用数值表示的,没有不能用数值表示的统计指标。
2.指标与标志的联系:
(1)有许多统计指标的数值是从总体单位的数量标志值汇总而来的,如一个煤炭工业局(公司)的煤炭总产量,是从所属各煤炭工业企业的产量汇总出来的。
(2)指标与标志(数量标志)之间存在着变换关系。由于研究的目的不同,原来的统计总体如果变成总体单位,则相对应的统计指标也就变成数量标志,反之亦然。
三、变异与变量统计中的标志与指标的具体表现各不相同,如性别标志表现为男、女,年龄标志表现为不同的年岁,劳动生产率标志表现为不同的生产水平等,这种差别称作变异,变异是普遍存在的,这是统计的前提条件,有变异才有统计,没有变异就用不着统计。
可变的数量标志和所有的统计指标称为变量。变量的具体表现称作变量值。如年龄这个数量标志,其标志值可以是20,30,40,50等。在这里把数量标志年龄称为变量,而把标志值20,30,40,50等称为变量值。某地区职工工资总额为指标(变量),其指标值1200万元为变量值。
变量按其变量值是否连续分为连续性变量与离散性变量。连续变量的数值都是连续不断的,相邻两值之间可取无限数值。例如,煤层厚度,煤层生产能力,产值等都是连续变量,其数值要用测量或计算的方法取得。离散变量的数值都是不连续的整数值,例如,职工人数、企业数、机器台数等,其数值的取得只能用计数的方法。
第五节 统计指标与统计指标体系在社会经济统计活动中,对事物的定量认识是从定性认识开始,并以定性为基础的。从定性认识到定量认识的过渡需要一架“桥梁”,这架“桥梁”便是统计指标、统计指标体系等。
一、统计指标统计指标是社会经济统计活动和社会经济统计学中最重要的基本概念。统计正是用统计指标来反映总体的实际情况,并用统计指标来研究认识总体的发展变化情况、总体内部以及它和外部的数量关系。在社会经济统计中,统计指标占有中心地位,许多统计方法都是围绕统计指标而产生的。
(一)统计指标的概念和要素统计指标的概念如前所述,它有两种理解和使用方法。一种情况是指说明总体数量特征的名称;一种情况是指说明总体数量特征的名称和指标数值。
统计指标,就其完成形态而言,由以下要素构成:第一,定性范围。包括指标名称和指标涵义。指标涵义要明确总体现象的质的规定性,包括时间标准和空间标准。例如,我国人口普查的总人口,其指标涵义是:指在规定的时点,具有中华人民共和国国籍的、在国内一定区域居住一年以上的人口总和。指标涵义比较复杂,指标名称是它的表现形式。第二,定量方法。包括计量单位和计量方法,是指标涵义的量化规范。例如,总人口的计量单位是一个人,全国总人口的计算方法是各地区人口加上现役军人的人口总数。第三,指标数值。根据定性规范和定量方法,经过实际调查和数据处理所取得的具体时间、具体空间的统计数值。
统计指标的设计形态只包括定性范围和定量方法两个要素,不包括指标数值。
(二)统计指标的特点和作用第一,同质事物的可量性。没有质的规定性不能成为统计指标,有了质的规定性而不能用数量来表示也不能成为统计指标。有些抽象度较高的社会经济概念是难以量化的,不能直接用来作为统计指标的名称,必须将它分解或转化为可以量化的概念才能成为统计指标。例如,我国大部分地区的人民生活正在发生又温饱上升到小康的阶段性变化,为了衡量是不是达到了小康水平,只有人均收入水平或人均消费水平是不够的,党中央和国务院已经提出“生活质量达到或超过中等收入国家水平”的要求。“生活质量”是怎样衡量呢?可以把它分解为:平均预期寿命、平均受教育年限、婴儿死亡率、每人每日摄取热量等等可以量化的概念,然后用一定的方法加以综合计算。这样,“生活质量”便成为一个统计指标了。
第二,量的综合性。统计指标反映的是总体的量,它是许多个体现象的数量综合的结果。一个职工的工资不能成为统计指标,一个企业或一个地区的工资总额或平均工资才成为统计指标。
(三)统计指标的种类
1.统计指标按它所说明的总体现象内容的特征,可以分为数量指标和质量指标。
数量指标是反映总体某一特征的绝对数量。这类指标主要说明总体的规模、工作总量和水平,一般用绝对数表示。例如,某一地区的总人口、工业企业总数、国民生产总值等等。质量指标是反映总体的强度、密度、效果、结构、工作质量等,例如,人口密度、劳动生产率、资金利润率等。这类指标一般用平均数、相对数表示。这些质量指标的数值并不随总体范围的大小而增减。例如一个100 万人口的城市第三产业在国民生产总值所占的比重也可能小于某个30万人口的城市第三产业在国民生产总值中所占的比重。
2.统计指标按其具体内容和作用可以分为总量指标、相对指标和平均指标。
总量指标是反映总体现象规模的统计指标,它表明总体现象发展的结果。例如上述的总人口、国民生产总值等便是。相对指标是两个有联系的总量指标和平均指标相比较的结果,又分两种情况:同一指标不同时期的数值对比可以说明事物的发展变化,如人口增长率、成本降低率;用总体中部分数值与总体数值相比说明事物的内部结构,如三次产业在国民生产总值中所占比重。平均指标是按某个数量标志说明总体单位一般水平的统计指标,如平均工资、平均成本等等。
3.按指标的时间标准不同,可以分为时点指标和时期指标,前者如职工人数,后者如工资总额。
4.按指标的用途不同可以分为观察指标和考核指标。
二、统计指标体系
(一)概念由若干个相互联系相互制约的统计指标组成的一个统计指标系统叫做统计指标体系。
(二)种类
(三)编制原则关于统计指标及指标体系的具体内容将在本书第九章做以详细讲解。
第二章 统计调查与整理本章重点内容:本章主要讲授统计调查的内容和方法、统计调查的组织、统计资料的整理的方法及技术和统计表。难点讲授调查方案的设计,统计资料的整理技术。
第一节 统计调查的种类和内容一、统计调查的意义
(一)统计调查的概念统计调查就是根据调查的任务和要求,采取科学的调查方法,有目的、有计划地、有组织地及时搜集各项反映社会经济活动和科学试验成果的原始资料的过程。
所谓原始资料是指对调查单位搜集的没有经过汇总整理,需要由个体过渡到总体的统计资料。
统计调查在统计工作的整个过程中,担负着提供基础资料的任务,所有的统计计算和统计研究都是在原始资料搜集的基础上建立起来的。因此,统计调查是统计工作的基础环节,是统计分析的前提。只有搞好统计调查,才能保证统计工作达到对于客观事物规律性的认识。并从而预测未来,统计资料还是制定政策的依据,并据此检查和监督政策的贯彻执行情况。
(二)统计调查的要求根据统计制度方法的统一规定,统计调查必须达到准确、及时两个基本要求,做到数字准、情况明、反映及时。
1.准确性统计调查的准确性是指提供的统计资料必须符合客观实际情况,保证各项统计资料真实可靠。
2.及时性各项调查资料不但要求准确,而且需要及时,这是很明显的,因为过实的资料落在了形势发展的后面,失去时效,犹如“雨后送伞”起不到统计的真实作用。
二、统计调查的种类
1.按调查对象包括的范围划分为全面调查和非全面调查
①全面调查:构成总体的所有单位的调查。如:普查。
②非全面调查:构成总体的一部分单位的调查。如典型调查、重点调查、抽样调查。
2.按统计调查的组织形式划分为统计报表和专门调查
①统计报表:按照一定的表式和要求,自上而下的统一布置,自下而上的提供统计资料的一种定期的调查方式。如:农业统计报表制度,工业统计报表制度。
②专门调查:为研究某些专门问题而由调查单位组织的多属一次性调查。如:普查,抽样调查,典型调查。
3.按调查登记的时间是否连续划分为经常性调查和一次性调查
①经常性调查:随着现象的不断变化而连续不断地进行登记。如:产品产量,原材料消耗量等。其数值变动很大。
②一次性调查:间隔一定时间(一般为一年以上)对现象进行调查登记。如:人口数,固定资产总值,生产设备数等。其数值变动不大。
4.按搜集资料的方式划分为直接观察法,采访法,报告法,问卷调查法
①直接观察法:调查人员亲自到现场对调查对象进行观察计量取得资料。一般资料准确,但人力多、时间长。
②采访法:调查人员对被调查者提问,据被调查者的答复取得资料,又分为个别询问法和开调查会法。资料准确全面,但需人多。
③报告法:调查单位按隶属关系,逐级向国家报告经济社会活动成果的搜集资料的方法。取得资料快,节省人力、物力。
④问卷调查法:问卷调查法是为特定目的,以问卷形式提问,发给被调查者,由被调查者自愿自由回答的一种采集资料的方法。
三、统计调查方案统计调查是一项复杂的,严格的科学工作,必须有目的、有计划、有组织地进行,因此,在每项调查进行之前都应该制订一个周密的调查方案,而且正确地制定统计调查方案是保证统计调查有计划、有组织进行的首要步骤,是保证统计调查顺利进行的前提,也是准确、及时取得统计资料的重要条件。
(一)统计调查的目的和内容统计调查的目的就是根据党的方针政策和当前的政治经济任务以及有关国情国力的基本情况,抓住实际上最为迫切的问题,从统计工作的整体出发,从调查对象的实际出发,把需要和可能结合起来。调查的目的决定了调查的内容和范围。
(二)调查对象和调查单位调查对象就是需要进行调查的那些社会经济现象的总体,它是由性质上相同的许多调查单位组成的。
调查单位是组成所要调查的社会经济现象总体的个体,也就是在调查的对象中所要调查的具体单位。
确定了调查对象使我们知道要了解的总体界限,而确定了调查单位,则使我们知道从哪里去取得有关标志的情况和资料,即解决了向谁调查和由谁来提供统计资料的问题。
明确调查单位还需要把它与报告单位相区别。报告单位也称填报单位,它是负责向上报告调查内容,提交统计资料的单位。报告单位一般在行政上、经济上具有一定独立性的单位,而调查单位可以是人、企事业单位,也可以是物。根据调查目的,调查单位与报告单位有时一致,有时不一致。如工业企业普查,每个工业企业既是调查单位又是报告单位,而工业企业生产设备状况的普查,调查单位是工业企业的每台生产设备,而报告单位是每个工业企业。
(三)调查项目和调查表调查项目就是调查中所要登记的调查单位的特征,这些特征统计上又称标志。确定调查项目所要解决的问题是:向调查单位调查什么?反映调查单位特征的标志是多种多样的,在调查中确定哪些调查项目,应根据调查目的和调查单位的特点而定。
在统计调查中还必须设制调查表,所谓调查表就是根据调查目的所确定的具体调查项目,也就是统计调查所研究的内容,调查表所要解决的问题是:向调查单位调查什么?
调查表是调查方案的核心部分,必须紧紧围绕调查目的,现象之间的相互联系,从现象的过去、现在和发展等方面出发,提出所要调查的项目,拟定调查表。
调查表一般由表头、表体和表脚组成。
表头:用来表明调查表的名称以及填写调查单位的名称、性质、隶属关系等。
表体:这是调查表的主要部分,包括统计调查所要说明的社会经济现象的项目和这些项目的具体表现亦即数字,计算单位等。
表脚:包括调查者的签名和调查日期等,以便明确责任,若发现问题,便于查询。
调查表的形式一般有两种:单一表和一览表。
单一表:是在一张表上只登记一个调查单位的调查资料,它可以容纳较多的调查项目,适于较详细的统计调查。
一览表:是在一张表上登记若干个调查单位的调查资料,它的调查项目不易过多,这种表的使用节省人力、物力,而且一目了然。
(四)确定调查的时间和方法调查时间包括三个方法的涵义:①调查资料所属的时间,如果所调查的是时期现象,就要明确规定反映的调查对象从何年何月何日起到何年何月何日止的资料;如果所要调查的是时点现象,就要明确规定统一的标准时点。②调查工作进行的时间,即指对调查单位的标志进行登记的时间。③调查期限,即整个调查工作的期限,包括搜集资料及报送资料的整个工作所需要的时间。为了保证资料及时性,对调查期限的规定,要尽可能短。
调查方法,包括调查的组织形式和搜集资料的具体方法的选择。
(五)制定调查工作的组织实施计划为了保证整个统计调查工作顺利进行,在调查方案中还应该有一个考虑周密的组织实施计划。其主要内容应包括:调查工作的领导机构和办事机构;调查人员的组织;调查资料报送方法;调查前的准备工作,包括宣传教育、干部培训、调查文件的准备,调查经费的预算和开支办法;调查方案的传达布置、试点及其他工作等。
第二节 统计调查的组织形式一、统计报表统计报表是按照国家统一规定的表格形式、统一规定的指标内容,统一规定的报送程序和报送时间,由填报单位自下而上逐级提供统计资料的一种统计调查方式。
国家利用统计报表定期地取得全社会的国民经济与社会发展情况的基本统计资料,是国家取得调查资料的主要方法之一。它已形成一种制度即统计报表制度。执行统计报表制度,是各地区、各部门、各基层单位必须向国家履行的一种义务。
统计报表制度的内容包括以下几个方面:
(1)表式。它是由国家统计部门根据研究的任务与目的而专门设计制定的统计报表表格,用于搜集统计资料。它是统计报表制度的主体。
(2)填表说明。它是对统计报表的统计范围、指标等作出的规定,具体有:
填报范围:即统计报表的范围,规定每种统计报表的报告单位和填报单位,各级统计部门与主管部门的范围等。
指标解释:对列入表的统计指标的口径,计算方法以及其它有关问题的具体说明。
分类目标:有关统计报表主栏中应进行填报的有关项目的分类。
其他有关事项的规定:除了以上各项规定以外的一些注意事项,如:报送日期,报送方式,报送分数等。
统计报表的资料来源,主要是基层的原始记录、台帐及基层的内部报表。
二、专门调查
1.普查普查是专门组织的一次性的全面调查,用来调查属于一定时点上或一定时期内的社会经济现象总量。它适于搜集某些不能够或不适宜于定期的全面统计报表搜集的统计资料,以摸清重大的国情、国力。例如,我国第四次人口普查,第三产业普查,等等。
普查可以摸清一个国家的国情、国力,特别是可以了解与掌握人力、物力、资源状况及其利用状况,为国家制定长远规划与政策提供可靠的依据。因此,普查具有资料包括的范围全面、详尽、系统的优点,但是普查的工作量大,耗资也多,一般不宜经常使用。
2.重点调查重点调查是在调查对象中选择一部分重点单位进行调查的一种非全面调查。重点单位是它们的标志总量在总体总量中占据绝大比量。因此,当调查的任务只要求掌握事物的基本状况与基本的发展趋势,而不要求掌握全面的准确资料,而且在总体中确实存在着重点单位时,进行重点调查是比较适宜的。例如,为了掌握全国钢铁产量,可以选出鞍钢、宝钢、武钢、包钢、首钢、攀钢、马钢等几个大型钢铁企业调查。
重点调查的组织形式有两种:一种是专门组织的一次性调查;另一种是利用定期统计报表经常性地对一些重点单位调查。
3.典型调查典型调查是一种非全面调查,它是根据调查的目的与要求,在对被调查对象进行全面了解的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查。
典型调查具有灵活机动、通过少数典型即可取得深入、详实的统计资料的优点。但是,这种调查由于受“有意识地选出若干有代表性”的限制,在很大程度上受人们主观认识的影响。因此,必须同其他调查方法结合起来使用,才能避免出现片面性。
4.抽样调查抽样调查是一种非全面调查,它是按照随机原则从总体中抽取一部分单位作为样本进行观察研究,以抽样样本的指标去推算总体指标的一种调查。抽样调查同其他调查比较,既能节省人力、物力、财力,又可以提高资料的时效性,而且能取得比较准确的全面统计资料。因此,这种调查方法在市场经济条件下,使用非常广泛。详细内容,将在第四章抽样技术一章中介绍。
第三节 统计资料的整理一、统计资料整理的概念和作用统计资料整理是根据统计研究的任务与要求,对调查得来的各种原始资料,进行科学的整理与加工,使之系统化,从而得出反映总体特征的综合资料,包括系统地积累资料与为研究特定问题对资料的再加工。
统计调查取得的原始资料是分散的、杂乱的、不系统的,只能表明各个被调查单位的具体情况,反映事物的表面现象或一个侧面,不能说明事物的全貌、总体情况。因此,只有对这些资料进行加工整理才能认识事物的总体及其内部联系。
统计资料整理,是统计调查的继续,也是统计分析的前提,在整个统计工作中具有承前启后的作用。
二、统计资料整理的步骤统计资料整理是一项细致周密的工作,需要有计划、有组织的进行,因此,进行统计资料整理必须按以下步骤进行。
1.设计和编制统计资料的汇总方案。
2.对原始资料进行审核。
为了保证统计资料的质量,在统计资料进行整理前,应该对统计调查材料的准确性、及时性、完整性进行严格的审核,看它们是否达到准确、及时、完整,若发现问题及时纠正。汇总后须对其结果进行逻辑检查和技术性检查。
3.用一定的组织形式和方法对原始资料进行分组、汇总和计算。
主要根据汇总的要求和工作条件选择适当的汇总组织形式和具体方法对原始资料进行整理、加工,以达到我们的目的。
4.对整理好的资料再一次进行审核,改正在汇总过程中所发生的各种差错。
5.编制统计表,以简明扼要地表达社会经济现象在数量方面的有关联系。
6.统计资料的保管与积累。
三、统计分组
(一)统计分组的概念统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干个不同类型或性质的组成部分的一种统计方法。
统计分组有两方面含义:①对总体而言“分”,即将总体区分为性质相异的若干部分。②对个体而言“合”,即将性质相同的个体组合起来。总体的这些组成部分称为“组”。
通过统计分组,同组的总体单位之间具有相同之处,不同组的总体单位之间则具有相异之处,所以,统计分组主要就是在统计总体内部进行的一种定性分类。
(二)统计分组的作用
1.划分性质不同的各种类型,研究其特点和规律性。将社会经济现象总体划分为性质不同的类型,它是统计工作中应用最广泛、最主要的分组。
2.分析总体中各个组成部分的结构情况。将社会经济现象总体按照某个标志分成若干组成部分,并计算其总体内部各组成部分占总体的比重,揭示总体内部的构成,表明部分与总体、部分与部分之间的关系。
3.可以揭示现象之间的依存关系。一切社会现象都不是孤立的,而是处于互相联系、互相依存、互相制约之中。通过统计分组,可以揭示这种关系及其在数量上的表现。
(三)统计分组的方法统计分组的关键问题是正确地选择分组标志与划分各组界限。
1.分组标志选择的原则。
选择分组标志的原则为:
应根据研究的目的与任务选择分组标志。
要选择能够反映事物本质或主要特征的标志。
要根据现象的历史条件及经济条件来选择。
2.分组方法。
①按品质标志分组或按数量标志分组,或用两种标志结合分组。按品质标志分组就是用反映事物的属性、性质的标志分组,它可以将总体单位划分为若干性质不同的组成部分。
这种分组在许多情况下概念明确,但有些情况下也会产生不容易划分的时候,每个总体单位应当划归哪一类的问题。例如:城镇居民和乡村居民按其居住地划分,就会产生不易划分的情况,为了使这些复杂的分类在全国统一执行,国家统计局及中央有关部门,统一制订有各种分类目录与规定标准。
按数量标志分组就是用事物数量的多少作为分组标志的分组。数量标志可以是绝对数,也可以是相对数,这种分组,是按照具体数值界限划分的,一般不会产生困难,其关键在于如何划分它们的界限。
两种标志结合分组就是把品质标志和数量标志结合起来的分组。
②按主要标志与辅助标志分组。对于有些现象进行分组时,使用一个分组标志不足以区分事物的不同性质与特点,不能全面地认识事物的变化规律。因此,进行分组时,除了使用一个主要分组标志以外,还要用一个或几个辅助标志作为分组补充标志。 哪些标志作为主要标志,哪些标志作为辅助标志,这要根据研究任务来选择与确定。
3.统计分组体系统计分组体系是根据统计任务与分组的要求,对同一总体选择多种不同标志分组而形成的体系。它是一种相互补充、相互联系的分组体系,用于对总体的数量表现认识的深化。
①简单分组与平行分组体系。将社会经济总体按一个标志分组称为简单分组。将同一总体选择两个或两个以上的标志分别进行简单分组,称为平行分组体系。
②复合分组与复合分组体系。对同一总体选择两个或两个以上标志重叠起来进行分组,就叫复合分组,多个复合分组组成的体系,就是复合分组体系。
四、次数分配
(一)次数分配的概念在统计分组的基础上,将总体中所有单位按组归类整理,形成总体中各单位数在各组间的分配称为次数分配。
某年某地区人口的性别分布性别
人数(万人)
比率(%)
男性
1198.0
51.34
女性
1108.6
48.06
合计
2306.6
100.00
分配在各组的单位数叫次数或频数。
各组次数与总次数的比率叫频率或比率。各比率之和为100或1即Σ=1。
将各组组别与次数依次排列而形成的数列叫次数分配数列,简称分配数列。
(二)分配数列的编制
1.种类
①属性分配数列:
按品质标志分配而形成的数列叫属性分配数列,简称品质数列,如上例内蒙古自治区人口分布。
②变量分配数列按数量标志分组而形成的数列叫变量分配数列,简称变量数列。
某班学生统计考试成绩表考 分
人数(人)
比率(%)
50—60
2
5.0
60—70
7
17.5
70—80
11
27.5
80—90
12
30.0
90—100
8
20.0
合 计
40
100.0
1)单项式变量分组数列是按每个变量值分别列组而形成的数列。
某发电厂拥有发电机组的分布拥有发电机组(套)
发电厂数(个)
比率(%)
1
35
28.0
2
48
38.4
3
26
20.8
4
12
9.6
5
4
3.2
合 计
125
100.0
2)组距式变量数列把各变量值按照一定组距进行分组而形成的数列。如:上例某班学生统计考试成绩表。
在组距数列中,表示各组界限的变量值称为组限,50—60,60—70等。其中较小的变量值称为下限,50,60等,较大的变量值为上限,60,70等,各组上限与下限之差即为组距,组距=上限-下限,60-50,70-60等,各组上限与下限的中点称为组中值,即组中值=(上限+下限)/2,(50+60)/2=55,(60+70)/2=65,组中值具有一定的假定性,即假定次数在各组内的分布是均匀的,代表了各组内的一般水平。
a.等距分组各组的组距均相等。
特点:由于各组组距相等,各组次数的分布不受组距大小的影响,它和消除了组距影响,与次数密度的分布是一致的,一般呈正态分布。
次数密度=次数/组距,其作用 主要用于消除各组组距不相等而造成的现象分布的影响。
b.不等距分组各组组距不相等。
特点:不等距分组各组的次数多少受组距不同的影响,组距大次数可能多,组距小,则次数可能少,因此必须消除组距对其分布的影响即需计算次数密度。
在编制组距式变量数列时,常常会遇到这样的情况,如:学生成绩的分布
60分以下
60—70
70—80等
又如:学生人数的分布
30人以下
30—60
60人以上等这种具有不确定组距的组称为“开口组”,包括上开口和下开口,其组中值如何计算?
下开口的组中值=上限-1/2邻组组距
上开口的组中值=下限+下限1/2邻组组距
2.变量数列的编制程序:①原始数据②序列化(编制由小到大简单数列)③求出组距等④分组归类合计(形成次数分布)⑤制成统计表(变量数列)
①整理原始数据使其序列化现有某班40人统计学考试成绩如表所示:
89,88,76,99,74,60,82,60,89,86,92,85,70,93,99,94,82,77,79,97,
78,95,84,79,63,72,87,84,79,65,98,67,59,83,66,65,73,81,56,77
将上述40个变量值由小到大列成表格形式:
某班统计学考试成绩表考分
人数(人)
考分
人数(人)
考分
人数(人)
考分
人数(人)
56
1
72
1
82
2
92
1
59
1
73
1
83
1
93
1
60
2
74
1
84
2
94
1
63
1
76
1
85
1
95
1
65
2
77
2
86
1
97
1
66
1
78
1
87
1
98
1
67
1
79
3
88
1
99
2
70
1
81
1
89
2
合计
40
②计算组数,组距等进行归类合计上表看出变量值的变动范围56分—99分,即最低分、最高分。
二者之差即为全距。 即全距=最大值-最小值
=99-56=43分组数如体确定:组数与组距成反比关系,即组数=全距/组数=(最大值-最小值)/组数确定组数有一个sturges经验公式可参照,即m=1+3.322lgn,n为总体单位数组距如何确定?
视连续型变量与离散型变量不同而定。
a.离散型变量由于离散型变量各变量值之间以整数断开,变量值之间有明显的界限,上下限都可以用准确的数值表示,组限非常清楚。
如:某校按学生人数分组,其组限为:
100人以下
101—200
201—300
301—400
401人以上
b.连续型变量由于连续型变量各变量值之间可做无限分割,有小数存在,上下限不能用两个确定的值表示,只能用前一组的上限与本组的下限为同一数值表示。如:上例考试成绩统计实际工作中,虽然变量区分连续型变量与离散型变量,但为了计算,绘图等的方便,保证整体单位不出现重复、遗漏。可采用连续型变量的形式代替离散型变量。
对于连续型变量,在确定组限时,有一原则可循,即“上组限不在内”原则:各组只包括本组下限变量值的单位,不包括本组上限变量值的单位。
3.编制统计表如上例40人考试成绩分为5组,组距为10,组限可以为:
50—60,60—70,…,90—100
可以使考试成绩的优、良、中、及、不及格的特征体现出来。
考试成绩统计表考 分
人数(人)
比率(%)
50—60
2
5.0
60—70
7
17.5
70—80
11
27.5
80—90
12
30.0
90—100
8
20.0
合 计
40
100.0
第四节 统计表一、统计表的构成统计表是用来表示经过汇总加工后的综合统计资料的一种表格形式。
从形式上看,统计表是由纵横交叉的直线组成的左右两边不封口的表格,表的上面有总标题,即表的名称,左边有横行标题,上方有纵栏标题,表内是统计数据。
(一)统计表的横向构成一般包括四个部分
1.总标题。它相当于一篇论文的总标题,表明全部统计资料的内容,一般写在表的上端正中。
2.横行标题。通常也称为统计表的主词(主栏),它是表明研究总体及其组成部分,也是统计表所要说明的对象,一般写在表的左方。
3.纵栏标题。通常也称为统计表的宾词(宾栏),它是表明总体特征的统计指标的名称,一般写在表的上方。
4.数字资料。即各横栏与纵栏的交叉处的数字(这些数是由横行与纵栏所限定的内容)。
(二)统计表的纵向构成一般有两部分:主词栏和宾词栏,主词与宾词不是固定不变的。
考试成绩统计表考 分
人数(人)
比率(%)
50—60
2
5.0
60—70
7
17.5
70—80
11
27.5
80—90
12
30.0
90—100
8
20.0
合 计
40
100.0
↓ ↓
主词栏 宾词栏
二、统计表的种类
(一)简单表。统计表的主词栏,未经任何分组,仅仅罗列各单位名称,或按时间顺序排列的表格。
(二)简单分组表。即表的主词栏,按某一个标志进行分组的统计表。
(三)复合分组表。按两个及两个以上标志进行分组的统计表。
三、统计表的设计为了使统计表的设计科学、实用、简明、美观,应注意以下问题。
1.总标题要简明扼要,并能确切说明表中的内容。
2.统计表的上下两端的端线应当用粗线绘制,表中其他线条一律用细线绘制,表的左右两端习惯上均不划线,采用开口式。
3.指标数字应有计算单位。如果全表的计算单位是相同的,若用“万元”为单位,应在表的右上角注明“单位:万元”字样;如果表中同样的指标数字计算单位相同而各栏之间不同时,应在各栏标题中注明计算单位。
4.表中的横行“合计”,一般列在最后一行(或最前一行),表中纵栏的“合计”一般列在最前一栏。
5.对某些资料必须进行说明时,应在表的下面注明。
第三章 统计综合指标
本章重点内容:本章主要讲授统计学的综合指标,包括总量指标、相对指标、平均指标、标志变动度和成数等。难点是标志变动度指标的计算及其与平均指标的关系;重点是讲授各指标的计算和应用条件。
第一节 总量指标一、总量指标的意义
(一)总量指标的概念总量指标是指统计汇总后得到的具有计算单位的总和指标,反映被研究对象在一定时期或时点的规模、水平或性质相同总体规模的数量差异。一般用绝对数表示,又称绝对数指标。
(二)计量单位
1.实物单位实物指标表明现象总体的使用价值总量。它根据现象的自然属性和特点采用实物单位计量。实物单位有自然单位,度量衡单位,标准实物量单位,复合单位。
2.价值单位价值指标表明现象总体的价值总量,它以货币单位计量。
3.劳动量单位以劳动过程中消耗的劳动时间为计量单位,如工时、工日、人工数等,为成本核算和计算劳动生产率提供依据。
(三)作用
1.从总体上认识社会经济现象的起点。
了解一个国家或地区的基本情况,从其基本状况和基本实力入手。
2.计算其它统计指标的基础。
统计综合指标中的相对指标,平均指标的计算都是以绝对数指标为基础计算的。
二、总量指标的种类
1.按指标反映的具体内容划分为总体单位总量指标和总体标志总量指标总体单位总量指标:是用来反映总体中单位数的多少,说明总体本身规模大小的总量指标。如:对某地区居民粮食消费情况进行研究,该地区的居民人口数便是总体单位总量指标。
总体标志总量指标:是用来反映总体中标志值总和的总量指标。如:上例中粮食消费总量便是总体标志总量指标。
总体单位总量指标和总体标志总量指标的地位随统计研究的目的而变化。如:研究该地区粮食消费价格,粮食消费总量变为总体单位总量指标了。
2.按指标反映的时间状况划分为时期指标和时点指标时期指标:反映社会经济现象在一定时期内发展变化过程总量的指标,如:商品销售额、总产值、基本建设投资额等。
时点指标:反映社会经济现象在一定时点上状况的数量的指标,如:人口数、房屋的居住面积,企业数等。
时期指标和时点指标的特点(区别):
a.性质相同的时期指标的数值可以相加,时点指标相加则无意义。
b.同类时期指标数值的大小与时期长短有直接关系,时点指标则没有这种关系。
c.时期指标数值是经常登记取得,时点指标不是。区分时期指标和时点指标决定了统计处理与应用上的不同,在运用时期和时点指标时,注意同一指标若从不同的角度考虑则总量指标的性质也不同,如:年末人口数和年初人口数是时点指标,但年末人口数一年初人口数=人口净增数则为时期指标。
3.按指标采用的计量单位划分为价值指标、实物指标和劳动量指标价值指标、实物指标和劳动量指标前面已经讲过,这里就不讲了。
三、应用总量指标注意的问题
1.要有明确的计算范围、计量单位与口径。
2.现象的同类性。
第二节 相对量指标一、相对指标的意义统计中,数字的作用在于进行比较和分析。“比较为统计之母”是有道理的,孤立的数字,不进行任何比较分析,不能说明任何问题。因此,对事物进行判断、鉴别和比较,就要借助于相对指标。
(一)相对指标的概念相对指标:两个有联系的指标数值之比,反映现象之间所固有的数量对比关系,表现形式一般为倍数或系数(以1作为对比基础),成数(以10 作为对比基础),百分数(以100作为对比基础),千分数(以1000作为对比基础),复名数等。
相对指标的特点:
①将对比的基础抽象化。
②抽象化掩盖了绝对数的规模百分数或千分数(以100或1000作为对比基础)。复名数。
这里还要对经济分析中经常用到的“百分点”的概念作一点说明。一个百分点是指1%,百分点常用于两个百分数相减的场合。如:在股票交易市场上,确定某一时间的股票价格为基数,将两个不同时间股票价格与之相比,分别为150%和120%,那么后一时间上的股票价格比前一时间下降了30个百分点(120%-150%)。
(二)相对指标的作用
1.反映现象间数量对比关系。
2.反映现象发展变化程度、速度、强度、质量、效益等。
3.弥补总量指标的不足,便于比较。
二、相对指标的种类及其计算方法
1.结构相对指标是将两个有从属关系的总量指标对比而得,说明总体内部组成情况,一般用%表示。
结构相对数=(总体内某一部分指标数值)/总体总量×100%
如:反映工农业增加值的内部结构,农业内部各业构成,种植业内粮食作物,经济作物及其它作物的比例结构,消费结构中食品支出占全部生活费支出的比重,(恩格尔系数),国内生产总值中第一、二、三产业间的构成等。
如:某地区工农业产值中工业、农业产值所占的比重:
工业产值占工农业产值比重=工业产值/工农业产值=304.43÷468.51=64.98%
农业产值占工农业产值比重=农业产值/工农业产值=164.08÷468.51=35.02%
结构相对指标的特点:①各部分计算结果<1
②各部分比重之和=1
③分子分母不能互换
2.比例相对指标比例相对指标是同一总体内不同组成部分的指标数值对比的结果,它可以表明总体内部的比例关系。
比例相对指标=总体中某部分指标数值/总体中另一部分指标数值比例相对指标可以用百分数表示,也可以用一比几或几比几形式表示。如上例中工业产值与农业产值的比例可表示为304.43:164.08,也可以表示为1.86:1,分析总体中若干部分的比例关系时可采用连比形式。例如,某地社会劳动者人数为59432万人,其中第一产业为34769 万人,第二产业为 12921 万人,第三产业为11742万人,三个产业劳动者人数比例为100∶37∶34。
利用比例相对指标可以分析国民经济中各种比例关系,调整不合理的比例,促使社会主义市场经济稳步协调发展。
特点:①分子、分母可互换
②同一总体内
③各部分之间比例之和不等于100%
3.比较相对指标比较相对指标是同一时间不同国家、不同地区、不同单位的某项指标对比的结果。
比较相对指标=某一空间的某项指标数值/另一空间的同项指标数值比较相对指标一般用倍数表示,有时也可用系数表示。例如,甲乙两公司2002年商品销售额分别为5.4亿元和3.6亿元,则甲公司商品销售额为乙公司的1.5倍(=5.4/3.6)。计算比较相对指标可以用总量指标,相对指标或平均指标。
运用比较相对指标对不同国家、不同地区、不同单位的同类指标对比,有助于揭露矛盾、找出差距、挖掘潜力,促进事物进一步发展。
相对指标的特点:
①对比的分子分母必须是同质现象
②分子、分母可互换
4.强度相对指标强度相对指标是两个性质不同而有联系的总量指标对比的结果。
强度相对指标=某一总量指标数值/另一性质不同而有联系的总量指标数值强度相对指标是以复名数表示的,有些强度相对指标是采用无名数。强度相对指标的特殊使用是按平均每个人摊得到的份额表示。由于强度相对指标的分子和分母可以互换,因此可以形成正指标和逆指标两种计算方法。如:反映卫生事业对居民服务保证程序的指标:每千人口的医院床位数=医院床位数(张)/人口数(千人),这是正指标。每千人口的医院床位数=人口数(千人)/医院床位数(张),这是逆指标。
强度相对指标应用十分广泛,它可以反映国民经济和社会发展的基本情况;反映生产条件及公共设施的配备情况;也可以反映经济效益的情况。强度相对指标的特点:
①不同总体对比
②具有平均含义
③分子分母可互换
5.动态相对指标动态相对指标也称作发展速度,它是某一指标不同时间上的数值对比的结果。动态相对指标一般用百分数表示。
动态相对指标=报告期指标数值/基期指标数值动态相对指标对于分析研究社会经济现象的发展变化过程具有重要意义,将在第七章予以详细讲述。
6.计划完成程度相对指标计划完成程度相对指标是某一时期实际完成的指标数值与计划指标数量对比的结果。一般用百分数表示。
计划完成程度相对指标=实际完成的指标数值/计划指标数值x100%
①计划完成相对指标的一般应用例1.某企业计划规定产值达10万元,实际执行结果产值达11.5万元,则计划完成程度=实际完成数/计划规定数x100%=11.5/10x100%=115%
例2.某企业劳动生产率计划规定完成103%,实际却提高了5%。则计划完成程度=实际完成数/计划规定数x100%=(1+5%)/103%= 101.94%
②还可计算计划时期某一段累计完成数占全计划的百分比,即进行进度分析。
计划完成相对数=累计至报告期止完成数/全部计划数×100%
例3.某企业生产情况情况如下
产值及产品名称
单位
年计划
实际完成数
第三季度完成年计划的%
累计完成年计划的%
一季
二季
三季
1-3季累计
总产值
万元
960
240
288
307
835
31.98
86.98
甲
千克
700
140
150
130
420
18.57
60.00
乙
千克
300
75
85
140
300
46.67
100.00
丙
千克
230
60
70
80
210
34.78
91.30
丁
千克
180
45
50
57
152
31.67
84.44
计算第三季度及累计三季度止计划完成情况并分析乙、丙、丁任务完成好,甲不好。
③长期计划任务规定的要求和方法不同,检查长期计划的完成情况有两种方法:
a.累计法:凡是计划指标是按计划期内各年总和规定任务的要求采用累计法计算。b.水平法:如果计划任务(指标)按期末那一年规定应达到的水平规定,则采用水平法。
计划完成相对指标的特点:
①对比数为同一总体
②分子分母不能互换
③计算结果视指标性质而定:a.若指标表现为越高越好,如::产值(量)、劳动生产率值,其值≥1,结果越好。b.若指标表现为越低越好,如:费用、消耗、成本,其值≤1,结果越好。c.基建投资额、工资等,其值=1,结果越好。
三、应用相对指标应注意的问题统计相对数是一种抽象化的指标数值,是对现象进行对比分析的一个重要手段,要使这种对比分析准确地、深刻地反映出现象之间的联系,充分发挥统计相对数的作用,在计算应用统计相对数时必须注意以下几个问题:
1.必须注意指标的可比性。
2.相对数与绝对数结合起来运用。
3.要正确地选择作为比较标准的基期。
4.为了从各方面分析和研究问题,需要把各种相对数结合起来使用。
第三节 平均指标一、平均指标的意义
(一)平均指标的概念平均指标是同质总体各单位某一数量标志值在具体时间、地点、条件下达到的一般水平。例如,对某单位职工的某月工资额进行平均,得到职工的月平均工资。特点:①抽象性;②同质性;③具体性。
平均指标通过平均将总体各单位数量标志表现的差异抽象化,用一个数值说明总体的一般水平。
(二)平均指标作用
1.平均指标可以反映现象总体的综合特征。
2.平均指标可以反映分配数列中各变量值分布的集中趋势。
3.便于比较。
4.通过平均指标进行数量上的推断。
二、平均指标的种类及其计算平均指标按计算和确定的方法不同,分为算术平均数,调和平均数,几何平均数,众数和中位数。前三种平均指标是根据总体各单位的标志值计算的,称为数值平均数。众数和中位数是根据标志值在分配数列中位置确定的,称为位置平均数。
(一)算术平均数的计算算术平均数是一种应用最为广泛的平均数。
算术平均数就是对总体各单位的某一数量标志进行的平均即总体各单位某一标志值的算术和除以总体单位数。
算术平均数=标志总量/总体总量例如:某生产小组10名工人的工资总额是600元,则平均工资额=标志总量/总体总量=600/10=60(元)
算术平均数的特点:①计量单位的名数应当和标志总量的计量单位一致。②分子分母为同一总体,分母是分子的承担者。③数量标志的平均,品质标志不能平均。
平均数与强度相对数虽然在形式上一样,但是其实质是不同的。①平均指标是由同一总体计算而得,而强度相对数由两个不同总体计算而得。②平均指标中分母是分子的承担者,强度指标不存在。③使用单位不同。
1.简单算术平均数在掌握了没有分组的总体各单位的标志值或已经有了标志总量和总体总量的资料就可以采用这种方法计算。计算公式如下:
例如:上例的关于10 个工人的月工资额的平均数的计算。
特点:简单算术平均数的大小只受各变量值本身大小的影响,其平均数的大小不会超过变量值的变动范围。那么平均数的大小除了受变量值本身大小影响以外,还受其他因素的影响,采取什么方法计算其平均数呢?
2、加权算术平均数如果平均数的大小既受其变量值本身大小的影响,又受其次数的影响就要采用加权算术平均数的方法计算其平均数了。计算公式如下:
在影响平均数的两个因素中,起决定作用的是变量值本身的水平,也就是X的大小。而在其变量值变动的区间内为什么平均数会是某一个数值,而不是另一个数值,则是次数影响的结果。在一般情况下(也就是次数分布接近正态分布的情况下),加权算术平均数会靠近出现次数最多的那个变量值。因此,次数对平均数的大小的作用并不是可有可无,而是起着一种权衡轻重的作用。因此,把次数又叫权数,把每个变量值乘以权数的过程叫加数过程,所得结果就是标志总量。
①单项式分组计算的平均数其计算方法与组距式相同。
②组距式分组计算的平均数
某商店职工工资总额工资总额(元)
组中值x
职工人数f
xf
120—130
125
22
2750
130—140
135
133
17955
140—150
145
13
1885
150—160
155
5
755
合计
—
173
23365
从这里可以看出:在组距数列中,变量值不是以单个的值出现而是以由下限到上限的组距出现的,所以在组距数列中计算加权算术平均数,需要以每个组的平均数——组中值为代表,作为每一组的变量值,而后乘以相应的次数,得出标志总量,以此再除以权数之和即可。
(二)调和平均数的计算调和平均数是总体各单位标志值倒数的算术平均数的倒数,也称倒数平均数。调和平均数分为简单调和平均数和加权调和平均数。
简单调和平均法是先计算总体单位标志值倒数的简单算术平均数,然后求其倒数。
H,表示调和平均数加权调和平均法是先计算总体单位标志值倒数的加权算术平均数,然后求其到数。
m表示权数。例如:
某车间奖金分配情况等 级
奖金额(元)x
奖金总额(元)m
一等
120
960
二等
100
4200
三等
90
2700
合计
—
7860
(三)几何平均数的计算几何平均数是n个比率乘积的n次方根。社会经济统计中,几何平均法适用于计算平均比率和平均速度。简单几何平均数的计算公式为:
G表示几何平均数;x表示变量值;n表示变量值个数。
加权几何平均数的计算公式为
关于几何平均数的具体计算及应用将在第七章发展速度部分讲述。
(四)众数众数是总体中出现次数最多的标志值。用字母M 表示。根据变量数列的不同种类,确定众数可采用不同的方法。
1.单项式数列确定众数
某种商品的价格情况价格(元)
销售数量(公斤)
2.0
20
2.4
60
3.0
140
4.0
80
合计
300
上面数列中价格3.00元的商品销售量最多,即出现次数最多,则众数M=3.00元。
2.组距数列确定众数下限公式
上限公式
Mo,表示次数;L:表示众数所在组的下限;U:表示众数所在组的上限;△1,表示众数所在组次数与前一组次数之差;△2,表示众数所在组次数与后一组次数之差;d,表示众数所在组的组距。
某车间50个工人月产量情况月产量(公斤)
工人数(人)
200以下
3
200—400
7
400—600
32
600—800
8
合计
50
(五)中位数中位数是将总体各单位的标志值按大小顺序排列,处于数列中点位置的标志值为中位数。中位数将数列分为相等的两部分,一部分的标志值小于中位数,另一部分的标志值大于中位数。在许多情况下,不易计算平均值时,可用中位数代表总体的一般水平。例如,人口年龄中位数,可表示人口总体年龄的一般水平。
1.由未分组资料确定中位数根据未分组资料确定中位数时,首先将标志值按大小顺序排列,然后根据公式(n+1)/2确定中位数的位置,再根据中位数的位置找出对应的标志值。
〔例〕要测试7种新型小轿车的耗油量,每百公里耗油量(公升)分别为:
7,8,9,10,11,13,15
n=7
中位数次数=(n+1)/2=(7+1)/2=8/2=4
第四个位次对应的数值10为中位数,即Me =10(公升),Me 表示中位数。
若数据个数为偶数如n=6,中位数的位次据(6+1)/ 2=3.5所对应的标志值的平均数来确定,即为(10+11)/2=10.5。
2.单项式分组资料确定中位数直接可用公式确定中位数的位次,再根据位次用较小累计次数或较大累计次数的方法将次累计次数刚超过中位数位次的组确定为中位数组,该组的标志值即为中位数。
3.组距分组资料确定中位数。
组距资料确定中位数与单项式资料不同的是需要采用公式计算。
下限公式:
上限公式:
式中:L,表示中位数组的下限,U 表示中位数组的上限,fm,表示中位数组的次数,Sm-1 表示中位数所在组以前各组的累计次数,Sm+1 表示中位数所在组以后各组的累计次数,∑f,表示总次数,d,表示中位数所在组的组距。
某车间50人月产量资料月产量(公斤)
工人数(人)
较小累计次数
较大累计次数
200以下
3
3
50
200—400
7
10
47
400—600
32
42
40
600—800
8
50
8
合计
50
—
—
第四节 标志变动度一、标志变动度的意义
(一)标志变动度概念标志变动度就是说明总体单位标志值的差异大小和程度的指标。在统计研究中,一方面要计算平均数,用以反映总体各单位标志值的一般水平,另一方面也要测定标志变动度,用以反映总体各单位标志值的差异程度。同时,平均数的代表性还必须用标志变动度指标来测量,标志变动度大,平均数的代表性就小,相反,标志变动度小,平均数的代表性就大,如果标志变动度等于零,则说明平均数具有完全的代表性。所以,为了全面准确地反映出总体特征,在计算了平均数之后,还要进一步计算标志变动指标,以便对平均数作出补充说明。
(二)标志变动度的作用
1.衡量平均数代表性大小,标志变动度与平均数成反比关系。
2.衡量经济活动过程的节奏性、均衡性。
例如:有两个乡的水稻平均单产都是400公斤,甲乡的水稻单产在350—450公斤之间的地块,只占播种面积的60%,而乙乡在350—450之间的地块,只占播种面积的30%,试问:哪个乡具有比较稳定而又可靠的收获量?
显然,在这种情况下,甲乡的收获量是比较稳定可靠的。所以,在计算平均数之后,还应该测定标志的变动度。
二、测定标志变动度的指标
1.极差(也称全距)
极差就是总体单位中最大值与最小值之差,它说明标志值的变动范围,是标志变动度中最简单的一种方法。
极差优点(特点):说明总体中两个极端标志值的变异范围,其计算方法简便、易懂、容易被人掌握。
缺点:受极端值影响很大,不能全面反映各单位标志值的差异程度。所以,在实际应用上有一定的局限性。
2.平均差平均差就是总体各单位的标志值与算术平均数的离差绝对值的平均,它能综合反映总体中各单位标志值的差异程度。
计算公式:
在分组资料的情况下只须加权就可以了
平均差系数就是平均差除以算术平均数,它说明标志值差异的相对程度,还可以用来比较平均数不同的各个标志变动度的大小。
计算公式:
优点:计算简便,意义明确,能反映各标志值的大小和程度。
缺点:采用绝对值,不适于数理统计中的数字处理,使用受限制。
3.标准差(也叫均方差)
标准差是测定标志变动度最重要的指标,它的意义与平均差的意义基本相同,但在数学性质上比平均差要优越,由于各标志值对算术平均数的离差的平方和为最小,所以,在反映标志变动度大小时,一般都采用标准差。标准差是反映标志变动度的最重要的指标,是指总体各单位的标志值与算术平均数离差的平方平均数的均方根。计算公式:
分组情况下,需要加权
标准差系数是标准差除以算术平均数,也叫离散系数。计算公式:
级差、平均差和标准差都是说明总体某一数量标志差异大小和程度的指标,用来说明不同数值平均数的代表性大小。
4.是非标准差在社会经济现象中,有时把某种社会经济现象的全部单位分为具有某一标志的单位和不具有某一标志的单位。例如:全部产品中,分为合格产品和不合格产品两组,全部农作物播种面积分为受灾面积和非受灾面积两组,全部人口中分为男性和女性两组等,我们把划分出的这两部分分别用“是”或“否”,“有”或“无”表示,这种用“是”与“非”或“有”与“无”表示的标志称为是非标志或交替标志。如果用1表示具备所研究标志的标志值,用0表示不具备所研究标志的标志值,全部单位数用N表示。具有所研究标志的单位数用N1表示,不具有所研究标志的单位数用N0表示,则为具有所研究标志的单位数在全部单位中所占的比重即成数,用P表示;为不具有所研究标志的单位数在全部单位中所占的比重也即成数,用q表示。两个成数之和等于1,即 p+q=1。
是非标志的标准差
第五节 运用平均指标的原则一、总体各单位必须是同质的前面讲述,在统计研究中所以需要计算平均数是因为总体的各个单位在数量标志上存在着差异,通过平均,它的个别的、偶然的差异可以相互抵消,从而反映出整个总体的特征。所以,只有研究总体的各个单位在性质上都是同类的,才能反映出总体特征。
二、应用平均指标要与分组法结合起来通过以上的平均指标的各种不同的计算方法,我们可以看出:计算平均指标是在分组的基础上进行的,所以,这就要求统计分组必须科学,能够反映出事物的本质特征。
三、与变异分析相结合这样既可以通过平均数反映现象的一般水平,又可以通过标志变动度的各项指标来表明平均数代表程度的高低,反映现象的节奏性和稳定性,从而说明各项工作的质量。
第四章 抽样推断
本章重点内容:本章是本门课的重点。主要讲授抽样推断的基本概念、随机抽样方法与抽样分布、抽样误差、参数估计和抽样的组织形式等,关键是讲授清楚抽样推断的基本原理和方法。难点是抽样组织形式及参数估计。
第一节 抽样调查的一般问题
一、抽样的概念和特点
(一)抽样调查的概念
抽样调查是一种非全面的调查方法。它既是搜集统计资料的方法,又是对现象总体进行科学估计和判断的方法。所以它不论在统计调查还是在统计分析中都有广泛的应用。
抽样调查是按随机原则从全部研究单位中抽取一部分单位进行观察,根据样本资料计算样本的特征值,然后以样本的特征值,对总体的特征值做出具有一定可靠性的估计和判断,以反映总体的数量特征和数量表现的一种统计方法。
所谓随机原则,即是在抽取样本时,排除人们主观意图的作用,使得总体中的各单位均以相等的机会被抽中。随机原则又称为等可能性原则。例如,从一定面积的小麦中,通过随机抽样,抽取若干地块实割实测,计算平均亩产,以此来推断全部面积的小麦产量。再如,对一批产品进行质量检查时,从全部产品中随机抽取部分产品进行检测计算合格率,以此来推断全部产品的合格率等等。
(二)抽样调查的基本特点
1、调查单位的确定是按随机原则从全部总体单位中抽取的。
2、用部分单位的指标数值去推断和估计总体指标数值。
3、抽样调查中的抽样误差是不可避免的,但在事先是可以计算并加以控制的。
二、抽样调查的作用
1、有些现象是无法进行全面调查的,为了测算全面资料,必须采用抽样调查的方法。例如,对无限总体不能采用全面调查。另外,有些产品的质量检查具有破坏性,如电视机使用寿命检验,罐头的防腐期限试验,轮胎的里程试验等,这些调查所使用的测试手段对产品具有破坏性,不可能进行全面调查,只能采用抽样调查。
2、从理论上讲,有些现象虽然可以进行全面调查,但实际上没有必要或很难办到,也要采用抽样调查。例如,要了解全国城乡人民的家庭生活状况,从理论上讲可以挨门逐户进行全面调查,但是调查范围太大,调查单位太多,实际上难以办到,也没有必要。采用抽样调查可以节约时间、人力、物力和才力,提高调查结果的时效性,又能达到和全面调查同样的目的和效果。
3、抽样调查的结果可以对全面调查的结果进行检查和修正。全面调查涉及面宽,工作量大,参加人员多,调查结果容易出现差错。因此,在全面调查(如人口普查)之后进行抽样复查,根据抽查结果计算差错率,并依此为依据检查和修正全面调查结果,从而提高全面调查质量。
4、抽样调查可以用于工业生产过程的质量控制。在工业产品成批或大量连续生产过程中,利用抽样调查可以检验生产过程是否正常,及时提高信息,进行质量控制,保证生产质量稳定。
5、利用抽样调查原理,可以对某些总体的假设进行检验,来判别这种假设的真伪,依决定行动的取舍。例如,某地区去年职工家庭年收入为7200元,本年抽样调查结果表面,职工家庭年收入为7100元,这是否意味着职工生活水平下降呢?我们还不能下这个结论,最好通过假设性检验,检验这两年职工家庭收入是否存在显著性统计差异,才能判断该地区今年职工年收入是否低于去年水平。
总之,抽样调查是一种科学实用的调查方法,目前它不仅广泛应用于自然科学领域,也愈来愈多地应用于社会经济现象数量方面的研究。随着抽样理论的发展,抽样技术的进步和完善,广大统计工作者业务水平的提高,抽样调查在社会经济统计中的应用将会愈加普及。
三、抽样调查的几个基本概念
(一)全及总体和抽样总体
全及总体也称为总体或母体,是指所要认识的研究对象的全体,它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。例如,我们要研究某城市职工的生活水平,则该城市全部职工就构成全及总体或总体。在本章用大写的字母N代表全及总体的单位数。
抽样总体就是按随机原则从全及总体中抽取的一部分单位组成的小总体。抽样总体简称样本,它也是由许多性质相同的单位组成的。本章中用小写n代表样本的单位数,样本单位数n也称为样本容量。组成样本的每个单位称为样本单位。
例如,某城市有20万个住户,我们要采用抽样调查的方法研究该城市住户的家庭的收支情况,则该城市全部住户构成全及总体,N=20万。如果从全部住户中随机抽取千分之五即1000户进行调查,则被抽中的1000户构成抽样总体即样本,样本容量n=1000。样本按照样本容量的大小可以分为大样本和小样本。一般地说,n≥30为大样本,n<30为小样本。在对社会经济现象进行抽样调查时,多数采用大样本。
应当注意的是,作为抽样推断对象的全及总体是唯一确定的,但作为观察对象的样本就不是唯一的。从一个全及总体中可以抽取很多个样本,每次抽到哪个样本是不确定的。明白这一点对理解抽样推断是很重要的。
(二)全及指标和抽样指标
1、全及指标又称总体指标全及指标主要有四个:全及平均数、全及成数、总体数量标志的标准差及方差、总体是非标志的标准差及方差。
2、抽样指标,又称样本指标。
抽样指标有四个对应指标:抽样平均数、抽样成数、样本数量标志标准差及方差、样本是非标志标准差及方差。
(三)样本可能数目和抽样方法
1、样本可能数目又称样本个数,是指从全及总体中可能抽取或可能构成的样本总体。它既和每个样本的容量有关,也和抽样的方法有关。当样本容量给定时,样本的可能数目便由抽样方法决定。
2、抽样方法按抽取样本的方式不同分为重复抽样和不重复抽样。
(1)重复抽样。重复抽样是从全及总体中抽取样本时,随机抽取一个样本单位,记录该单位有关标志表现以后,把它放回到全及总体中去,再从全及总体中随机抽取第二个单位,记录它有关标志表现以后,也把它放回全及总体中去,照此下去直到抽选n个样本单位。
可见,重复抽样时全及总体单位数在抽选过程中始终没有减少,而且各单位有被重复抽中的可能。
(2)不重复抽样。不重复抽样是从全及总体中抽取第一个样本单位,记录该单位有关标志表现后,这个样本单位不再放回全及总体中参加下一次抽选。然后,从总体N-1个单位中随机抽选第二个样本单位,记录了该单位有关标志表现以后,该单位也不再放回全及总体中去,再从全及总体N-2单位中抽选第三个样本单位,照此下去直到抽选出n个样本单位。
可见,不重复抽样时,总体单位数在抽选过程中是逐渐减少的,而且各单位没有重复被抽中可能。
两种抽样方法会产生三个差别:①抽取的样本可能数目不同;②抽样误差的计算公式不同;③抽样误差的大小不同。
四、抽样调查的理论基础
抽样调查是建立在概率论大数定律基础是的。大数定律的一系列定理为抽样调查提供了数学依据。
大数定律是阐明大量随机现象平均结果的稳定性的一系列定理的总称。它说明如果被研究的总体是由大量的相互独立的随机因素所构成,而且每个因素对总体的影响都相对的小。那么将这些大量因素加以平均,因素的个别影响将相互抵消,而呈现出共同作用的影响,使总体具有稳定的性质。
第二节抽样误差
一、抽样误差的概念
抽样误差的一般概念一般地说,抽样误差是指样本指标与被它估计未知的总体参数(总体特征值)之差。具体地是指样本平均数x与总体平均数X的差,样本成数p与总体成数P的差(p-P)。例如,某地区全部小麦平均亩产400公斤,而抽样调查得到的平均亩产为391公斤或403公斤,则样本指标与总体指标之间的误差为-9公斤或3公斤。
统计调查误差的种类统计调查误差按产生的原因可以分为登记性误差和代表性误差。
二、影响抽样误差的因素
1、总体被研究标志的变异程度。
2、样本容量的大小,即样本单位数的多少。
3、抽样的组织形式。
4、抽样的方法。
三、抽样平均误差
抽样平均误差的意义抽样平均误差的计算我们用希腊字母μ表示抽样平均误差;用μx表示抽样平均指标的抽样平均误差;用μp表示抽样成数的抽样平均误差。
式中:
——抽样平均数
——全及平均数
p ——抽样成数
P ——全及成数
K ——样本可能数目(或抽样平均数的个数)
1、抽样平均数的抽样平均误差
在重复抽样的条件下
(2)在不重复抽样条件下
2、抽样成数的抽样平均误差
(1)在重复抽样的条件下
其中,P为总体成数,n为样本单位数
(2)在不重复抽样的统计下
四、抽样极限误差
根据定义,抽样平均误差是所有可能样本指标与总体指标之间的平均离差。而在组织抽样推断时,我们实际只抽取一个样本,用一个样本指标去推断总体指标。由于抽样是按随机原则进行的,所有不同的样本组合都可能抽到,这样所得到的每个样本实际误差,有可能小于抽样平均误差,也有可能大于抽样平均误差,因此包括在抽样平均误差范围内的只有一部分样本,而不是所有的样本组合。这样我们在用一个样本指标估计总体指标时,两者之间有多大的误差就不能完全肯定,需要研究和计算抽样极限误差。
抽样极限误差是抽样指标与总体指标之间,在一定概率保证程度下的,抽样误差的最大可能范围。总体指标虽然是一个确定的量,但它是未知的,而样本指标是一个随机变量,其取值是不定的,它是围绕着总体指标左右变动的,因此,我们只能在一定的概率保证程度下,用一定的范围来控制误差。
我们通常用Δ表示抽样极限误差,设Δx和Δp分别表示抽样平均数和抽样成数的可能误差范围,则有:
Δx=|x-X|
Δp=|p-P|
根据概率论数理统计原理,样本平均数和样本成数分别渐进地服从于N(X,μ2x)和N(P,p(1-p))的正态分布。因此有:
P{|x-X|≤1·μx}=0.6827
P{|p-P|≤1·μp}=0.6827
即,抽样极限误差在1倍的抽样平均误差范围内的可能性为68.27%。也就是说,我们有68.27%的可靠性程度来判断,样本指标与总体指标之间的误差不超过μx或者μp。
又有:
P{|x-X|≤2·μx}=0.9545
P{|p-P|≤2·μp}=0.9545
即,抽样极限误差在2倍的抽样平均误差范围内的可能性为95.45%。也就是说,我们有95.45%的可靠性程度来判断,样本指标与总体指标之间的误差不超过2μx或者2μp。所以抽样极限误差的计算公式为:
Δ=t·μ
即有:
Δx=t·μx 和 Δp=t·μp
式中的t表示极限误差范围为抽样平均误差的若干倍,t称为概率度。
第三节抽样估计的方法
一、抽样估计的特点
抽样估计就是利用实际调查资料计算出样本指标值来估计和推断相应的总体指标的数值,又称为参数估计。显然,这种估计不同于人们所说的“拍脑袋的估计”。抽样估计具有三个主要特点:
1、它在逻辑上运用的是归纳推理,而不是演绎推理。
2、它在方法上运用不确定的概率估计法,而不是运用确定的数学分析法。
3、抽样估计的结论存在着一定的抽样误差,并且抽样误差总是和抽样估计的可靠程度联系在一起的。
二、抽样估计的优良标准
对参数进行估计的时候,我们总是希望估计是合理的或者是优良,那么什么是一个好的估计量的标准呢?
(一)无偏性。即以抽样指标估计全及指标要求抽样指标值的平均数等于被估计的全及指标本身。就是说,虽然每一次的抽样指标(如x,p等)和未知的全及指标(如X,P等)可能不相同,但在多次反复的估计中各个抽样指标的平均数应等于全及指标,即抽样指标的平均来说与全及指标是没有偏误的。
(二)一致性。即当样本容量n充分大的时,若样本指标充分地靠近被估计的全及指标,则该样本指标是被估计的全及指标的一致估计量。
(三)有效性。即如果一个样本估计量的方差比其他估计量的方差小,则称该样本估计量是被估计的全及指标的有效估计量。
三、抽样估计的方法
(一)点估计
点估计又称定值估计。它是用实际样本指标数值代替总体指标数值,即总体平均数的点估计值就是样本平均数,总体成数的点估计值就是样本成数。这种估计不考虑是否有抽样误差。
例如,对一批某种型号的电子元件10000只进行耐用时间检查,随机抽取100只,测试的平均耐用时间为1055小时,合格率为91%,我们推断说10000只电子元件的平均耐用时间为1055小时,全部电子元件的合格率也是91%。
点估计方法简单,但不很实用。因为,抽样估计中抽样指标完全等于全及指标的可能性极小。
(二)区间估计
区间估计所表明的是一个可能范围,不是一个绝对可靠的范围。是用样本指标和它的抽样极限误差构成的区间来估计总体指标,并以一定的概率保证总体指标将在所估计的区间内。
那么,如何进行区间估计呢?正如我们前面所说的,概率论数理统计理论告诉我们,样本平均数和样本成数分别渐进地服从于和的正态分布。根据这一理论,我们就可以计算出全及指标的估计区间来。下面分别介绍总体平均数和总体成数的估计区间的计算。(一)总体平均数的估计区间
根据样本平均数的分布特征可知:
p(|x-X|≤Δx)=F(t)
p(x-Δx-≤X≤x+Δx)=F(t)
即:在概率保证程度为F(t),概率度为t的情况下,总体平均数的数值将在x-Δx和x+Δx的范围内。其中,x-Δx称为估计下限,x+Δx称为估计上限。区间[x-Δx,x+Δx]称为置信区间,估计可靠性程度称为置信度。
(二)总体成数的估计区间
总体成数的区间估计原理与总体平均数相同,即:
p(|p-P|≤Δp)=F(t)
p(p-Δp-≤X≤p+Δp)=F(t)
即:在概率保证程度为F(t),概率度为t的情况下,总体成数的数值将在p-Δp和p+Δp的范围内。其中p-Δp称为估计下限,p+Δp称为估计上限。区间[p-Δp,p+Δp]称为置信区间,估计可靠性程度称为置信度。
例如,考察某类人身高分布,随机地抽取该类人1000人,测得平均身高168cm,抽样标准差S=5.92cm,假定要在95%的置信度下,求总体平均身高的区间估计。
又例如,为了研究新式时装的销路,在市场上随机对900名成年人进行调查,结果有540名喜欢新式时装,要求以90%的概率保证程度,估计该市成人喜欢时装的比率。
第四节 抽样的组织方式
一、抽样调查的程序
(一)立项。这由用户或各级组织统计调查的单位提出,包括确定调查目的、要求、调查完成的时间。
(二)搜集总体的有关资料,编制抽样框。所谓抽样框就是总体单位的名单。抽样框可以分为两类:一类是总体单位的名称表;另一类是地段抽样框,一般依据地图,划分成若干个有明确边界的地段即单位。编制抽样框的作用是:(1)将总体所有单位置于可以被抽中的位置上,易于贯彻随机原则和进行抽选工作,提高抽样调查的效率。(2)编制抽样框就是确定了调查对象及全及总体的范围,否则无法确定抽样调查推断的总体是谁。如何编制抽样框,根据对总体单位了解的程度而定,如果对总体单位不甚了解,往往只能编制总体单位清单或地段抽样框;如果对总体单位情况比较了解,甚至掌握与调查内容有关的标志表现的资料,可以按有关标志值的高低进行有序排队。例如进行农产品抽样调查,可以把地块按过去平均亩产的高低排队。
(三)设计抽样调查方案。抽样方案是统计调查方案的一种,抽样调查方案应该包括统计调查方案的一般内容。根据抽样调查的特点,还要解决好以下问题:(1)如何贯彻随机原则,保证总体每个单位有同等机会被抽中。(2)根据允许误差,确定必要的样本容量。根据对总体的了解情况及抽样框的编制情况,确定抽样方式。(3)在一定的抽样误差要求下,选择费用最少的方案设计。
(四)组织调查,搜集样本单位的数据,对样本进行准确性和代表性检查。
(五)进行数据处理。
(六)推断总体,并予以论证。
(七)提供抽样调查结果及对结果的可靠性作出说明。
二、简单随机抽样
简单随机抽样,又称为纯随机抽样,它是按照随机原则直接从总体N个单位中抽取n个单位作样本,使每个总体单位都有同等的机会被抽中。简单随机抽样是抽样调查中最基本的,也是最单纯的方式,适合于均匀总体。
简单随机抽样最原始的抽样方法就是抽签摸球。具体做法是将每一个被抽选总体单位都用一个签或球来代表,然后把它们搅均匀,从中随机摸取,抽中者即为样本单位,直到抽满所需的样本容量n为止。显然,这种方法一般适用于总体单位比较少的情况。如果总体单位数目很大,手续比较麻烦则不宜采用。
最常用的抽样方法是利用随机数表,这种表是由计算机或其它随机方法制成的,即从0、1、2、……、9这10个数字出现的概率是相同的,但排列的先后顺序则是随机的。在使用随机数表抽取样本之前,首先应将各个总体单位编上号码;然后在随机数表中任意地取数,凡是抽中的数字与相应的总体单位号码相一致时,该单位即为抽中的单位。若抽中的数字无相应的总体单位号码,则该数字被放弃,再重新抽取下一个数,直到抽满预定的样本容量n为止。
前面介绍的抽样平均误差的计算公式以及区间估计公式,在简单随机抽样的条件下是完全适用的,或者说前面的公式都是在简单随机抽样的条件下产生的。
虽然简单随机抽样从理论上说最符合随机原则,它是其它抽样方式的基础,也是衡量其它抽样方式抽样效果的标准。但是,它在统计实践中受到很大的限制:首先,当总体很大时,编号工作就很困难,对于连续生产的企业产品编号也不可能。另外,当总体各单位标志值之间差异很大时,采用这种抽样方式并不能保证样本的代表性。
三、类型抽样
类型抽样,又称为分层抽样。它首先把全及总体各单位按某一标志分成若干个类型组,使各组组内标志值比较接近,然后分别在各组组内按随机原则抽取样本单位。可见类型抽样的特点在于,它把分组法和贯彻随机原则结合起来。
类型抽样的优点:(1)它提高了样本的代表性。因为样本单位是从个类型组中抽取得,样本中有各种标志值水平的单位。(2)降低了影响抽样平均误差的总体方差。在总体分组的情况下,总体方差有两部分组成:一部分是组间方差,即各类型组之间标志值差异程度;另一部分是组内方差,即各组组内各单位标志值之间差异程度。在类型抽样的情况下,因为从各类型组都抽取了样本单位,所以,对各类型组来说是全面调查,因此,组间方差是可以不考虑的。影响抽样误差的总方差是组内方差。
提高类型抽样的效果,关键是如何分组,分组的原则是,从客观经济现象出发,在定性分析的基础上,尽量缩小组内标志值变异,增加组间标志值变异,这种做法缩小组内方差增大组间方差,从而降低影响抽样误差的总方差。
类型抽样具体分为两种方法:等比例类型抽样和不等比例类型抽样。
四、等距抽样
等距抽样又称为机械抽样或系统抽样,它是事先将总体各单位按某一标志排列,然后依固定顺序和间隔抽选调查单位的一种抽样组织形式。如对职工按姓氏笔划顺序排队,然后按此顺序等间隔地抽取样本单位进行调查。等距抽样要计算抽取间隔,间隔d等于总体单位数N除以样本容量n,即d=N/n。
例如从10000名职工中抽取2%即200名进行调查,职工可先按姓氏笔划排队列表,然后按排队顺序分200组(组数等于样本容量),每组50人(50也是抽取间隔)。假设第一组随机抽取第5号职工,那么第一组样本单位的顺序号是5,第二个样本单位的顺序号是55,第三个样本单位的顺序号是105,其余类推,最后一个样本单位的顺序号是9955。
(一)在机械抽样中,由于排队所依据的标志不同,等距抽样分为按无关标志排队和有关标志排队两种。
1.所谓无关标志,是指排列的标志和所研究的标志值的大小无关或不起主要影响作用。例如,调查职工生活水平时,职工按姓氏笔划排队;对产品进行质量检查,按产品入库顺序排队等都是按无关标志排队。
2.所谓有关标志,即用来排列的标志和所研究的标志值的大小保持密切关系。例如,对耕地的农产量进行调查,把地块按往年平均亩产的高低进行排队;对职工家庭生活水平进行调查,把职工按工资水平的高低进行排队等都是按有关标志排队。
(二)等距抽样按样本单位抽选的方法不同,可分为随机起点等距抽样、半距起点等距抽样和对称等距抽样。
1.随机起点等距抽样。当抽取间隔d确定以后,在第一组随机抽选一个样本单位,该样本单位的顺序号为a,则第二个样本单位的顺序号为d+a,第三个样本单位的顺序号为2d+a,其余以此类推,第n个样本单位的顺序号位(n-1)d+a.
当总体按无关标志排队时,随机起点等距抽样是可以应用的。当总体按有关标志排队时,随机起点等距抽样会产生系统性误差。
2.半距起点等距抽样。
3.对称等距抽样。要求在第一组随机抽取第一个样本单位,假设该单位的序号为a,在第二组与第一个样本单位对称的位置抽取第二个样本单位,它的序号为2d-a。在第三组与第二组样本单位对称位置抽取第三个样本单位,它的序号为2d+a。以后抽出的样本单位序号依次为4d-a,4d+a,6d-a,6d+a,…。
对称等距抽样保留了半距起点等距抽样的优点,而又避免了它的局限性,使其优点更加明显。
五、整群抽样
整群抽样是先将全及总体各单位划分成若干群(组),然后以群(组)为单位从总体中随机抽取一些群(组),对中选群(组)的所有单位进行全面调查的抽样组织形式。例如,对一城市居民进行生活水平调查,如果不是从全部城市住户中直接抽选住户进行调查,而是从城市全部居民委员会中随机抽选若干居委会,对被抽中的居委会所有住户都进行调查,这就是整群抽样。该城市的每一居委会就是一群。再如,对连续生产的企业,每小时都抽选最后10分钟生产的全部产品进行调查。那么,每小时最后10分钟生产的全部产品就是一群。如果一天24小时生产的全部产品构成全及总体,则全及总体有144群,样本有24群。
整群抽样的优点是节约和方便。例如,整群抽样不需要编制总体单位名单,只需要编制总体群的名单。两者相比后者工作量少多了。在社会经济调查中,总体单位通常总是以某种社会经济组织形式结合为群体,所以利用这些群体作为整群抽样的“群”会给调查的组织工作和搜集资料工作提供方便。例如以居委会和街道为单位组织城市住户调查是非常方便的。
整群抽样对抽样误差的影响如何,可以分两种情况:如果总体群内方差小,群间方差大,则样本的代表性降低,抽样误差增加;如果总体群内方差大,群间方差小,则样本代表性提高,抽样误差减小。因此,为了减小抽样平均误差,总体在分群的时候,注意增大群内方差,降低群间方差。
六、多阶段抽样
当总体很大时,抽样调查直接抽取总体单位,在技术上有很大困难,则将总体分成若干阶段,在每一阶段中实行随机抽样则会简单得多。多阶段抽样,顾名思义就是在抽样调查抽选样本时并不是一次直接从总体中抽取,而是分两个或两个以上的阶段来进行。
多阶段抽样的作用:
1,当抽样调查的面很广,没有一个包括所有总体单位的抽样框,或者总体范围太大无法直接抽取样本时,需要采用多阶段抽样。例如,全国农产量调查和城市居民的住户调查,样本单位遍布全国各地,显然不可能直接一次抽到所需要的样本,只能分成几个阶段来逐级抽取。
2,可以相对地节约人力和物力。从一个比较大的总体,抽取一个随机样本,势必使抽到的样本单位比较分散,若要派人调查,人力和物力的支出比较大。例如,一个县要确定一些农户作样本,用一次随机抽样的样本很可能分布在全县各个乡,调查的往返路费就比较大。如果分阶段进行,先抽n个乡,然后在抽中的乡中再抽若干户,这样可以使样本相对比较集中,因而可以节省人力和物力。
3,可以利用现成的行政区划、组织系统作为划分各阶段的依据,为抽样调查提供方便。
根据我国政治、经济、管理的特点,各级党政领导都需要统计数字,因而全国的抽样调查的数字往往不能满足各级需要。如果能把多阶段抽样和各地需要结合起来,如各阶段根据需要再适当地补充样本单位,把多阶段抽样和各地的需要结合起来从而解决这一矛盾。
以某省粮食产量调查为例。可以按行政区域划分层次,以省为总体。步骤为:
①从全省所有县级单位中,抽取部分县作为第一阶段抽取的样本;
②从被抽中县的所有乡或村中,抽取部分乡或村作为第二阶段抽取的样本;
③从被抽中乡或村的所有农户中,抽取部分农户作为第三阶段抽取的样本;
④从被抽中农户的所有播种面积中抽取部分地块,进行实割实测的调查,作为最基层阶段的样本,计算其样本平均亩产量,并推算总产量。
多阶段抽样所划分的抽样阶段数不宜过多,一般以划分两、三个阶段,至多四个阶段为宜。
第五节 抽样单位数目的确定
一、抽样单位数目确定的必要性
抽样调查的目的是用样本资料推断总体。抽样推断的基础是样本,而样本的取得是按随机原则从全及总体中抽取一部分单位来组成的集合体。在遵从随机原则的条件下,样本容量究竟应为多大才合适呢?这是抽样调查中的一个至关重要的问题。抽样单位数目太多会增加抽样组织的困难,造成人力、物力的浪费;抽样单位数目太少又会使误差增大,不能有效地反映总体情况,直接影响到抽样推断结果的准确性。其次,抽样推断的一个重要方面则是要求推断的结果能满足在一定可靠性的条件下,保证抽样误差不超过事先规定的范围。而推断的可靠性要求主要是根据研究问题的性质和对抽样结果的用途不同而定。当可靠性要求已确定时,抽样误差的控制尤为重要。而抽样单位数目是影响抽样误差大小的重要因素,在其它条件相同时,就可以用增加或减少抽样单位数目的方法来控制抽样误差的大小,以达到用最合适的抽样单位数满足抽样调查任务的要求。二、影响抽样单位数目多少的因素
1,总体中各单位的标志变异程度的大小
2,抽样推断的可靠性程度大小
3,允许误差的大小
4.抽样方法和抽样组织形式
三、抽样单位数目的计算
1,在重复抽样的条件下
(1) 抽样平均数的抽样单位数目的计算
因为
所以有:
(2) 抽样成数的抽样单位数目的计算
同样有:
2,在不重复抽样的条件下
(1) 抽样平均数的抽样单位数目的计算
抽样成数的抽样单位数目的计算
四、确定抽样单位数目应注意的问题
1,以上四个计算公式只适用于简单随机抽样。
2,在同样条件下,不重复抽样比重复抽样要求的抽样单位数目少。
3,同一总体往往同时需要计算抽样平均数和抽样成数,由于它们的方差和允许误差要求不同,因此,对于抽样单位数目多少的要求也不一样,为了防止抽样单位数目的不足,而扩大抽样误差,在实际工作中,往往根据抽样单位数目比较大的一个数目进行抽样,以满足共同要求。
第五章 相关与回归
本章重点内容:本章主要讲授相关分析的概念,相关与回归的关系,简单线性回归模型,多元线性回归模型等。难点是讲授相关与回归的关系以及线性回归模型的基本原理。
第一节 相关关系分析的意义和种类
一、相关关系的概念
世界是普通联系的,孤立的现象或事物是不存在的。事物或现象之间的相互联系、相互制约,构成错综复杂的客观世界,构成世界的运动和发展。所有各种现象之间的相互联系都通过数量关系反映出来。
如果进一步加以考察,可以发现,现象之间相互联系可区分为两种不同的类型:
(一)函数关系。它反映着现象之间存在着严密的依存关系,在这种关系中,对于某一变量的一个数值,都有另一变量的确定的值与之对立,如:S=πR2圆的面积S与半径R是函数关系,R值发生变化,则有确定的S值与之对应。在客观世界广泛存在着函数关系。
(二)相关关系。它是指现象之间确实存在的,但关系值不固定的相互依存关系。即对于某一变量的每一个数值,另一变量有若干个数值与之相适应。如:身高1.75米的人可以表现为许多不同的体重;再如,施肥量与亩产之间,一定的施肥量,其亩产数值可能各不相同。之所以发生这种情况,是因为体重、亩产受很多因素的影响。但是很明显施肥量与亩产量之间、身高与体重之间的关系是非常密切的。在各种经济活动和生产过程中,许多经济的、技术的因素之间都存在着这种相关关系。分析这种关系的内在联系和表现形式是统计研究的一项重要任务。
为了进一步理解相关关系,下面说明一下相关关系与其他关系的区别与联系。
相关关系和函数关系有区别。函数关系是指两个变量之间存在着相互依存关系,但是它们的关系值是固定的,而具有相关关系的变量之间关系值是不固定的。相关关系与函数关系也是有联系的,由于有观察或测量误差等原因,函数关系在实质中往往通过相关关系表现出来。
相关关系的因果关系也有区别。从相关关系的内容来讲,有许多是由于因果关系而产生的,如施肥量和亩产量,劳动生产率和成本等,但它也包括互为因果的关系。如身高如体重,生产量和销售量。同时它还包括非直接的因果关系。如:哥哥高,妹妹也高,这产生于同一原因,父母亲的身材比较高。所以相关关系比因果关系的概念要广泛。但是这种关系必须是客观存在的真实的关系。
相关关系是变量之间关系值不确定的相互依存关系,但在一定条件下,变量之间又可能存在着某种确定的函数关系,要找出这种关系要应用统计中的回归分析与相关分析的方法。
回归分析与相关分析的作用主要在于:(1)确定特定变量之间是否存在相关关系,并根据观察资料建立比较合适的回归方程,从而分析变量之间相互关系的密切程度。(2)根据一个或几个变量的数值,预测或控制另一个变量的数值,并且了解这种预测或控制的精确度。(3)在共同影响一个变量的许多变量之间,找出哪些是重要因素,哪些是次要因素。
二、相关关系的种类
(一)按影响因素的多少分为单相关与复相关。
(二)按相关关系的表现形态分为直线相关和曲线相关。
(三)按变量之间相关关系的方向分为正相关与负相关。
(四)按相关的程度分为完全相关、不完全相关和不相关。
三、相关关系分析的主要内容
对现象之间变量关系的研究,统计是从两方面进行的:一方面是研究变量之间关系的紧密程度,并用相关系数或指数来表示,这种研究称为相关分析。另一方面是关于自变量和因变量之间的数量变动关系,并用数学方程表达之,在统计上称为回归分析。相关——回归分析的目的是对相关的密切程度和变化的规律性在数量上加以表现,进而得各种推算和预测。相关与回归分析的主要内容如下:
(一)确定现象之间有无关系及相关关系的表现形式。
(1)根据对客观现象的定性认识。
(2)用列相关表、画相关图或数学解释进行判断。
(二)确定相关关系的密切程度。
(三)关系不密切,就不必重视它,不必花费大量的精力研究它;
(四)对具有比较密切相关的变量进行回归分析,以测定变量之间数量变化上的一般关系。
(五)确定因变量估计值的误差程度,计算估计标准差。
第二节 直线相关的测定
一、相关表和相关图
进行相关分析必须具备若干个自变量与因变量的对应的实际(观察)资料,作为相关分析的原始数据,一般来讲,资料越多越全面,越有利于分析和研究。
(一)简单相关表和相关图
进行相关分析,先要将原始统计资料进行整理。根据总体单位的原始资料,将其中一个变量的数值按一定的顺序排列,同时列出与之对应的其它变量的变量值,这样形成的表格称为相关表。例如
某种棉纱产量与单位成本之间的关系月份
产量(吨)
单位成本(千元/吨)
1
97
7.2
2
100
7
3
103
6.9
4
109
6.7
5
110
6.5
6
115
6.5
7
108
7.2
8
106
7.2
9
114
6.8
10
118
6.8
从上述相关表可以看出,随着棉纱产量的增加,其单位成本有减少的趋势。
相关图也称散点图,是根据原始数据,在直角坐标中绘制出两个变量相对应的观察值的所有点,从这些点的分布情况观察分析两个变量间的关系,这个图称为相关图。该图表明相关点分布状况,如将上表的资料画在一坐标系中,以x轴代表产量,y轴代表单位成本,各点的分布状况如图,即散点图(相关图)。
从图7—1中10个点的分布情况看,产量越大单位成本越低,点的分布接近一直条线,该直线是从左上角至右下角,即变量之间呈负相关,另外,从图中还可以看出,各点是比较密集的,说明这两个变量之间的相关关系是比较密切的。
(二)分组相关表和相关图
当相关资料包括的对应数值很多时,直接根据两变量各原始值编制相关表、绘制相关图进而计算各相关指标,工作量很大,且相关表会很长,也不方便,相关图也不好绘制,在这种情况下,可编制分组相关表或绘制分组相关图。
分组相关表就是将原始资料进行分组而编制的相关表。根据分组的情况不同,分组表有两种,一是单变量分组表,一是双变量分组表。
1、单变量分组表。
2、双变量分组表。
二、直线相关分析的特点
(一)两个变量是对等关系。
(二)直线相关分析中,只能计算出一个相关系数,相关系数的绝对值在0与1之间,其值大小反映两变量间相关的密切程度。
(三)相关系数有正、负之分。
(四)相关系数计算的资料要求是:相关的两个变量必须是随机的,这也是对等关系的反映。
三、相关系数的测定和应用通过编制相关表和绘制相关图对现象之间的关系做了初步的了解,关系的密切程度如何,还需计算相关系数。相关系数是说明两个变量之间有无直线相关关系及相关关系密切程度的统计指标。相关系数计算方法有多种,如积差法、等级相关系数、另外还可根据回归方程方差分析来测定相关系数,这里主要介绍积差法和等级相关系数两种方法。
(一)用积差法测定相关系数
其计算公式为:
据此推倒得到以下公式:
从公式中可以看出:(1)γ取正值或负值决定于分子,当分子为正值,得出γ为正,x与y是正相关;当分子为负值,得出γ为负,变量x与y为负相关。(2)γ是一个相对数,不受计量单位的影响,无论x与y的计算单位如何,x与y相关的相关系数只有一个。γ数值有个范围,在+1和-1之间,即-1≤γ≤1。
为判断时有个标准,有人提出了相关关系密切程度的等级,下面介绍一种四级划分法:
|γ|<0.3 弱相关
0.3≤|γ|<0.5 低度相关
0.5≤|γ|<0.8 显著相关
0.8≤|γ|<1 高度相关
按以上标准来判断,计算相关系数的原始资料要比较多,这样关系程度是可以相信的,否则相信的程度会降低,即判断相关关系的起点值要高。
(二)等级相关系数
等级相关也是一种直线相关分析法。这种方法是以变量的等级作为基础计算相关系数的方法。其计算公式如下:
式中:R为等级相关系数
n为样本容量
d为两个变量的等级差数:
等级相关系数R与相关系数γ作用或者说意义相同。
第三节 简单直线回归分析
一、回归分析的概念
相关系数是说明在直线相关条件下两个现象相关的方向和相关的紧密程度,这只是研究相关问题的一个方面,它不能指出两变量相互关系的具体形式,也无法进行数量上的推算。相关分析的另一面,就是要研究变量之间数量变化的一般关系,通常把测定现象之间数量变化上的一般关系所使用的数学方法总称为回归分析法,回归分析能够解决相关系数不能解决的问题。
相关关系是变量之间数量关系不严格不固定的相互依存关系,要找出这种关系数量变化的一般关系值或者平均值,也就是找出这种关系数量变化的一般规则,其方法是配合相应的直线或曲线,这条直线称回归直线方程,曲线称为回归曲线。其中两个变量之间的回归称简单回归,三个变量之间的回归称复回归。由于简单回归分析中的简单直线回归是最基本、也是最常用的分析方法,故本节主要以简单直线回归为主介绍回归分析法。
二、回归分析的特点
(一)两变量中,一个是自变量,一个是因变量。
(二)回归方程不是抽象的数学模型,而是用自变量数值推算因变量数值的根据,必须反映变量之间关系的一般变动情况。
(三)对于没有明显因果关系的两个变量,可以确定两个不能互相替代的回归方程,一是以x为自变量,以y为因变量的回归直线方程;另一是以x为因变量,以y为自变量的回归直线方程,这两条回归直线方程斜率不同,意义不同。需要注意的是,一个回归方程只能作出一种推算,即只能根据自变量的取值推算因变量的可能值,不能反过来由因变量推算自变量,尽管在数学形式上这样计算是可能的,但在实际意义上却是不允许的。 (四)直线回归方程系数即斜率有正有负,正回归系数表明两变量之间是正相关,负回归系数表明两变量之间是负相关,至于回归系数数值的大小,视原数列使用的计算单位而定,这不能表明两个变量之间的变动程度。
(五)计算回归方程的资料要求是,因变量为随机的,而自变量是给定的数值,求出回归方程后,也是给定自变量值,代入方程中,推算出因变量的一般值或平均数值。
以上为回归分析的特点,下面来分析回归分析与相关分析的区别与联系。
区别主要表现在:
1、相关关系是用来度量变量与变量之间关系的紧密程度的一种方法,在本质上只是对客观存在的关系的测度。回归分析是根据所拟合的回归方程研究自变量与因变量一般关系值的方法,可由已给定的自变量数值来推算因变量的数值,它具有推理的性质。 2、在研究相关关系时,不需要确定哪个是自变量,哪个是因变量,但回归分析的首要问题就是确定哪个是自变量,哪个是因变量。
3、现象之间的相关关系的研究,只能计算一个相关系数;而回归分析时回归系数可能有两个,也就是两现象互为因果关系时,可以确定两个独立回归方程,从而就有两不同的回归系数。
联系表现为:
两者是相辅相成的,由相关分析法测定的变量之间相关的密切程度,对是否有必要进行回归分析以及进行回归分析意义的大小起着决定的作用,相关程度大,进行回归分析的意义也大,相关程度小,进行回归分析的意义就小,甚至没有必要进行回归分析。同时,相关系数还是检验回归系数的标准,回归分析的结果也可以推算相关系数。因此,相关分析与回归分析是相互补充密切联系的,相关分析需要回归分析来表明现象数量关系的具体形式,而回归分析则应建立在相关分析的基础上。
三、简单直线回归方程的建立和求解
两个变量的相关关系最简单的形式就是直线相关,其直线方程称为一元一次方程。即:
y=a+bx
式中,y为因变量,x为自变量,a与b是特定参数。a为直线的截距,b为直线斜率又称回归系数。参数a、b的确定方法有随手画法、最小平方法,统计中使用最多的是最小平方法,用这种方程求出的回归直线方程是原资料的最适合的方程,也就是这条直线是代表x与y之间关系最优的一条直线。
若用(x,y)表求几对观察值,yc为估计值,则拟合的回归直线方程的形式为:
yc=a+bx
用最小平方法求回归直线,就是要使观察值y与估计值yc的离差平方和最小,即直线的误差平方和最小,也就是Q需要取最小值,来确定参数a和b。即:
Q=∑(y-a-bx)2=最小值
得到
解出参数a、b,并代入回归直线方程,得到一个确定的回归直线方程。该回归直线方程的意义是,自变量每增加1各单位,因变量平均变动b个单位。
回归直线的特征:
1、回归直线是一条平均线
2、观察值与回归值之差的平方和最小,即∑(y-yc)2取最小值。
3、观察值y与回归值yc之差的和为零,即∑(y-yc)=0
4、回归直线yc=a+bx必定经过x与y的交点即点(x,y) y=a+bx。
5、回归直线的走向由b决定。
当b>0,直线走向是由左下角至右上角,两变量为线性正相关;
当b<0,直线走向是由左上角至右下角,两变量为线性负相关;
当b=0,直线平行于x轴,说明x与y之间无线性相关关系。
不难看出,直线回归方程中的回归系数与相关系数的符号是一致的,它们都能判断两变量线性相关的方向,但相关的密切程度则只能由相关系数值判断。同时,还可根据回归系数计算相关系数相关系数。
四、估计标准差
在建立了回归方程后,就可以利用回归方程进行预测。要进行预测,就需首先测定回归估计值的可靠性,计算估计标准差(s),即观察值与估计值之间的标准差。根据回归直线方程,当给定某一特定值(x),就可以推算出y的数值yc=a+bx,但是yc的数值并不就是特定x值所对应的实际值y,因为x与y并不存在函数关系,估计值yc是实际值y之间的平均值,实际值y与yc之间的上下波动。估计值与对应的观察值y之间的离差称为估计误差,这种误差的大小反映回归估计的准确程度,也就是说明回归直线方程代表性的大小,为了说明估计误差,需要从变差的分析开始。
(一)离平方和的分解
在直线回归中,观察值y的取值大小是上下波动的,但这种波动总是围绕其均值而在一定范围内,统计上将y取值的这种波动现象称为变差,这种变差的产生是由两方面原因引起的:
(1)受自变量变动的影响。(2)其他因素(随即因素)的影响,为了分析这两个方面的影响,需要对总的变差进行分解。
总平方和(总变差)=剩余平方和(剩余变差)+回归平方和(回归变差)(二)估计标准差的计算
回归标准差是观察值y对估计值yc的平均离差,就直线回归来说,这个离差值愈小,则所有观察点愈靠近回归直线即关系愈密切;而当离差的值愈大,则所有观察点离回归直线愈远,即愈不密切。可见这个指标是从另一侧面反映关系的密切程度的。
剩余标准差是以回归直线为中心反映各观察值与估计值平均数之间离差程度的大小,从另一方面看,也就是反映着估计值平均数yc的代表性的可靠程度,通常剩余变差也称为估计标准误差。
估计标准误差的计算有两种方法:
公式中Syx代表估计标准误差,即x为自变量,y为因变量时的估计标准误差。
此种方法在计算时运算量比较大的,也比较麻烦,需计算出所有的估计值。如果已经有了直线回归方程的参数值,可用下面方法计算。
五、运用回归方程分析时注意的问题
用回归方程分析变量之间的变动关系,是一种科学的方法,在计算和应用时,应注意如下几点:
(一)在定性分析的基础上进行定量分析,是保证正确运用回归分析的必要条件。
(二)在回归方程中,回归系数的绝对值只能表示自变量与因变量之间的联系程度所用计算单位的大小。
(三)应用回归分析方法进行推算或预测时要注意条件的变化。
(四)注意社会经济现象的复杂性。
(五)在进行回归分析时,最好要与相关分析、估计标准误并同时使用。
时间数列分析与预测
本章重点内容:本章主要讲授时间数列的编制,动态发展水平与速度,动态趋势分析与预测等。难点是动态水平指标和速度指标的计算,各指标之间的关系和应用条件。
第一节 时间数列的编制
一、时间数列的概念和作用
时间数列就是将反映社会经济现象数量特征的统计指标值按时间的先后顺序排列所形成的数列,又称动态数列。
表5—1 我国历年国民经济状况时 间
1994
1995
1996
1997
1998
工业产值(亿元)
70176
91894
99595
113734
119693
轻工业产值所占比重(%)
46.3
47.3
46.1
49.0
49.3
年末人口数(万人)
119850
121121
122389
123626
124810
平均工资(元)
4538
5500
6210
6470
7479
时间数列由两个基本要素组成:现象所属时间(t)和各个时间所对应的统计指标值(Y)。即时间数列由两个互相对应的两个数列构成:时间顺序变化数列和统计指标变化数列。
编制时间数列的主要目的是用于开展时间数列分析:了解现象过去的活动过程,评价当前的状况和对未来的决策,因而是统计的重要方法之一。
(一)通过编制动态数列,可以反映社会经济现象的发展变化及历史状况,还可以根据动态数列计算各种时间动态指标数值,以便具体深入地揭示现象发展变化的数量特征。
(二)通过动态数列,可以揭示社会经济现象的数量变化趋势,以便进一步研究确定这种趋势和波动是否有规律性的反映。当有季度或月份资料的动态数列时,可以确定是否存在季节变动和季节变动的数量表现。
(三)通过动态数列,可以对某些社会经济现象进行动态趋势预测,是统计预测方法的一个重要内容。
(四)利用不同的动态数列进行对比,或不同国家(或地区)间的相同动态数列对比是对社会经济现象进行统计分析的重要方法之一。
二、时间数列的种类
时间数列按其指标性质不同,可以分为绝对数时间数列、相对数时间数列和平均数时间数列三大类。其中绝对数时间数列又称之为总量指标时间数列,是基本数列,其余两种是派生数列。
1.总量指标时间数列是由总量指标按时间的顺序排列而成的数列。如表5-1。总量指标时间数列按指标所反映的时间状况不同又可分为时期数列和时点数列。
时期数列是时期时间数列的简称,其数列指标是反映现象在一段时间数列内发展过程的总量,如:总产量、总产值等。
时期数列有以下几个特点:(1)数列中各个时期的指标数值可以相加。 (2)数列中每一个指标数值的大小与其所包括的时期和长短有直接关系。 (3)时期数列具有连续统计的特点。
时点数列有如下几个特点:(1)数列中每个指标数值是不能相加的。 (2)数列中每个指标数值的大小与其时间隔长短没有直接联系。 (3)时点数列指标值不具有连续统计的特点。
2.相对指标时间数列数列和平均指标时间数列数列,是分别由相对指标和平均指标按时间数列顺序排列而形成的数列。由于相对指标和平均指标是由两个总量指标派生而来的,总量指标有时期指标和时点指标,从而相应构成不同的时间数列数列。在相对数列动态数列中,各个指标数值是不能相加的。
3.平均数动态数列中各个指标值也是不能相加的。因为各平均数相加后是毫无意义。三、时间数列数列的编制原则
编制时间数列的目的,是通过各个时期指标值的对比,来研究社会经济现象的发展变化及其规律性。因而各时期指标值的可比性乃是编制时间数列数列的基本条件。其可比性具体如下:
(一)时间长短统一。不论时期数列还是时点数列都应尽量保持时间数列的时间的可比性,包括时期数列的时期跨度和时点数列的时点间隔的一致性。否则就很难从数列的指标数值变化上直接作出判断和比较或更准确地反映现象的发展趋势和变化规律。但这个原则不能绝对化,有时在特殊的研究目的下,可将时期不同的指标编成为动态数列进行比较。例如,为反映我国钢产量的发展情况,可以把“六五”、“七五”计划时期的钢产量同第一个五年计划和解放前旧中国几十年的钢产量总和进行对比分析。
(二)总体范围统一。在同一时间数列中总体范围前后应该一致,若有变化,指标数值就不能直接对比,而必须经过调整后才能进行比较。
(三)计算方法、价格和计量单位的统一。计算方法有时也可以叫做计算口径。例如要研究企业劳动生产率的变动,产量指标是用实物量指标还是用价值量指标,人数指标是用全部职工人数还是用生产工人数,若进行动态对比,前后应一致。再如,要把不同时期的工业产值进行对比,就要注意到价格水平的变动,是采用不变价,还是用现行价格,在前后时期对比时,价格应一致。
(四)指标的经济含义统一。即使经济指标的名称是相同的,其所包含的经济含义有可能是不一样。在实际工作中应注意不同历史时期、不同国家或地区的同一指标的经济内容的一致性。如农业总产值指标,在1984年前包含村办工业产值,而在1984年以后则不包含这一部分内容。这样1984年后的农业总产值的内容就不尽相同,在进行动态分析时要注意这一点,对指标适当调整后,才可对比。
第二节 时间数列分析指标
在编制时间数列的基础上,为了反映社会经济现象在不同时间条件下的发展变化、研究事物的发展变化规律,需要进行各种动态分析,其中基础的方法就是通过对比分析计算各种动态分析指标,来反映社会经济现象在不同时间条件下的发展变化。常见的动态分析指标有:
水平分析指标:发展水平、平均发展水平、增长量、平均增长量;
速度分析指标:发展速度、平均发展速度、增长速度、每增长1%的绝对值、平均增长速度。
一、时间数列的水平指标
(一)发展水平
发展水平是时间数列中具体时间条件下的指标数值,又称时间数列水平。是计算其他动态分析指标的基础,多用ai表示。
(二)平均发展水平
平均发展水平又称之为序时平均数,它是将整个时间数列作为一个整体,反映这个整体的一般水平。序时平均数与一般的算术平均数虽然都是通过具体数值计算,反映整体的一般水平,但两者也存在着明显的差异,主要表现在:
1.序时平均数平均的是事物在不同时间上的数量差异;算术平均数平均的是总体各单位某一数量标志在同一时间上的数量差异。
2.序时平均数是从动态上说明某一事物在不同时间上发展的一般水平;算术平均数是从静态上说明同一事物总体不同单位在同一时间上的一般水平。
3.序时平均数是根据时间数列计算的;算术平均数是根据变量数列计算的。
序时平均数的计算,由于不同时间数列具有不同特点需要用不同的方法,现分别讨论如下:
(1)根据绝对数时间数列计算序时平均数。
由前述可知,在绝对数时间数列中主要是由总量指标所构成的时间数列,而总量指标根据其时间状况不同又可分为时期指标与时点指标,并分别构成时期数列与时点数列。时期数列与时点数列各自所具有的不同特点,使得在平均指标的计算上具有明显的差异。
①由时期数列计算序时平均数。
由于时期数列中的各项指标数值都是反映社会经济现象在一定时期内的过程总量,具有可加性,因此我们可以采用简单算术平均的方法计算序时平均数,即将时期数列中研究范围内的各项指标数值之和除以时期项数来得到。计算公式为:
例如,已知某企业一季度产值为500万元,二季度产值为720万元,三季度产值为900万元,四季度产值为1140万元,计算该企业全年平均季度产值;
全年平均季度产值=(500+720+900+1140)/4=815(万元)
②时点数列序时平均数。要精确计算时点数列序时平均数就应该有每一瞬间都登记的资料。这在实际中几乎是不可能的,所以习惯上以天为单位作为瞬间即一时点。即使这样也较繁杂。通常的作法有两种:一是每隔一段时间登记一次,时点定在月(季、年)初或末,每次登记的间隔相等;二是只当现象的数量发生变化时登记,每次登记的间隔不等。两种情况下计算序时平均数的方法有所不同:
“首尾折半法”——用于间隔相等的时点数列:
“两两平均法”——用于间隔不等的时点数列:
例题见教材P284,285
(2)由相对指标或平均指标计算序时平均数。
相对指标或平均指标时间数列是由互相联系的两个总量指标时间数列加以计算的在相对指标或平均指标背后掩藏着与之相适应的绝对数,我们不能象总量指标时间数列那样直接计算序时平均数。只能按照数列的性质,分别计算分子、分母两个基本点总量指标时间数列的序时平均数,然后加以对比。所以,总量指标时间数列的序时平均数是基本方法,从相对指标或平均指标时间数列计算序时平均数,也应以此为基础。其算式一般写为:
式中“=”左边代表相对指标或平均指标的序时平均数,右边分子、分母分别代表子项和母项总量指标的序时平均数。在这里a、b作为总量指标时间数列(时点或时期)有三种可能:
①a、b均为时期数列。②a、b均为时点数列。③a、b一个为时点数列一个为时期数列。
例题见教材P287
(三)、增长量
增长量就是报告期水平与基期水平之差,用公式表示为:
增长量=报告期水平-基期水平=a1-a0
在增长量的计算中,由于报告期水平可以大于基期水平,也可以等于或小于基期水平,所以增长量可以是正值,也可以是零或负值,它们分别表示正增长、零增长或负增长。
由于基期的确定方法不同,增长量可分为逐期增长量与累计增长量。逐期增长量是报告期水平减去基期水平说明现象逐期增长的数量;累计增长量或累积增长量则是报告期水平与某一固定期水平(通常为a0)的差额,说明事物某一时期内的总增长量:
逐期增长量=a1-a0,a2-a1,……,an-an-i
累计增长量=a1-a0,a2-a0,……,an-a0
我们不难得出如下结论:①累计增量等于逐期增量之和,即:
(a1-a0)+( a2-a1)+……+(an-an-i )= an-a0
②相邻两期累计增长量之差等于相应的逐期增量
在实际统计分析工作中,为了消除季节变动的影响,增加可比性,常计算本期发展水平与上年同期水平的增减数量,称为年距增长量。
平均增长量是增长量的序时平均数,说明现象在一定时期内平均每期增长的数量,较常用的方法有两种:一是水平法,它是将各个逐期增长量相加之后除以逐期增长量的个数,或累计增量除以时间数列项数减1,用公式表示为:
水平法:平均增长量=逐期增长量之和除以逐期增长量个数总和法:要求用平均增长量Δ推算的各期理论水平之和等于各期实际水平之和二、时间数列速度指标
(一)、发展速度发展速度是以相对数形式表示的动态指标,是两个不同时期发展水平指标对比的结果。主要用来说明报告期的水平是基期水平的百分之几或若干倍。公式为:
发展速度=报告其水平/基期水平
发展速度由于采用的基期不同,可分为定基发展速度和环比发展速度。定基发展速度是报告期水平与某一固定时期水平之比,说明社会经济现象在一个较长时期内的变动程度;环比发展速度是各期水平与前一期水平的对比,表明报告期的水平对比前一期水平的逐期发展变化的情况,用算式表示为:
环比发展速度:
定基发展速度:
很显然,定基发展速度等于相应各时期环比发展速度的连乘积。
(二)、平均发展速度指标各时期环比发展速度的序时平均数,用以说明现象在较长时间发展变化的平均速度。
由于现象发展的总速度等于各期环比发展速度的连乘积,所以求环比发展速度的平均数一般应用几何平均数公式计算。
(三)、增长速度指标各期增长量与基期水平之比,说明现象各期增长变化的相对程度。其公式为:
增长速度==发展速度—1
增长速度与发展速度一样也有定基和环比之分。
平均增长速度指标综合说明现象的递增的递增的速度。它直接从平均发展速度减1求得。若已知各期的环比增长速度求平均增长速度,应先求现象的平均发展速度,然后减1取得:
平均增长速度=平均发展速度-1
第三节 时间数列的构成分析时间数列的构成可以分成四类:长期趋势、循环变动、季节变动和不规则变动。把这些变动与时间数列的关系用一定的数学关系式表示,就构成了时间数列的分解模型。其种类有很多,其中加法模型和乘法模型是最基本的。
加法模型Y=T+C+S+I
乘法模型Y=T×C×S×I
式中Y表示时间数列(总变动),T表示长期趋势,C表示循环变动,S表示季节变动,I表示不规则变动。
一、长期趋势测定
长期趋势是指现象在较长时期内持续发展变化的方向和状态。研究长期趋势,对正确认识事物发展变化的数量规律有中要意义。
长期趋势是现象在一段较长的时间内,由于普遍的、持续的、决定性的基本因素的作用,使发展水平沿着一个方向,逐渐向上或向下变动的趋势。
在一个长时期的动态数列中,影响数列中指标数值升降变动的因素是多方面的,除了长期趋势外,另有一些因素短期起作用,造成短期的波动,还有一些偶然性因素,造成不规则的偶然变动,在按月或按季资料中,有不少现象还存在季节变动。在一个动态数列中,这几种变动往往是互相交织在一起的。现象变动的长期趋势就体现在这种多因素相互交织作用所形成的波动中,只有把波动修匀之后,才能体现出趋势的状态和走向。 长期趋势的测定,就是用一定的方法对动态数列进行修匀,使修匀后的数列排除季节变动,偶然变动等因素的影响,显示出现象变动的基本趋势,作为预测的依据。
(一)移动平均法
移动平均法是通过对原有的时间数列进行修匀,以测定长期趋势的一种比较简单的方法。即对时间数列采用逐项移动的办法按一定时期分别计算一系列序时平均数,形成一个派生的时间数列。
所谓移动平均,就是从动态数列的第一位数值开始,按一定项数求序时平均数,逐项移动,边移动边平均。这样就可以得到一个由移动平均数构成的新的动态数列,这个派生的新动态数列把原数列中的某些不规则变动加以修匀,变动更平滑,趋势倾向更明显,可以更深刻地描述现象发展的基本趋势。
移动平均项数的确定是一个重要问题,因为移动项数多少直接影响修匀的程度。一般说来,移动项数越多,修匀的作用就越大,而所得出的移动平均数的项数也就越少;反之,移动项数越少,修匀的作用就越小,所得出的移动平均数的项数也就越多。移动项数的确定应注意动态数列水平波动的周期性。一般要求移动项数与周期变动的时距相吻合,或为它的整倍数。比如,对于具有季度或月份水平资料的时期数列,经受每年季节性的涨落,主要必须清除季节变动因素,以运用4项或8项移动平均为宜。在以年为单位的数据所形成的动态数列中,所要清除的是循环变动和不规则变动因素,这时,可借助于动态数列水平的观察,看一看循环周期大体是几年,就相应采用几年移动平均。而且宜用奇数项较简便,每次移动平均值应对准所平均时期的正中间,奇数项平均数正好对着中间时期,一次平均即可,偶数项移动平均因为中点错了半期,需要再作一次两项移动平均才能正过来。可见,偶数项移动平均,计算较繁,故一般多用奇数移动平均。采用移动平均法测定事物发展的长期趋势,其优点是简单易行,便于操作,同时它的局限性亦很明显。
(二)最小二乘法
最小二乘法是测定长期趋势的常用方法,又称数学模型法。是利用趋势方程来描绘数列长期趋势进而进行未来预测的一种统计方法。
Yc=a+bt
Yc时间数列的趋势值
a、b直线趋势方程的截距、斜率
t 时间标号
据∑(y-yc)2=最小值,利用微分求极值原理,可得到
若,意味着实际中的原点是随着研究的范围的变化而不同,趋势方程的原点的移动,给计算带来了较大的便利。若数列为奇数项,中间项的时间序号t被设为0,则数列的时间顺序分别为……-3,-2,-1,0,1,2,3,……那末,∑t=0。若数列为偶数项,原点可设在中间两项的中点,则t值分别为……-5,-3,-1,(0)1,3,5,……如此,同样可使∑t=0。于是系数a、b的计算式便可得到简化:
尽管两方程原点不一样,但预测的结果完全一致。
现实生活中,大量的现象是非线性发展的,因此,研究长期趋势变动的各种曲线类型是十分必要的。当客观现象的发展呈曲线变动时,仍然可以用最小平方配合曲线,求趋势值。曲线种类很多,这里就不介绍了。
二、季节变动及测定
季节变动是指现象随着季节的变动而引起的比较有规则的变动。认识和掌握这种变动规律,对于组织生产、安排人民生活等都具有重要意义。研究季节变动,对于正确认识现象整体的发展变化规律性,也具有重要意义。例如,农牧业生产就是典型的季节性生产,并且也影响以农牧业产品为原料的加工工业的生产、商业部门对农牧产品的购销以及交通运输部门的货运量方面,使得它们的生产经营也带有季节性。又如在北方,建筑业的生产冬季就要受到影响,日常生活人们对四季服装的需求季节性也很明显。季节变动的原因,主要是自然季节、气候的影响,同时也与人们的生活习惯、作息制度有关。自然季节的更替不以人们的意志为转移,人们的生活习俗、作息制度也较稳定,因而季节性变动是规律性较强的变动。这主要表现在季节变动通常以一年为周期有规律地重复变动,而且各周期的变动幅度大致相同。
季节变动对某些部门的生产经营活动和人们的经济生活有一定的影响,所以要对它进行测定,看看它的规律性和变化情况。测定季节变动对实际工作有重要意义。首先,掌握了季节变动的规律性,有利于指导工作。我们研究社会经济现象的季节变动的主要目的,就是在于考察在一定历史条件下已经形成的季节变动的规律性,掌握其变动的幅度,不仅有助于有关部门和企业制定计划、合理组织货源,准备原料进行生产,有效地使用资金,取得较好的经济效益,而且可以提高为人民经济生活服务的质量。其次,可根据季节变动规律性进行经济预测。季节变动的规律性强,可据此进行短期预测,得到比较准确的结果;同时,利用季节变动规律配合长期趋势进行长期预测,可以大大提高预测的准确性。
(一)简单平均法
简单平均法又称按月(季)平均法。计算时,首先根据历年(三年以上)同月(季)资料求出该月(季)的平均数,然后将各月(季)的平均数与总平均数相比,得到季节比率(指数)。其计算步骤与方法如下:
1、分别就每年各月的数字加总后,求各该年的月平均数;
2、各年同月数字加总,求若干年内同月的平均数;
3、若干年内每个月的数字总计,求总的月平均数;
4、将若干年内同月的平均数与总的平均数相比,即得季节比率,也叫季节指数。
季节比率=各月(季)的平均数除以总平均数
按月或季平均法计算季节比率要求至少三个周期以上的资料,具体来说按月平均不能少于36个月的资料;按季平均不能少于12个季的资料。
(二)、趋势剔除法
这种方法的特点是将移动平均数作为长期趋势加以剔除,再测定季节变动。所以又称之为移动平均趋势剔除法。
其具体计算步骤:1)据各年的月(季)资料Y计算12项(4项)移动平均T;2)计算修匀比率:Y/T;3)将Y/T按月(季)排列,求同月(季)的平均值,再与总平均比即得季节比率。
全年12个月(4个季度)的季节比率和为1200%(或400%)我们可以以此为准,来验证计算的正确与否并且当各月的季节比率之和不等于1200%时,可以进一步计算调整系数,用这个系数分别乘以各月的季节比率即可得到调整后的季节比率。
第七章 指数分析
本章是本课程的重点,也是难点。主要讲授统计指数的概念和分类,总指数的综合形式,总指数的平均形式,指数体系与因素分析等。关键是讲清楚各种指数(指数体系)编制的基础、编制的原则、编制的方法和应用的条件。
第一节 统计指数的概念与分类一、统计指数的概念广义上说,指数是指用来反映研究所研究社会经济现象总体数量变动状况的相对数。
狭义上说,指数是指用来综合反映所研究社会经济现象复杂总体数量变动状况的相对数。
二、统计指数的分类按所反映的对象范围不同,统计指数分为个体指数和总指数。
按所表明现象的数量特征不同,统计指数分为数量指标指数和质量指标指数。
总指数按其所采用的指标形式不同,可以分为综合指数与平均指数。
按比较对象不同,统计指数可分时间性指数、地区性指数和计划完成指数。
在指数数列中按所采用的基期不同,统计指数可分为定基指数和环比指数。
三、统计指数的性质
1.综合性。
2.代表性。
3.相对性。
4.平均性。
四、指数在经济分析中的作用
1.综合地反映复杂经济现象总体的变动方向和程度。
2.分析在现象总体的变动中,各构成因素影响的大小。
第二节 综合指数
一、综合指数的概念及计算的一般原理
指数方法论主要是研究总指数的计算问题,总指数的编制方法,其基本形式有两种:一是综合指数,二是平均指数。两种方法有一定的联系,但各有其特点。
综合指数是对两个时期范围相同的复杂现象总体总量指标对比形成的指数,在总量指标中包含两个或两个以上的因素,将其中被研究因素以外的一个或一个以上的因素固定下来,仅观察被研究因素的变动,这样编制的指数,称为综合指数。
综合指数的重要意义,是它能够比较全面、准确地反映所研究的现象总体总的变动程度和随之产生的绝对数效果。
它的特点是先综合后对比。其编制方法是:首先引入同度量因素,解决复杂总体在研究指标上不能直接综合的困难,使其可以计算出总体的综合总量;其次,将同度量因素固定,以消除同度量因素变动的影响;最后将两个时期的总量对比,其结果即为综合指数,也就综合地反映了复杂总体研究指标的变动。
例如甲乙两种产品,由于使用价值不同,计量单位不同,其产量是不能直接相加的,但不同产品的价值量可以相加。因此,我们可以利用产值与产量和价格之间的联系,将产量乘以各自的价格,得到产值,则两种产品便可以加总了。这里,价格起到将不同产品同度量的作用,被称为同度量因素。我们所要研究的指标——产量,被称为指数化指标。如果我们的任务是研究甲乙两种产品的价格变动情况,同样的道理,则可把价格作为指数化指标,仍然依据产值、价格与产量间的经济联系,把产量作为同度量因素,从而将两种产品综合起来。同时还要将同度量因素固定,消除同度量因素变动的影响。在本例中,作为同度量因素的价格,报告期对基期也可能发生变动,这样,将两个时期的产值对比,就不仅受到产品产量变动的影响,同时也受到两个时期价格变动的影响。因此,需要将价格固定,即两个时期的产值,均采用同一时期的价格计算,借以消除价格变动的影响。将采用同一时期价格计算的两个产值对比,其结果仅受到两种产品不同时期产量变动的影响,从而达到综合反映两种产品产量变动的目的。实际应用中,还有一个重要的问题需要解决,即固定的同度量因素所属时期的选择问题。究竟固定在报告期还是固定在基期,十分重要,因为同度量因素不仅起同度量的作用,而且具有加权的作用,用不同时期的同度量因素计算,会得到不同的综合指数结果。
二、数量指标综合指数的编制
现以商品销售量综合指数的编制为例来说明数量指标综合指数编制的一般原则和方法。
现以Iq代表销售量总指数,于是有:
(1)用基期价格为同度量因素(加权),公式为:
上述公式又称拉氏数量指数公式,它是1864年由德国学者拉斯贝尔提出的。
(2)用报告期价格为同度量因素(加权),公式为:
这个公式又称派氏数量指数公式,它是1874年德国学者派许提出的。
从理论上讲上述两个公式均可成立,但在实际工作中,编制销售量综合指数时,一般均采用基期价格作为同度量因素。这是因为编制销售量综合指数的目的,是在于要排除价格因素的影响,单纯反映销售量的总变动。为此,必须将价格固定在基期上,这才符合经济现象的客观实际。
编制数量指标综合指数的一般原则是采用基期的质量指标作同度量因素。这一原则有两层含义:一是编制数量指标指数应以质量指标作同度量因素,二是将同度量因素固定在基期。
三、质量指标综合指数的编制
与计算商品销售量综合指数相似,计算价格综合指数时,也需要把作为同度量因素的商品销售量所属的时期固定。同样有拉氏与派氏两种指数公式可供使用。
以Ip代表价格综合指数,则有:
(1)用基期销售量为同度量因素(加权),得出拉氏价格指数公式为:
(2)用报告期价格为同度量因素(加权),得出派氏价格指数公式为:
从实际效果来看,人们更关心的是在报告期现实销售量的条件下,价格变动的幅度和所产生的经济效果,因此,把销售量固定在报告期用派氏价格指数计算更有实际意义。据此,可以得出:编制质量指标综合指数的一般原则是采用报告期的数量指标作同度量因素。这一原则有两层含义:一是编制质量指标指数应以数量指标作为同度量因素;二是将同度量因素固定在报告期。
表6-1 某企业三种产品的价格与产量资料产品
价格(千元)
产量(台)
产值
基期p0
报告期p1
基期q0
报告期q1
q0p0
q1p1
q1p0
A
40
42
200
240
8000
10080
9600
B
30
33
800
880
24000
29040
26400
C
60
68
500
480
30000
32640
28800
合计
—
—
—
—
62000
71760
64800
计算三种产品的产量指数和价格指数。
产量指数:
说明报告期与基期相比,三种产品的产量增加了4.52%。
说明报告期与基期相比,三种产品的产量增加了4.52%,而使得产值增加了2800000元。
价格指数:
说明报告期与基期相比,三种产品的价格上涨了10.74%。
说明报告期与基期相比,三种产品的价格上涨了10.7%,而使得产值增加了6960000元。
四、综合指数的应用
综合指数的应用很广,在我国和其他各国,都有很多指数采用这种方法计算。下面来考察常用的几个方面。
(一)工业产量(产值)指数
我国现行统计制度规定,工业总产值按统一规定的不变价格计算。于是,把不同年份的工业总产值对比所确定的动态指标,就是工业产量指数。它是以不变价格为权数(同度量因素)的固定加权综合的指数,用公式表示如下:
pn表示不变价格;
qpn表示按不变价格计算的工业总产值。
用按不变价格计算的工业总产值来编制工业产量指数,具有如下优点:
便于长时期工业产量动态分析,观察工业产值增长变化趋势及其规律性。
环比指数数列的连乘积等于定基指数,因而便于定基指数和环比指数之间的相互换算。
(二)地区物价比较指数
前已述及,指数理论主要应用于现象变动的动态研究,但是随着社会经济的发展和科学技术的进步,它已拓展到应用地区之间的综合比较。物价是经济领域中最富有敏感性的现象,因此需要编制物价对比的地区性指数。凡是在企业之间、地区之间甚至国家与国家之间相互比较的指数,都可称为地区性指数。编制地区性指数,人们所关心的是从对比中找出差距,以便挖掘潜力,为领导决策提供依据。因此,在编制物价的地区性指数时,一般以对比基准地区的物量为同度量因素,即编制对比基准地区物量加权综合指数。例如,比较甲乙两个城市全部商品的物价水平,甲城市为对比的城市,乙城市作为对比基准的城市,则物价地区性指数的计算公式为:
(三)成本计划完成指数
检查成本计划执行情况时,需要编制成本计划完成指数。检查成本计划执行情况,一般有两种不同的要求:一种是检查包括可比产品和不可比产品在内的全部产品成本计划完成情况,在这种场合,直接用计划产量为同度量因素(权数),加权综合求得成本计划完成指数,其计算公式为:
式中,z1为报告期实际单位产品成本;
zn为计划单位产品成本;
qn为计划产量。
另一种是检查可比产品成本降低计划完成情况,在这种场合,编制计划时,计划成本指数是在基期的基础上制订的,采用的权数是计划产量。
第三节 平均指数
一、平均指数的概念及与综合指数的关系
平均指数是计算总指数的另一种形式,它是在个体指数的基础上计算总指数。在解决复杂总体各组成要素不能直接相加与综合的问题上,平均指数与综合指数是不同的。平均指数是个体指数的加权平均数,它是先计算个体指数,然后将个体指数加权平均而计算的总指数。
平均指数和综合指数是计算总指数的两种形式,它们之间既有区别,又有联系。从区别看,一是在解决复杂总体不能直接同度量问题的思想不同。综合指数是通过引进同度量因素,先计算出总体的总量,然后进行对比,即先综合,后对比。而平均指数是在个体指数的基础上计算总指数,即先对比,后综合。二是在运用资料的条件上不同。综合指数需要研究总体的全面资料,起综合作用的同度量因素的资料要求比较严格,一般应采用与指数化指标有明确经济联系的指标,且应有一一对应全面实际资料,如计算产品实物量综合指数,必须一一掌握各产品的实际价格资料。平均指数则既适用于全面的资料,也适用于非全面的资料。三是在经济分析中的具体作用亦有区别。综合指数的资料是总体的有明确的经济内容的总量指标。因此,总指数除可表明复杂总体的变动方向和程度外,还可从指数化指标变动的绝对效果上进行因素分析。平均指数除作为综合指数变形加以应用的情况外,一般只能通过总指数表明复杂总体的变动方向和程度,而不能用于对现象进行因素分析。
平均指数和综合指数的联系主要表现为在一定的权数条件下,两类指数间有变形关系。由于这种变形关系的存在,当掌握的资料不能直接用综合指数形式计算时,则可以用平均指数形式计算,这种条件下的平均指数与其相应的综合指数具有完全相同的经济意义和计算结果。
二、平均指数的种类
(一)加权算术平均指数
1.用综合指数变形权数计算加权算术平均指数。
在一定条件下,加权算术平均指数可以是拉氏综合指数的变形。
K表示个体物量指数
以p0q0为权数,加权算术平均指数可以成为综合指数的变形。
2.用固定权数计算加权算术平均指数
当权数不是综合指数中的p0q0,而是某种固定权数W时,称为固定权数加权算术平均指数。W是经过调整计算的一种不变权数,通常用比重表示。这时加权算术平均指数与综合指数不存在变形关系,两者计算结果不会一致。
设个体指数为K,固定权数加权算术平均指数的一般表达式为:
以固定权数计算的加权算术平均指数在国内外统计工作中得到广泛的应用。如我国每年编制的商品零售物价总指数就是用固定加权平均法计算的。
下面以消费品零售物价指数为例,说明固定权数加权算术平均指数的编制方法。
表6-2 某市消费价格指数和权数资料消费品种类
类指数(%)K
固定权数(%)W
KW
食品类
150
55
8250
衣着类
120
25
3000
日用品类
140
10
1400
文化娱乐用品类
110
4
440
医药类
104
2
208
书报杂志类
102
1
102
燃料类
120
3
360
合计
—
100
13760
(三)加权调和平均指数
1.用综合指数变形权数计算的加权调和平均指数。
在一定条件下,加权调和平均指数可以是派氏综合指数的变形。
K表示个体物量指数以p1q1为权数,加权调和平均指数就是综合指数的变形。
2.用固定权数计算的加权调和平均指数
把权数定为某种固定权数W,加权调和平均指数公式为:
第四节 指数体系及因素分析
一、指数体系的概念与作用
(一)指数体系的概念
由三个或三个以上具有内在联系的指数构成的有一定数量对等关系的整体,叫指数体系。指数体系的形式不是随意的,它是由现象间客观存在的必然联系决定的。
例如:
商品销售额=商品销售量×商品价格
产品产值=产品产量×产品价格
上述这些现象在数量上存在的联系,表现在动态变化上,就可以形成如下指数体系: 商品销售额指数=商品销售量指数×商品价格指数
产品产值指数=产品产量指数×产品价格指数
在指数体系中,包括的指数分为两大类:一类是反映现象总变动的指数,通常表现为广义的总指数,这类指数在一个指数体系中只有一个,一般放在算式的左边。另一类是反映某一因素变动的指数,称为因素指数,这类指数在一个指数体系中可以是多个,一般放在等式的右边。
(二)指数体系的作用
1.可以进行因素分析。
2.可以进行指数间的互相推算。
二、总量指标变动的指数分析
(一)总量指标的两因素分析对复杂现象总体的总量指标进行因素分析,要在编制综合指数的基础上进行。例如,要分析多种商品销售额的变动,就要编制出商品销售额指数用来反映总的变动情况,以商品销售量综合指数和商品价格综合指数为因素指数,分别反映销售量和价格两个因素的变动对销售额变动的影响。现仍用表6-1资料进行分析。
产品产值指数=产品产量指数×产品价格指数
=
(1)产值指数:
(2)产量指数:
(3)价格指数:
(4)指数体系:
(5)说明:
说明三种商品销售额报告期比基期总的增长了11.57%,绝对额增加9760000元,是由于三种商品销售量总的增长了4.52%,使销售额增加2800000元;价格总的上升了10.74%,使销售额增加6960000元两个因素共同作用的结果。
显然,本例销售额的增长是销售量和价格两个因素共同增长的结果,其中价格上涨起了主要的作用。
(二)总量指标的多因素分析
客观现象是比较复杂的,有时某一现象的变动可能要受到三个或三个以上因素的影响。当一个总量指标可以表示为三个或三个以上因素指标的连乘积时,同样可以利用指数体系测定各因素变动对总变动的影响,这种分析就是对总量指标的多因素分析。例如:原材料费用总额=总产量×单位产品原材料消耗量×单位原材料价格
qmp=q×m×p
在运用多因素分析法时,一定要注意各因素的排列顺序。各因素之间的排列顺序,要符合它们之间相互联系的客观情况,一般是数量指标在前,质量指标在后;各因素的替换必须依据它们之间的客观经济联系,由数量指标到质量指标,按顺序逐次替换。在分析各因素的变动时,可以按综合指数确定同度量因素的一般原则进行,即分析质量指标的变动时将数量指标固定在报告期,分析数量指标的变动时将质量指标固定在基期。 根据这个原则,原材料费用总额指数可以分解为由三个指数构成的指数体系。
原材料费用总额指数=生产量指数×单位产品原材料消耗指数×单位原材料价格指数
例题见教材P262。
三、平均指标变动因素分析
(一)平均指标变动因素分析的意义
平均指标是表明社会经济总体一般水平的指标。总体一般水平决定于两个因素:一个是总体内部各部分(组)的水平,另一个是总体的结构,即各部分(组)在总体中所占的比重。总体平均指标的变动是这两个因素变动的综合结果。平均指标变动的因素分析,就是利用指数因素分析方法,从数量上分析总体各部分水平与总体结构这两个因素变动对总体平均指标变动的影响。例如,一个部门的劳动生产率水平决定于部门内各单位(组)的劳动生产率水平和不同劳动生产率水平的单位(组)在部门内的比重两个因素。通过因素分析,可以弄清这两个因素各自影响的方向程度和数量,从而对部门劳动生产率的变动能有深入地认识。
平均指标变动的因素分析是一种重要的统计分析方法,对经济管理与研究有重要的意义。影响总体平均指标变动的上述两类因素具有不同的性质。总体各部分的水平,主要取决于各部分内部的状况,反映了各部分内部各种因素的作用。而总体结构则是一种与总体全局完全有关的因素,总体结构状况确定着总体的一些基本特征。经济管理与研究的一项重要任务就是优化结构,使结构合理化。平均指标的因素分析,为这方面的深入研究提供了重要依据。
(二)平均指标变动因素分析的方法
依据指数因素分析法的一般原理,便可列出平均指标变动因素分析的指数体系。其指数体系为:
相对数:
绝对数:
令则平均指标变动因素分析的指数体系可用如下简明形式表明:
上述列出的指数体系包括了三个指数,依次被称为可变组成指数、固定构成指数、结构影响指数。
1.可变组成指数,简称可变指数是根据报告期和基期总体平均指标的实际水平对比计算的,包括了总体各部分(组)水平和总体结构两个因素变动的综合影响。它全面地反映了总体平均水平的实际变动状况。在结构影响较大的情况下,可变构成指数的数值有可能超出各个部分的变动程度范围。也就是说,与各个部分(组)的指数相比较,有可能比最大的部分指数还大,也有可能比最小的部分指数还小。
2.结构影响指数,它是将各部分(组)水平固定在基期条件下计算的总平均指标指数,用以反映总体结构变动对总体平均指标变动的影响。
3.固定构成指数,它是将总体构成(即各部分比重)固定在报告期计算的总平均指标指数。该指数消除了总体结构变动的影响,专门用以综合反映各部分(组)水平变动对总体平均指标变动的影响。因而,在其数值表现上,它总是介乎于各部分(组)指数的范围内。事实上,固定构成指数是各个部分(组)指数的加权算术平均数。
(三)应用举例
表6-3 某企业生产情况产品
产量(吨)
生产工人数(人)
劳动生产率(吨)
基期
报告期
基期f0
报告期f1
基期f0
报告期f1
甲
100
156
100
130
1.0
1.2
乙
76.5
85.5
85
90
0.9
0.95
合计
—
—
185
220
—
—
现以该例说明平均指标变动指数因素分析的方法。
劳动生产率指数:
(2)固定结构指数:
结构变动影响指数:
(4)指数体系:
115.58%=114.38%×101.05%
绝对数变动的关系是:
0.148=0.138+0.01
(5)说明:
该企业劳动生产率提高了15.58%,使企业每个工人平均增加0.148吨产,是由于各车间劳动生产率提高了14.38%,使得每人平均多生产0.138吨,各车间工人人数增加了1.05%,使得每人平均多生产0.01吨,两个因素共同作用的结果。
第五节 两种指数体系的结合运用
在分析现象总量的变动情况时,有时仅仅使用总指数体系或平均指标指数体系进行分析是不够的,因此,还要把两种指数体系结合起来应用,现以工资总额的因素分析为例来加以说明。
工资总额=平均工资×职工人数
工资总额指数=平均工资指数×职工人数指数
总参考书目
1.黄良文主编:《统计学原理》,中国统计出版社2002年10月,“九五”国家级重点教材。
2.编写组:《社会经济统计学原理教科书》,中国统计出版社1994年版。
3.〔苏〕A.博亚尔斯基等著,陈仁恩等译:《统计学原理》中国统计出版社。
4.〔美〕A.M.穆德等著,史定华译:《统计学导论》,科学出版社出版。
5,杨曾武主编:《社会经济统计学原理》,天津科学技术出版社1995年版。
6.杨坚白、莫曰达、冯杞靖、邵祥能:《统计学原理》,上海人民出版社1994年版。
7.黄良文:《统计学原理问题研究》,中国统计出版社1988年版。
8.陈上珠:《应用统计》,经济科学出版社1997年版。
9.胡孝绳:《统计学》,香港版,1976年版。
10.黄良文:《抽样调查原理》,中央广播电视大学出版社1988年版。
11.《概率论及数理统计》编写小组:《概率论与数理统计》(下册),人民教育出版社1990年版。
12.郑德如:《回归分析与相关分析》,上海人民出版社1984年版。
13.俞大刚:《线性回归模型分析》六:预测,中国统计出版社1987年版。
14.〔日〕山根太郎著,颜金锐译:《统计学》,福建人民出版社。
15.〔美〕W.W.丹尼尔、J.C.特勒著,陈鹤琴译:《经营管理统计学》第13章,中国商业出版社出版。
16.戴世光主编:《世界经济统计概论》,人民出版社。
17.〔澳〕P.H.卡梅尔、M.波拉赛克著,崔书香,潘省初译:《应用经济统计学》,中国统计出版社。
18.钱伯海主编:《经济统计学概论》,中国财政经济出版社出版。
19.联合国经济和社会事务统计处:《社会和人口统计体系》,中国财政经济出版社。
20.崔书香,肖嘉魁,闵庆全:《国民经济核算》,人民出版社1985年版。
21.钱伯海编著:《国民经济综合平衡统计学》,中国财政经济出版社。
22.联合国:《国民经济核算体系》(93SNA),中国统计出版社1993年版。
23.David R.Anderson,Dennis J.Sweenney,Thomas A,Williams:Statistics For Businss and Economics( Secend Edition),West Publishing,1981.
24,Mendenhall,Reinmuth,Beaver,Duhan,Statistics ForManagement and Economics(Fifth Edition),.Duxbury Press,1986.
25.N.R.Draper,Applied Regression Analysis,John Wiley &Sons,1981.
26.Kleinbaum,Kupper,Applied Regression Analysis andOther Multivariable Methods.Duxbury Press,1978.