第四节 统计学的基本概念
一、统计总体与样本
二、标志与指标
三、变量一、统计总体与样本
总体与总体单位
样本
(一)总体与总体单位
1、概念
– 总体:是指客观存在的、在某种共性的基础上由许多个别事物结合起来的整体。
– 总体单位:构成总体的个别事物被称为总体单位。
例如:在工业普查中,,工业企业,就是一个总体,其中每一个工业企业就是总体单位。工业切设备普查中,总体是,工业企业的所有设备,,而总体单位是,工业企业的每一台设备,。
2、总体具有三方面的特征:
1)同质性。即构成总体的各个单位必须具有某一方面的共性,这个共性是确定总体范围的标准。
2)大量性。即总体是由许多单位组成的,
而不是仅有的少数个别单位。
– 总体根据它所包含的总体单位的数目是否有限分为有限总体和无限总体。对于有限总体既可以进行全面调查也可以进行非全面调查;而对于无限总体只能进行非全面调查。
3)差异性。即各总体单位之间,除了必须在某一方面有共性之外,其他方面必然存在差异。
– 例如工业普查中,各工业企业的经济类、行业性质、职工人数、资金总额、产值等必然存在着差异。)这些差异是统计研究的基础,如果各总体单位之间不存在任何差异,则没有必要进行统计调查和研究。
3、总体与总体单位的转化
总体和总体单位是根据统计研究的目的来确定的,随着统计研究目的的变化,总体和总体单位也会发生变化。
– 例如一个企业、一所大学,既可以是某一调查研究的总体单位,也可以是另一调查研究的总体。
(二)样本
样本:又称做抽样总体或子样,它是由从总体中按一定规则抽选出来的一部分单位所组成的一个小的整体,是总体的代表 。
在现实生活中,要么总体都是无限总体;要么总体规模较大,总体单位数量较多,因此,现代统计学所采用的研究思路一般是根据样本信息来推断总体 。
所以说,样本是现代统计学中非常重要的概念 。
注意:在一个具体问题的研究中,总体总是唯一确定的,而样本却不唯一。
二、标志与指标
(一)标志
(二)统计指标
(三)指标和标志的联系与区别
(一)标志
标志:是用来说明总体单位特征的名称。
1、标志可分为 品质标志 和 数量标志 。
品质标志:是说明总体单位质的特征的,不能用数值来表示。
数量标志:是表示总体单位量的特征,用数值来表示。
一个总体单位常常是品质标志和数量标志兼而有之,这就要求我们用不同的方法研究某一个总体单位的各个方面。
例如:调查某企业职工情况,该企业的每一个职工是总体单位,性别、民族、工种、籍贯、年龄、工资额等调查项目就是标志,其中性别、民族、工种、籍贯是说明总体单位属性特征的,为品质标志,对于品质标志只能用文字回答问题;而年龄、工资额是说明总体单位数量特征的,为数量标志,对于数量标志则需要用数字来回答问题。
2、标志还可以分为 不变标志 和 可变标志 。
不变标志:是指某一标志在各单位的具体表现是相同的,它是构成总体的必要条件和确定总体范围的标准。
可变标志:是指某一标志在各单位的具体表现不同 。
(二)统计指标
1、统计指标:是反映现象总体数量特征的概念和数值。如在工业普查中,所有工业企业构成该调查的总体,工业企业总数、工业职工人数、工资总额、平均工资、固定资产总值、利润总额等都是指标,上述指标从不同方面反映总体的数量特征。
2、指标的分类
– 按反映的内容分为:数量指标和质量指标
– 按数值表现形式分为:总量指标、相对指标、
平均指标
1)按反映内容分为 数量指标 和 质量指标
数量指标:是指反映总体的总规模、总水平或工作总量的指标。如全国人口数国民生产总值;
质量指标:是指反映是总体内部的数量对比关系或一般水平的指标。如企业男女职工比例,人均收入等。
2)按其数值表现形式不同,分为 总量指标,
相对指标 和 平均指标 。
总量指标:反映的是总体绝对数量的多少,
是以绝对数的形式来表示的。
相对指标:反映的是总体的相对水平,是以相对数的形式来表示的,如年龄的构成、性别比、人口密度等。
平均指标:反映的是总体的一般水平,是以平均数形式来表示的。
3、统计指标体系
统计指标体系:是指反映同类现象,同时相互间具有内在联系的一系列统计指标构成的整体。
(三)指标和标志的联系与区别
指标和标志的区别
– 第一,指标说明总体的特征,而标志则说明总体单位的特征;
– 第二,指标只反映总体的数量特征,所有指标都要用数字来回答问题,没有用文字回答问题的指标;而标志则既有反映总体单位数量特征的,也有反映总体单位的品质特征的,只有数量标志才用数字回答问题,品质标志则用文字回答问题。
指标和标志的联系
– 第一,许多指标的数值都是由总体单位的数量标志的标志值汇总而来的;
– 第二,由于总体和总体单位可随统计研究的目的而易位,
所以指标和数量标志在一定的条件下可转化。
三、变量
(一)变量与变量值
(二)数值变量的分类
( 一 ) 变量与变量值
变量 ( 广义 ),可变的量,包括品质变量和数值变量 。
变量 ( 狭义 ),即数值变量,是指各种可变的数量标志和所有的统计指标,它都是以数值表示的 。
变量值:是变量的具体表现,品质变量值表现为具体的属性;而数值变量值表现为一系列数值 。
变量及其类型变 量定序变量离散变量 连续变量定类变量 数值变量
( 二 ) 数值变量的分类
按数值变量取值是否连续可分为 连续型变量和 离散型变量 。
按性质可区分为 确定性变量 和 随机变量 。
1、按数值变量取值是否连续可分为 连续型变量 和 离散型变量
离散型变量:是指凡是变量值只能以整数出现的变量,即在任意两个相邻的取值之间不会有其他取值可取。
连续型变量:指凡变量值可作无限分割的变量,也就是说,在任意两个相邻的取值之间都可以有一系列数值存在,这些变量就属于连续型变量。
连续变量的离散化处理
在某些特殊场合,连续变量也可作离散变量处理。
– 如人口按年龄分组时,可分为 0,1,2,3……
岁,其含义是,0”表示不满 1岁,,1”表示满 1
岁而不足 2岁,,2”表示满 2岁而不足 3岁,依次类推。约定俗成,众所周知或事先明确规定,
为了确保不发生错漏统计现象,连续变量可离散化处理。
2,按性质可分为 确定性变量 和 随机变量
确定性变量:是指其取值由于受到某些确定性因素的影响,因而呈现出有规律变动的变量。
随机变量:是指由于受到众多因素的综合影响,而使其取值表现出一定的波动性与随机性的变量。统计学中所研究的变量绝大多数都属于随机变量。
– 如人的身高受遗传基因、人种、地域、气候、营养等多因素的影响,并且影响程度各不相同。
统计学中的几个主要术语
1,总体 (Population)
– 所关心的所有元素的集合
2,样本 (Sample)
– 总体的一部分
3,参数 (Parameter)
– 总体的数字特征
4,统计量 (Statistic)
– 样本的概括性测度值几种常用的统计软件
(Software)
典型的统计软件
– SAS
– SPSS
– MINITAB
– STATISTICA
– Excel
MINITAB
STATISTICA
ExcelSAS
SPSS