相关概念明晰
? 总体 —— 根据一定目的确定的所要研究对象的全体,称为总
体或母体;
? 个体 —— 组成总体的每个基本单位称为个体;
? 样本 —— 总体中抽出若干个个体组成的集合称为样本。
? 样本的容量 —— 样本中包含的个体的数目称为样本的容量,
又称为样本的大小。通常用小写英文字母 n来表示。
? 通常将样本容量不少于 30个的样本称为大样本,不及 30个
的称为小样本。
? 随着样本容量的增大,样本对总体的代表性越来越高。
? 社会经济统计的抽样调查多属于大样本调查。
一、关于总体与样本
样本与总体之间的关系
? 样本是总体的一部分,是对
? 总体抽样后得到的集合。
? 之所以需要抽取样本,
? 是因为在有些情况下,
? 当分析总体的特征时,涉及
? 的总体容量太大,以至于
? 不可能对整个总体进行检查,
? 或者这样做耗费太大,
? 因此只能使用样本。
……
Xn+1
Xn
…
X1 样本
总体
? 对观察者而言,总体一般是不了解的,了解的只
是样本的具体情况。我们所要做的就是通过对这
些具体样本的情况的研究,来推知整个总体的情
况。
? 由于在某种程度上样本可以作为总体的代表(随
着样本容量的增大,样本对总体的代表性越来越
高),因此这种推断有一定合理性。
? 例如:研究湘潭市所有家庭的平均收入
? 研究平均收入,很显然需要全体湘潭市家庭的收入数据。
? 总体:湘潭市所有家庭的收入状况
? 可是,要收集每个家庭的收入是一件很困难的事。在实践
中,我们可以抽取一个由 5000户家庭组成的样本,然后
计算这 5000户的平均收入,作为湘潭市家庭的真实平均
收入的估计值。
? 样本:随机抽取 5000户,这 5000户家庭的收入状况就是
一个样本
(某一具体样本情况可知)
二、参数、估计量、估计值
? 对于总体,我们希望了解它的某些重要的数量特征,这些
特征就是参数;
? 参数 —— 用来描述总体特征的数字指标,常用的参数有总
体平均数、总体标准差(或总体方差 )等;
? 对于一个问题总体是唯一确定的,所以参数也是唯一确定
的,它是待估计的常数;
? 例子:
? 参数:湘潭市所有家庭的平均收入
? 想了解平均收入,一个可行的办法是随机抽取若干个家庭
组成一个有关家庭收入的样本,然后计算样本的平均收入,
作为湘潭市家庭的真实平均收入的估计值。
? 这种利用样本数据来估计未知的总体参数的方法称为参数
估计。
? 在参数估计中,对于总体参数,我们用根据样本得到的估
计量来估计它。
? 统计量 —— 根据样本数据计算出来的一个量,用来描述样
本特征,比如样本平均数、样本标准差(或样本方差 );
? 对于一次抽样调查,总体是唯一确定的,但样本不是这样,
样本是不确定的,一个总体可能抽出很多个样本;
? 样本个数又称样本可能数目。指从一个总体中可能抽取的
样本个数 ;
? 一个总体有多少样本,则统计量就有多少种取值,所以统
计量的取值随样本的不同而发生变化,是一个随机变量;
? 估计量 —— 用来估计总体参数的统计量,是一个随机变量;
与总体参数相对应,估计量有样本平均数、样本标准差
(或样本方差 )等 ;
? 若总体参数记为 θ,则相应估计量记为
? 估计值 —— 用来估计总体参数时计算出来的估计量的具体
数值 ?
?
? 参数:湘潭市所有家庭的平均收入
? 样本:随机抽取 5000户,这 5000户家庭的收入状
况就是一个样本
? 估计量:根据容量为 5000的样本计算得出的家庭
平均收入
? 估计值:抽取一个具体容量为 5000的样本,假定
根据这个样本计算出该样本中家庭平均收入为
2000元,这个 2000元就是估计量的具体取值,即
估计值。
我们的目的是分析说明某一现象总
体的数量特征,
在许多场合下,我们只能从总体中抽
取一个样本作为总体的代表,
此时,我们
用样本推断总体 ;
用估计量推断总体参数
三、关于随机变量的数字特征
? 两个最重要的数字特征
? 1、数学期望
? 2、方差
? 3、数学期望与方差的图示
? 协方差
0、离散型随机变量的分布
? 定义:如果随机变量 x只取有限个或可列多个可能值,
而且 x以确定的概率取这些值,则称 x为离散型随机变
量。
? 通常用分布列表示离散型随机变量:
? x的概率分布也可用一系列等式表示:
? P( x =xi) =pi ( i=1,2,…… )称为 x的概率函数。
注意这里 xi只出现一次。
X x1 x2 … …,, xi … …,,
p p1 p2 … …,, pi … …,,
离散型随机变量举例
? 用随机变量 X描述掷一颗骰子的试验。
? 分布的概率函数为:
? P( X=i) = 1/6( i=1,2,3,4,5,6)
X 1 2 3 4 5 6
P 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6
连续性随机变量的定义
? 连续型随机变量的特征是可以取得某一区
间内的任何数值
? 例:一个均匀陀螺的圆周上均匀地刻上了
区间[ 1,3)上的诸数字,x 表示陀螺停下
时其圆周上触及桌面的点的刻度,x则为连
续性随机变量
1,(数学 )期望的定义
? 离散型随机变量数学期望的定义
? 假定有一个离散型随机变量 X有 n个不同的可能取值
x1,x2,……,x n,而 p1,p2,……,p n是 X取这些值相应的概
率,则这个随机变量 X的数学期望定义如下:
? 即 X 的一切可能的取值 xi与对应的概率 Pi之积的和 称
为 的数学期望,
? 数学期望描述的是随机变量的 平均值(平均 水平 ) 。
? ? ?
?
????? n
i iinn x
pxpxpxpxE
12211
?
女儿期待父亲钓多少鱼回家?
? 数学期望是最容易发生的,因而是可以期待的。
它反映数据的平均水平。
? 数学期望为 3.3
数量 概率
1 0.1 0.1
2 0.1 0.2
3 0.4 1.2
4 0.2 0.8
5 0.2 1
父亲钓鱼的试验
2、方差
? 随机变量 x与期望的差的平方的数学期望,
叫随机变量的方差,记作 Var(x),或 D(x)
或 σx2 。方差的算术平方根叫标准差,记
为 σx 。
? 在不引起混淆的情况下,σx的 下标可略
去。
? ? ? ?? ?xExExV a rx ??? 2 2?
方差的意义
? 方差是用来描述离散程度的,即描述 x对于
它的期望的偏离程度,方差的值越大,表明
这种偏差越大,反映出变量的取值越分散。
反之,反映出变量的取值比较集中在期望附
近,
3、数学期望与方差的图示
? 数学期望描述随机变量的取值的平均水平,方差
描述随机变量的分散程度。
? 1方差同、期望变大 2期望同、方差变小
5
10
5
5
协方差
? 对于一个随机变量,期望和方差能够较好的反映
它的特征(取值的平均水平,取值的分散程度);
? 但很多时候我们需要考虑变量间的联系。对于两
个随机变量,可用协方差来衡量它们之间同时变
动的情况。
协方差的定义
顾名思义,方差(差的平方)是度量一个随机变
量变动(分散)程度的指标,而协方差则是 度量
两个随机变量同时变动情况 的指标。
? 协方差用以度量两个随机变量究竟同方向变动
(随着一个变量的值的增加,另一个变量也随之
增加)的程度大些,亦或是反方向变动(随着一
个变量的值的增加,另一个变量随之减少)的程
度大些,亦或不发生同时变动。
? 协方差的特点:
? 同方向变动 —— 协方差大于 0
? 反方向变动 —— 协方差小于 0
? 不发生同时变动 —— 协方差等于 0
协方差的定义式
? ? ? ?? ?? ?)E()E(,c o v yyxx ??? Eyx
? ? ? ?? ?xExExV a r
x ?
??
2 2
?
方差的定义式:
? 由于协方差的大小受随机变量大小和随机变量单位
的影响,不能准确反映出变量间的联系,因此引入
相关系数,以克服单位与尺度的影响;
? 二者都是度量两个变量之间联系的;
? 相关系数与协方差之间的联系:
? (两个变量之间的)相关系数=(它们的)协方差
/(这两个)变量(各自)标准差的乘积
? 即,相关系数=协方差/变量标准差的乘积
相关系数与协方差之间的联系
? 对于总体而言,总体相关系数的计算公式
为
yxyx ??
? ),c o v (
)V a r ()V a r (
),c o v (
,
yxyx
yx
??
总体协方差
相关系数与协方差之间的联系
? 协方差大于 0—— 相关系数大于 0— 正相关
? 协方差小于 0—— 相关系数小于 0— 负相关
? 协方差等于 0—— 相关系数等于 0— 不相关
五、正态分布
( normal distribution)
? 对于连续型随机变量而言,正态分布时最
重要的一种概率分布。
? 经验表明:对于取值依赖于众多微小因素,
每一因素均产生微小的或正或负影响的连
续型随机变量来说,正态分布是一个相当
好的模型。
正态分布的定义
? 符号,?” 表示随机变量服从什么分布; N表示正
态分布;括号内的参数分别为正态分布的数学期
望和方差
? 正态分布有两个参数(期望和方差)唯一确定。
? 若正态分布的 期望为 0,方差为 1,则称该正态分
布为 标准正态分布,
? ?。,、记为
,
0σ)E(σ,)E(~
2
??
?
??
?
?
xx xxxx 为常数
服从正态分布 若连续型随机变量
?N
x
? ?。记为 1,0~ Nx
正态分布曲线是一个“钟型”形状 ——
以期望为中心的对称分布的曲线
x
f(x)
CA
B
期望 期望
正态分布函数的性质
1,曲线位于在 x 的上方, 正态曲线的最高点
在 期望 E(x)。
2,每一特定正态分布通过期望 E(x)和 标准差
?来区分 。 E(x)决定曲线的高度, ?决定曲
线的平缓程度, 即宽度 。
3,曲线相对于 期望对称, 尾端向两个方向无
限延伸, 且理论上永远不会与横轴相交
E(x)和 ?对 正态曲线的影响
x
f(x)
CA
B
正态分布的标准化
1,一般的正态分布取决于期望和标准差 ?
2,计算概率时, 每一个正态分布都需要有
自己的正态概率分布表, 这种表格是无穷
多的
3,若能将一般的正态分布转化为标准正态分
布, 计算概率时只需要查一张表
正态分布的标准化
? 正态分布标准化
? ?
? ?
布,即将其标准化。
为标准正态分 任何一个正态分布,化 根据以上定理,可以将
那么,
且如果
。
,
1,0~
)E(
,,)E(~
2
N
N
y
xx
yxx
?
?
?
?
标准正态分布转化图示
xE?x?
?
一般正态分布
?
)E( xxz ??
??1
Z
标准正态分布
E?z???
标准化的例子
P(2.9 ?X? 7.1)
5
? = 1 0
2, 9 7, 1 X
一般正态分布 21.10
51.7
21.
10
59.2
?
?
?
?
?
??
?
?
?
?
?
?
?
?
X
Z
X
Z
0
? = 1
-, 2 1 Z,2 1
.1664
.0832.0832
标准正态分布
六、符号 ∑
? 符号 ∑ 表示求和
? 等式左边表示把变量 x从第一个取值( i=1)加
到第 n个值 (i=n),xi代表变量 x的第 i个变量值。
? 在不引起混淆时,可不标出 i 的取值范围
? 即 ∑ 代表
n21
i
i
i xxxx ?????
?
?
n
1
??
?
n
1
i
i
七、何谓,线性,?
? (1)Y=PX—— Y与 X是线性关系 ; Y与 P是线性关
系
? (2)Y=a+bX2—— Y与 X是非线性关系 ; Y与 b是线性
关系
? (3)Y = ? + ?X+?—— Y与 X是线性关系 ; Y与 ?是
线性关系
? (4)Y=a+bX2 +?—— Y与 X是非线性关系 ; Y与 b是
线性关系
? (5) y是 xi的 线性组合
nn2211
i
i
ii xaxaxaxay +????? ?
?
?
n
1
八、通过样本,估计总体 —— 估计量
的特征
? 对总体参数可以提出若干估计量。一个好的估计量通常会
产生比较接近总体参数真值的估计值。
? 那么,“好”估计量应该具备一些什么样的优良特性呢?
? 估计量的优良性可从两个方面进行衡量:
? 一、无偏性
? 二、有效性
? 我们构造一个估计量时,它就应当具有这些优良性,否则
就不是一个好的估计量,我们就不采用它来估计总体参数。
? 还可从一致性和均方误最小性这几个方面进行衡量。
? 注意:估计量是一个随机变量,它的取值随具体样本的不
同而发生变化。
的概率θ?的概率θ?
总体参数
?的真值 总体参数?的真值
思考
? 对于估计总体参数的估计量而言,它的取值越接
近总体参数真值越好。这样对参数的估计就越准
确。
? 问题 1:估计量 1和 2,哪个更好?
估计量 1 估计量 2
? 问题 1告诉我们,在衡量一个估计量是否优
良时,需要考虑估计量的无偏性。
一、无偏性
? 无偏性的直观意义:
? 在一次抽样下,根据样本推得的估计值和
真值可能不同,然而如果进行一系列抽样,
得到一系列样本,依据同一估计方法就可
以得到一系列估计值,很自然会要求这些
估计值的平均值(估计量的期望值)与未
知参数的真值相等。(就像估计量 2一样)
? 这就是无偏性的概念。
的概率??
θ 的真值
的概率??
θ 的真值
有偏估计 无偏估计
估计量 1 估计量 2
无偏性的定义
。,,
。
θ-θ?B ia sθθ?θθ?
?
??
EE ??
?
其偏差的有偏估计为我们称如果
具有无偏性θ亦称
为参数 θ 的无偏估计,θ成立,我们称定义:如果 θθE
无偏性是估计量最重要的优良性,
且参数的无偏估计量不只一个
? 无偏性是对估计量最重要的要求之一,它只能保
证估计量的期望等于真值。而且,对于总体某个
待定参数,其无偏估计量不只一个。
? 例如,可以验证
? 都是总体期望的无偏估计量。
?
?
?
?
?
?
???? ?
?
??
?
?
??
0
1
1
11
n
i
in
i
i
n
i
ii
n
i
i
a
a
xax
x
n
x 和
? 对于估计总体参数的估计量而言,它的取
值越接近总体参数真值越好。这样对参数
的估计就越准确。
? 问题 2:是不是任何无偏估计量都是一样好
的估计量呢?
无偏估计量 1和 2都是一样好的估计量呢?
??
?的真值 ?的真值
的概率 的概率??
?的 无偏估计量 1
?的 无偏估计量 2
二、有效性
? 问题 2告诉我们,在衡量估计量是否优良时,
在考虑了无偏性之后,还考虑估计量的有
效性。
对于有效性的理解
? 总体某个参数 ?的无偏估计量往往不只一个,而且
无偏性仅仅表明 的所有可能的取值平均等于 ?,
它的可能取值可能大部分与 ?相差很大。
? 为保证 的取值能集中于 ?附近,必须要求 的方
差越小越好。(方差是衡量变量的分散程度的)
? 所以,提出有效性标准。
?? ??
??
无偏估计量 1和 2都是一样好的估计量呢?
??
?的真值 ?的真值
的概率 的概率??
?的 无偏估计量 1
?的 无偏估计量 2
二、有效性定义
? 注意:有效性是以无偏性为前提的。
具有有效性。的有效估计量,亦称称为则
的方差达到最小,的一切无偏估计量中,如果在
有效的估计量。是比则称
的方差,的方差小于总有
,若对任意的样本容量
的无偏估计量,都是和定义:设
θ
?
θθ
?
θ
?
θ
θ
?
θ
?
θ
?
θ
?
θθ
?
θ
?
?
?
?
n
无偏有效估计量的意义
? 在估计量中,一个无偏有效估计量的取值
在可能范围内最密集于 ?真实的总体参数 ?附
近。
? 换言之,它以最大的概率保证估计量的取
值在总体真值 ?附近摆动 。
离散型随机变量的方差
(实例)
【 例 】 投掷一枚骰子, 出现的点数是个离散型随机
变量, 其概率分布为如下 。 计算数学期望和方差
X = xi 1 2 3 4 5 6
P(X =xi)=pi 1/6 1/6 1/6 1/6 1/6 1/6
解,数学期望为, 5.3
6
16
6
11)( 6
1
??????? ?
?
?
i
ii pxXE
方差为:
? ?
9167.2
6
1
)5.36(
6
1
)5.31(
)()(
22
6
1
2
????????
??? ?
?
?
i
ii pXExXD
? 估计量 1存在系统误差。
? 无偏性的直观意义是:样本估计量的数值
在真值周围摆动,即无系统误差。
? 总体 —— 根据一定目的确定的所要研究对象的全体,称为总
体或母体;
? 个体 —— 组成总体的每个基本单位称为个体;
? 样本 —— 总体中抽出若干个个体组成的集合称为样本。
? 样本的容量 —— 样本中包含的个体的数目称为样本的容量,
又称为样本的大小。通常用小写英文字母 n来表示。
? 通常将样本容量不少于 30个的样本称为大样本,不及 30个
的称为小样本。
? 随着样本容量的增大,样本对总体的代表性越来越高。
? 社会经济统计的抽样调查多属于大样本调查。
一、关于总体与样本
样本与总体之间的关系
? 样本是总体的一部分,是对
? 总体抽样后得到的集合。
? 之所以需要抽取样本,
? 是因为在有些情况下,
? 当分析总体的特征时,涉及
? 的总体容量太大,以至于
? 不可能对整个总体进行检查,
? 或者这样做耗费太大,
? 因此只能使用样本。
……
Xn+1
Xn
…
X1 样本
总体
? 对观察者而言,总体一般是不了解的,了解的只
是样本的具体情况。我们所要做的就是通过对这
些具体样本的情况的研究,来推知整个总体的情
况。
? 由于在某种程度上样本可以作为总体的代表(随
着样本容量的增大,样本对总体的代表性越来越
高),因此这种推断有一定合理性。
? 例如:研究湘潭市所有家庭的平均收入
? 研究平均收入,很显然需要全体湘潭市家庭的收入数据。
? 总体:湘潭市所有家庭的收入状况
? 可是,要收集每个家庭的收入是一件很困难的事。在实践
中,我们可以抽取一个由 5000户家庭组成的样本,然后
计算这 5000户的平均收入,作为湘潭市家庭的真实平均
收入的估计值。
? 样本:随机抽取 5000户,这 5000户家庭的收入状况就是
一个样本
(某一具体样本情况可知)
二、参数、估计量、估计值
? 对于总体,我们希望了解它的某些重要的数量特征,这些
特征就是参数;
? 参数 —— 用来描述总体特征的数字指标,常用的参数有总
体平均数、总体标准差(或总体方差 )等;
? 对于一个问题总体是唯一确定的,所以参数也是唯一确定
的,它是待估计的常数;
? 例子:
? 参数:湘潭市所有家庭的平均收入
? 想了解平均收入,一个可行的办法是随机抽取若干个家庭
组成一个有关家庭收入的样本,然后计算样本的平均收入,
作为湘潭市家庭的真实平均收入的估计值。
? 这种利用样本数据来估计未知的总体参数的方法称为参数
估计。
? 在参数估计中,对于总体参数,我们用根据样本得到的估
计量来估计它。
? 统计量 —— 根据样本数据计算出来的一个量,用来描述样
本特征,比如样本平均数、样本标准差(或样本方差 );
? 对于一次抽样调查,总体是唯一确定的,但样本不是这样,
样本是不确定的,一个总体可能抽出很多个样本;
? 样本个数又称样本可能数目。指从一个总体中可能抽取的
样本个数 ;
? 一个总体有多少样本,则统计量就有多少种取值,所以统
计量的取值随样本的不同而发生变化,是一个随机变量;
? 估计量 —— 用来估计总体参数的统计量,是一个随机变量;
与总体参数相对应,估计量有样本平均数、样本标准差
(或样本方差 )等 ;
? 若总体参数记为 θ,则相应估计量记为
? 估计值 —— 用来估计总体参数时计算出来的估计量的具体
数值 ?
?
? 参数:湘潭市所有家庭的平均收入
? 样本:随机抽取 5000户,这 5000户家庭的收入状
况就是一个样本
? 估计量:根据容量为 5000的样本计算得出的家庭
平均收入
? 估计值:抽取一个具体容量为 5000的样本,假定
根据这个样本计算出该样本中家庭平均收入为
2000元,这个 2000元就是估计量的具体取值,即
估计值。
我们的目的是分析说明某一现象总
体的数量特征,
在许多场合下,我们只能从总体中抽
取一个样本作为总体的代表,
此时,我们
用样本推断总体 ;
用估计量推断总体参数
三、关于随机变量的数字特征
? 两个最重要的数字特征
? 1、数学期望
? 2、方差
? 3、数学期望与方差的图示
? 协方差
0、离散型随机变量的分布
? 定义:如果随机变量 x只取有限个或可列多个可能值,
而且 x以确定的概率取这些值,则称 x为离散型随机变
量。
? 通常用分布列表示离散型随机变量:
? x的概率分布也可用一系列等式表示:
? P( x =xi) =pi ( i=1,2,…… )称为 x的概率函数。
注意这里 xi只出现一次。
X x1 x2 … …,, xi … …,,
p p1 p2 … …,, pi … …,,
离散型随机变量举例
? 用随机变量 X描述掷一颗骰子的试验。
? 分布的概率函数为:
? P( X=i) = 1/6( i=1,2,3,4,5,6)
X 1 2 3 4 5 6
P 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6
连续性随机变量的定义
? 连续型随机变量的特征是可以取得某一区
间内的任何数值
? 例:一个均匀陀螺的圆周上均匀地刻上了
区间[ 1,3)上的诸数字,x 表示陀螺停下
时其圆周上触及桌面的点的刻度,x则为连
续性随机变量
1,(数学 )期望的定义
? 离散型随机变量数学期望的定义
? 假定有一个离散型随机变量 X有 n个不同的可能取值
x1,x2,……,x n,而 p1,p2,……,p n是 X取这些值相应的概
率,则这个随机变量 X的数学期望定义如下:
? 即 X 的一切可能的取值 xi与对应的概率 Pi之积的和 称
为 的数学期望,
? 数学期望描述的是随机变量的 平均值(平均 水平 ) 。
? ? ?
?
????? n
i iinn x
pxpxpxpxE
12211
?
女儿期待父亲钓多少鱼回家?
? 数学期望是最容易发生的,因而是可以期待的。
它反映数据的平均水平。
? 数学期望为 3.3
数量 概率
1 0.1 0.1
2 0.1 0.2
3 0.4 1.2
4 0.2 0.8
5 0.2 1
父亲钓鱼的试验
2、方差
? 随机变量 x与期望的差的平方的数学期望,
叫随机变量的方差,记作 Var(x),或 D(x)
或 σx2 。方差的算术平方根叫标准差,记
为 σx 。
? 在不引起混淆的情况下,σx的 下标可略
去。
? ? ? ?? ?xExExV a rx ??? 2 2?
方差的意义
? 方差是用来描述离散程度的,即描述 x对于
它的期望的偏离程度,方差的值越大,表明
这种偏差越大,反映出变量的取值越分散。
反之,反映出变量的取值比较集中在期望附
近,
3、数学期望与方差的图示
? 数学期望描述随机变量的取值的平均水平,方差
描述随机变量的分散程度。
? 1方差同、期望变大 2期望同、方差变小
5
10
5
5
协方差
? 对于一个随机变量,期望和方差能够较好的反映
它的特征(取值的平均水平,取值的分散程度);
? 但很多时候我们需要考虑变量间的联系。对于两
个随机变量,可用协方差来衡量它们之间同时变
动的情况。
协方差的定义
顾名思义,方差(差的平方)是度量一个随机变
量变动(分散)程度的指标,而协方差则是 度量
两个随机变量同时变动情况 的指标。
? 协方差用以度量两个随机变量究竟同方向变动
(随着一个变量的值的增加,另一个变量也随之
增加)的程度大些,亦或是反方向变动(随着一
个变量的值的增加,另一个变量随之减少)的程
度大些,亦或不发生同时变动。
? 协方差的特点:
? 同方向变动 —— 协方差大于 0
? 反方向变动 —— 协方差小于 0
? 不发生同时变动 —— 协方差等于 0
协方差的定义式
? ? ? ?? ?? ?)E()E(,c o v yyxx ??? Eyx
? ? ? ?? ?xExExV a r
x ?
??
2 2
?
方差的定义式:
? 由于协方差的大小受随机变量大小和随机变量单位
的影响,不能准确反映出变量间的联系,因此引入
相关系数,以克服单位与尺度的影响;
? 二者都是度量两个变量之间联系的;
? 相关系数与协方差之间的联系:
? (两个变量之间的)相关系数=(它们的)协方差
/(这两个)变量(各自)标准差的乘积
? 即,相关系数=协方差/变量标准差的乘积
相关系数与协方差之间的联系
? 对于总体而言,总体相关系数的计算公式
为
yxyx ??
? ),c o v (
)V a r ()V a r (
),c o v (
,
yxyx
yx
??
总体协方差
相关系数与协方差之间的联系
? 协方差大于 0—— 相关系数大于 0— 正相关
? 协方差小于 0—— 相关系数小于 0— 负相关
? 协方差等于 0—— 相关系数等于 0— 不相关
五、正态分布
( normal distribution)
? 对于连续型随机变量而言,正态分布时最
重要的一种概率分布。
? 经验表明:对于取值依赖于众多微小因素,
每一因素均产生微小的或正或负影响的连
续型随机变量来说,正态分布是一个相当
好的模型。
正态分布的定义
? 符号,?” 表示随机变量服从什么分布; N表示正
态分布;括号内的参数分别为正态分布的数学期
望和方差
? 正态分布有两个参数(期望和方差)唯一确定。
? 若正态分布的 期望为 0,方差为 1,则称该正态分
布为 标准正态分布,
? ?。,、记为
,
0σ)E(σ,)E(~
2
??
?
??
?
?
xx xxxx 为常数
服从正态分布 若连续型随机变量
?N
x
? ?。记为 1,0~ Nx
正态分布曲线是一个“钟型”形状 ——
以期望为中心的对称分布的曲线
x
f(x)
CA
B
期望 期望
正态分布函数的性质
1,曲线位于在 x 的上方, 正态曲线的最高点
在 期望 E(x)。
2,每一特定正态分布通过期望 E(x)和 标准差
?来区分 。 E(x)决定曲线的高度, ?决定曲
线的平缓程度, 即宽度 。
3,曲线相对于 期望对称, 尾端向两个方向无
限延伸, 且理论上永远不会与横轴相交
E(x)和 ?对 正态曲线的影响
x
f(x)
CA
B
正态分布的标准化
1,一般的正态分布取决于期望和标准差 ?
2,计算概率时, 每一个正态分布都需要有
自己的正态概率分布表, 这种表格是无穷
多的
3,若能将一般的正态分布转化为标准正态分
布, 计算概率时只需要查一张表
正态分布的标准化
? 正态分布标准化
? ?
? ?
布,即将其标准化。
为标准正态分 任何一个正态分布,化 根据以上定理,可以将
那么,
且如果
。
,
1,0~
)E(
,,)E(~
2
N
N
y
xx
yxx
?
?
?
?
标准正态分布转化图示
xE?x?
?
一般正态分布
?
)E( xxz ??
??1
Z
标准正态分布
E?z???
标准化的例子
P(2.9 ?X? 7.1)
5
? = 1 0
2, 9 7, 1 X
一般正态分布 21.10
51.7
21.
10
59.2
?
?
?
?
?
??
?
?
?
?
?
?
?
?
X
Z
X
Z
0
? = 1
-, 2 1 Z,2 1
.1664
.0832.0832
标准正态分布
六、符号 ∑
? 符号 ∑ 表示求和
? 等式左边表示把变量 x从第一个取值( i=1)加
到第 n个值 (i=n),xi代表变量 x的第 i个变量值。
? 在不引起混淆时,可不标出 i 的取值范围
? 即 ∑ 代表
n21
i
i
i xxxx ?????
?
?
n
1
??
?
n
1
i
i
七、何谓,线性,?
? (1)Y=PX—— Y与 X是线性关系 ; Y与 P是线性关
系
? (2)Y=a+bX2—— Y与 X是非线性关系 ; Y与 b是线性
关系
? (3)Y = ? + ?X+?—— Y与 X是线性关系 ; Y与 ?是
线性关系
? (4)Y=a+bX2 +?—— Y与 X是非线性关系 ; Y与 b是
线性关系
? (5) y是 xi的 线性组合
nn2211
i
i
ii xaxaxaxay +????? ?
?
?
n
1
八、通过样本,估计总体 —— 估计量
的特征
? 对总体参数可以提出若干估计量。一个好的估计量通常会
产生比较接近总体参数真值的估计值。
? 那么,“好”估计量应该具备一些什么样的优良特性呢?
? 估计量的优良性可从两个方面进行衡量:
? 一、无偏性
? 二、有效性
? 我们构造一个估计量时,它就应当具有这些优良性,否则
就不是一个好的估计量,我们就不采用它来估计总体参数。
? 还可从一致性和均方误最小性这几个方面进行衡量。
? 注意:估计量是一个随机变量,它的取值随具体样本的不
同而发生变化。
的概率θ?的概率θ?
总体参数
?的真值 总体参数?的真值
思考
? 对于估计总体参数的估计量而言,它的取值越接
近总体参数真值越好。这样对参数的估计就越准
确。
? 问题 1:估计量 1和 2,哪个更好?
估计量 1 估计量 2
? 问题 1告诉我们,在衡量一个估计量是否优
良时,需要考虑估计量的无偏性。
一、无偏性
? 无偏性的直观意义:
? 在一次抽样下,根据样本推得的估计值和
真值可能不同,然而如果进行一系列抽样,
得到一系列样本,依据同一估计方法就可
以得到一系列估计值,很自然会要求这些
估计值的平均值(估计量的期望值)与未
知参数的真值相等。(就像估计量 2一样)
? 这就是无偏性的概念。
的概率??
θ 的真值
的概率??
θ 的真值
有偏估计 无偏估计
估计量 1 估计量 2
无偏性的定义
。,,
。
θ-θ?B ia sθθ?θθ?
?
??
EE ??
?
其偏差的有偏估计为我们称如果
具有无偏性θ亦称
为参数 θ 的无偏估计,θ成立,我们称定义:如果 θθE
无偏性是估计量最重要的优良性,
且参数的无偏估计量不只一个
? 无偏性是对估计量最重要的要求之一,它只能保
证估计量的期望等于真值。而且,对于总体某个
待定参数,其无偏估计量不只一个。
? 例如,可以验证
? 都是总体期望的无偏估计量。
?
?
?
?
?
?
???? ?
?
??
?
?
??
0
1
1
11
n
i
in
i
i
n
i
ii
n
i
i
a
a
xax
x
n
x 和
? 对于估计总体参数的估计量而言,它的取
值越接近总体参数真值越好。这样对参数
的估计就越准确。
? 问题 2:是不是任何无偏估计量都是一样好
的估计量呢?
无偏估计量 1和 2都是一样好的估计量呢?
??
?的真值 ?的真值
的概率 的概率??
?的 无偏估计量 1
?的 无偏估计量 2
二、有效性
? 问题 2告诉我们,在衡量估计量是否优良时,
在考虑了无偏性之后,还考虑估计量的有
效性。
对于有效性的理解
? 总体某个参数 ?的无偏估计量往往不只一个,而且
无偏性仅仅表明 的所有可能的取值平均等于 ?,
它的可能取值可能大部分与 ?相差很大。
? 为保证 的取值能集中于 ?附近,必须要求 的方
差越小越好。(方差是衡量变量的分散程度的)
? 所以,提出有效性标准。
?? ??
??
无偏估计量 1和 2都是一样好的估计量呢?
??
?的真值 ?的真值
的概率 的概率??
?的 无偏估计量 1
?的 无偏估计量 2
二、有效性定义
? 注意:有效性是以无偏性为前提的。
具有有效性。的有效估计量,亦称称为则
的方差达到最小,的一切无偏估计量中,如果在
有效的估计量。是比则称
的方差,的方差小于总有
,若对任意的样本容量
的无偏估计量,都是和定义:设
θ
?
θθ
?
θ
?
θ
θ
?
θ
?
θ
?
θ
?
θθ
?
θ
?
?
?
?
n
无偏有效估计量的意义
? 在估计量中,一个无偏有效估计量的取值
在可能范围内最密集于 ?真实的总体参数 ?附
近。
? 换言之,它以最大的概率保证估计量的取
值在总体真值 ?附近摆动 。
离散型随机变量的方差
(实例)
【 例 】 投掷一枚骰子, 出现的点数是个离散型随机
变量, 其概率分布为如下 。 计算数学期望和方差
X = xi 1 2 3 4 5 6
P(X =xi)=pi 1/6 1/6 1/6 1/6 1/6 1/6
解,数学期望为, 5.3
6
16
6
11)( 6
1
??????? ?
?
?
i
ii pxXE
方差为:
? ?
9167.2
6
1
)5.36(
6
1
)5.31(
)()(
22
6
1
2
????????
??? ?
?
?
i
ii pXExXD
? 估计量 1存在系统误差。
? 无偏性的直观意义是:样本估计量的数值
在真值周围摆动,即无系统误差。