《概率论与数理统计》
学习手册
·内容提要
·疑难分析
·例题解析
白先春 编
目 录
第一章 随机事件及其概率 2
第二章 随机变量及其分布 15
第三章 多维随机变量及其分布 29
第四章 随机变量的数字特征 41
第五章 大数定律和中心极限定理 50
第六章 数理统计的基本概念 55
第七章 参数估计 61
第八章 假设检验 68
第九章 方差分析和回归分析 73
第一章 随机事件及其概率内 容 提 要
1、随机试验、样本空间与随机事件
(1)随机试验:具有以下三个特点的试验称为随机试验,记为E.
试验可在相同的条件下重复进行;
每次试验的结果具有多种可能性,但试验之前可确知试验的所有可能结果;
每次试验前不能确定哪一个结果会出现.
(2)样本空间:随机试验E的所有可能结果组成的集合称为E的样本空间,记为Ω;试验的每一个可能结果,即Ω中的元素,称为样本点,记为e.
(3)随机事件:在一次试验中可能出现也可能不出现的事件称为随机事件,简称事件,常用A、B、C等大写字母表示;可表述为样本空间中样本点的某个集合,分为复合事件和简单事件,还有必然事件(记为)和不可能事件(记为).
2、事件的关系与运算
(1)包含关系与相等:“事件A发生必导致B发生”,记为或;且.
(2)和事件(并):“事件A与B至少有一个发生”,记为.
(3)积事件(交):,事件A与B同时发生”,记为或.
(4)差事件、对立事件(余事件):“事件A发生而B不发生”,记为A-B称为A与B的差事件;称为的对立事件;易知:.
(5)互不相容性:;互为对立事件且.
(6)事件的运算法则:1) 交换律:, ;
2) 结合律:,;
3) 分配律:,;
4) 对偶(De Morgan)律:,,可推广.
3、频率与概率
(1)频率的定义:事件在次重复试验中出现次,则比值称为事件在次重复试验中出现的频率,记为,即.
(2)统计概率:当时,频率.当很大时,称为事件的统计概率.
(3)古典概率:若试验的基本事件数为有限个,且每个事件发生的可能性相等,则试验对应古典概型(等可能概型),事件发生的概率为:.
(4)几何概率:若试验基本事件数无限,随机点落在某区域g的概率与区域g的测度(长度、面积、体积等)成正比,而与其位置及形状无关,则试验对应几何概型,“在区域中随机地取一点落在区域g中”这一事件发生的概率为:.
(5)概率的公理化定义:设()为可测空间,在事件域上定义一个实值函数,满足:1) 非负性:,对任意;2) 规范性:;3) 可列可加性:若有一列 ,使得,则称为域上的概率测度,简称“概率”.
4、概率的基本性质
(1)不可能事件概率零:=0.
(2)有限可加性:设是n个两两互不相容的事件,即=,(),则有=+.
(3)单调不减性:若事件BA,则P(B)P(A),且
P(B-A)=P(B)-P(A).(4)互补性:P()=1-P(A),且P(A)1.(5)加法公式:对任意两事件,有-;此性质可推广到任意n个事件的情形.
(6)可分性:对任意两事件,有.
5、条件概率与乘法公式
(1)条件概率:设是中的两个事件,即,则称为事件A发生的条件下事件B发生的条件概率.
(2)乘法公式:设,则 称为事件A、B的概率乘法公式.
6、全概率公式与贝叶斯(Bayes)公式
(1)全概率公式:设是的一个划分,且,,则对任何事件,有,称为全概率公式.
(2)贝叶斯(Bayes)公式:设是的一个划分,且,则对任何事件,有,称为贝叶斯公式或逆概率公式.
7、事件的独立性
(1)两事件的独立:设为一概率空间,事件,且,若,则称事件A与B相互独立;等价于:,
(2)多个事件的独立:设是n个事件,如果对任意的,任意的,具有等式,称n个事件相互独立.
8、贝努里(Bernoulli)概型
(1)只有两个可能结果的试验称为贝努里试验,常记为.也叫做“成功—失败”试验,“成功”的概率常用表示,其中=“成功”.
(2)把重复独立地进行n次,所得的试验称为n重贝努里试验,记为.
(3)把重复独立地进行可列多次,所得的试验称为可列重贝努里试验,记为.以上三种贝努里试验统称为贝努里概型.
(4)中成功次的概率是:其中.
疑 难 分 析
1、必然事件与不可能事件
必然事件是在一定条件下必然发生的事件,不可能事件指的是在一定条件下必然不发生的事件.它们都不具有随机性,是确定性的现象,但为研究的方便,把它们看作特殊的随机事件.
2、互逆事件与互斥事件如果两个事件与必有一个事件发生,且至多有一个事件发生,则、为互逆事件;如果两个事件与不能同时发生,则、为互斥事件.因而,互逆必定互斥,互斥未必互逆.区别两者的关键是:当样本空间只有两个事件时,两事件才可能互逆,而互斥适用与多个事件的情形.作为互斥事件在一次试验中两者可以都不发生,而互逆事件必发生一个且只发生一个.
3、两事件独立与两事件互斥两事件、独立,则与中任一个事件的发生与另一个事件的发生无关,这时;而两事件互斥,则其中任一个事件的发生必然导致另一个事件不发生,这两事件的发生是有影响的,
这时.可以用图形作一直观解释.在图1.1左边的正方形中,
图1.1
,表示样本空间中两事件的独立关系,而在右边的正方形中,,表示样本空间中两事件的互斥关系.
4、条件概率与积事件概率
是在样本空间内,事件的概率,而是在试验增加了新条件发生后的缩减的样本空间中计算事件的概率.虽然、都发生,但两者是不同的,一般说来,当、同时发生时,常用,而在有包含关系或明确的主从关系时,用.如袋中有9个白球1个红球,作不放回抽样,每次任取一球,取2次,求:(1)第二次才取到白球的概率;(2)第一次取到的是白球的条件下,第二次取到白球的概率.问题(1)求的就是一个积事件概率的问题,而问题(2)求的就是一个条件概率的问题.
5、全概率公式与贝叶斯(Bayes)公式当所求的事件概率为许多因素引发的某种结果,而该结果又不能简单地看作这诸多事件之和时,可考虑用全概率公式,在对样本空间进行划分时,一定要注意它必须满足的两个条件.贝叶斯公式用于试验结果已知,追查是何种原因(情况、条件)下引发的概率.
例 题 解 析
【例1】写出下列随机试验的样本空间及下列事件包含的样本点:
(1)掷一棵骰子,出现奇数点.
(2)投掷一枚均匀硬币两次:
1)第一次出现正面;2)两次出现同一面;3)至少有一次出现正面.
(3)在1,2,3,4四个数中可重复地抽取两个数,其中一个数是另一个数的两倍.
(4)将a,b两只球随机地放到3个盒子中去,第一个盒子中至少有一个球.
分析:可对照集合的概念来理解样本空间和样本点:样本空间可指全集,样本点是元素,事件则是包含在全集中的子集.
解:(1) 掷一棵骰子,有六种可能结果,如果用“1”表示“出现1点”这个样本点,其余类似.则样本空间为:={1,2,3,4,5,6},出现奇数点的事件为:{1,3,5}.
(2)投掷一枚均匀硬币两次,其结果有四种可能,若用(正,反)表示“第一次出现正面,第二次出现反面”这一样本点,其余类似.则样本空间为:={(正,正),(正,反),(反,正),(反,反)},用分别表示上述事件1)、2)、3),则事件={(正,正),(正,反)};事件={(正,正),(反,反)};事件={(正,正),(正,反),(反,正)}.
(3)在1,2,3,4四个数中可重复地抽取两个数,共有种可能,若用表示“第一次取数,第二次取数”这一样本点,则样本空间为:={};其中一个数是另一个数的两倍的事件为:{(1,2),(2,1),(2,4),(4,2)}.
(4)三个盒子分别记为甲、乙、丙,将a,b两只球随机地放到3个盒子中去共有九种结果.若用(甲、乙)表示“a球放入甲盒,b球放入乙盒”这一样本点,其余类似.则样本空间为:={(甲,甲),(甲,乙),(甲,丙),(乙,乙),(乙,甲),(乙,丙),(丙,甲),(丙,乙),(丙,丙)};第一个盒子中至少有一个球的事件为:{(甲,甲),(甲,乙),(甲,丙),(乙,甲),(丙,甲)}.
【例2】设为三个事件,用的运算关系表示下列各事件:
(1)仅发生; (2)与都发生,而不发生;
(3)所有三个事件都不发生;(4)至少有一个事件发生;
(5)至多有两个事件发生; (6)至少有两个事件发生;
(7)恰有两个事件发生; (8)恰有一个事件发生.
分析:利用事件的运算关系及性质来描述事件.
解:(1);(2);(3)或;(4)或;(5)或;
(6)或;
(7);(8).
【例3】把个不同的球随机地放入个盒子中,求下列事件的概率:
(1)某指定的个盒子中各有一个球;
(2)任意个盒子中各有一个球;
(3)指定的某个盒子中恰有个球.
分析:这是古典概率的一个典型问题,许多古典概率的计算问题都可归结为这一类型.每个球都有种放法,个球共有种不同的放法.“某指定的个盒子中各有一个球”相当于个球在个盒子中的全排列;与(1)相比,(2)相当于先在个盒子中选个盒子,再放球;(3)相当于先从个球中取个放入某指定的盒中,再把剩下的个球放入个盒中.
解:样本空间中所含的样本点数为.
(1)该事件所含的样本点数是,故:;
(2)在个盒子中选个盒子有种选法,故所求事件的概率为:;
(3)从个球中取个有种选法,剩下的个球中的每一个球都有种放法,故所求事件的概率为:.
【例4】随机地向由所围成的正方形内掷一点,点落在该正方形内任何区域的概率与区域面积成正比,求原点和该点的连线与轴正向的夹角小于的概率.
分析:这是一个几何概率问题,通常可借助几何上的度量(长度、面积、体积或容积等)来合理地规定其概率.
解:用表示该正方形的面积,表示图1.2阴影部分 面积,则所求的概率为:
.
【例5】设事件与互不相容,且,求下列事件的概率:.
分析:按概率的性质进行计算.
解:与互不相容,所以,;
;由于与互不相容,这时,从而;由于,从而.
【例6】某住宅楼共有三个孩子,已知其中至少有一个是女孩,求至少有一个是男孩的概率(假设一个小孩为男或为女是等可能的).
分析:在已知“至少有一个是女孩”的条件下求“至少有一个是男孩”的概率,所以是条件概率问题.根据公式,必须求出.
解:设={至少有一个女孩},={至少有一个男孩},则={三个全是男孩},={三个全是女孩},于是
,事件为“至少有一个女孩且至少有一个男孩”,因为,且,所以=
,从而,在已知至少有一个为女孩的条件下,求至少有一个是男孩的概率为:.
【例7】某电子设备制造厂所用的晶体管是由三家元件制造厂提供的.根据以往的记录有以下的数据(表1-1).
表1-1
元件制造厂
次品率
提供晶体管的份额
1
0.02
0.15
2
0.01
0.80
3
0.03
0.05
设这三家工厂的产品在仓库中均匀混合的,且无区别的标志.(1)在仓库中随机地取一只晶体管,求它是次品的概率.(2)在仓库中随机地取一只晶体管,若已知取到的是次品,为分析此次品出自何厂,需求出此次品由三家工厂生产的概率分别是多少.试求这些概率.
分析:事件“取出的一只晶体管是次品”可分解为下列三个事件的和:“这只次品是一厂提供的”、“这只次品是二厂提供的”、“这只次品是三厂提供的”,这三个事件互不相容,可用全概率公式进行计算.一般地,当直接计算某一事件的概率比较困难,而比较容易计算,且时,可考虑用全概率公式计算.(2)为条件概率,可用贝叶斯公式进行计算.
解:设表示“取到的是一只次品”,表示“所取到的产品是由第家工厂提供的”.易知,是样本空间的一个划分,且有=
.
(1)由全概率公式:.
(2)由贝叶斯公式:.以上结果表明,这只次品来自第二家工厂的可能性最大.
【例8】一名工人照看三台机床,已知在1小时内三台机床各自不需要工人照看的概率为.求1小时内三台机床至多有一台需要照看的概率.
分析:每台机床是否需要照看是相互独立的,这样,可根据事件的独立性性质及加法公式进行计算.
解:各台机床需要照看的事件是相互独立的,而三台机床至多有一台需要照看的事件可写成:,则由加法公式与独立性性质得:
=0.902.
【例9】某车间有10台同类型的设备,每台设备的电动机功率为10千瓦.已知每台设备每小时实际开动12分钟,它们的使用是相互独立的.因某种原因,这天供电部门只能给车间提供50千瓦的电力.问该天这10台设备能正常运作的概率是多少?
分析:由题意知,所要求的概率就是求“该天同时开动的设备不超过5台”这一事件的概率.因为每台设备的使用是相互独立的,且在某一时刻,设备只有开动与不开动两种情况,所以本题可视为10重贝努里试验,可用二项概率公式进行求解.
解:设表示事件“设备开动”,表示“同时开动的设备数”,则由二项概率公式得:,同时开动不超过5台的概率:;
故该天这10台设备能正常运作的概率为0.994.
第二章 随机变量及其分布内 容 提 要
1、随机变量设是随机试验的样本空间,如果对于试验的每一个可能结果,都有唯一的实数与之对应,则称为定义在上的随机变量,简记为.随机变量通常用大写字母等表示.
2、分布函数及其性质设为随机变量,为任意实数,函数 称为随机变量的分布函数.
分布函数完整地描述了随机变量取值的统计规律性,具有以下性质:
(1);
(2)如果,则;
(3)为右连续,即;
(4);
(5).
3、离散型随机变量及其概率分布如果随机变量只能取有限个或可列个可能值,则称为离散型随机变量.如果的一切可能值为,并且取的概率为,则称
为离散型随机变量的概率函数(概率分布或分布律).列成表格形式,也称为分布列(表2-1):
表2-1
…
…
其中.
常见的离散型随机变量的分布有:
(1)0-1分布,记为,概率函数;
(2)二项分布,记为,概率函数
;
(3)泊松分布,记为,概率函数
;
泊松定理 设是一常数,是任意正整数,设,则对于任一固定的非负整数,有.
当很大且很小时,二项分布可以用泊松分布近似代替,即
,其中.
(4)超几何分布,记为,概率函数
,其中为正整数,且.
当很大,且较小时,有.]
(5)几何分布,记为,概率函数
.
4、连续型随机变量及其概率分布如果对于随机变量的分布函数,存在非负函数,使对于任一实数,有,则称为连续型随机变量.函数
称为的概率密度函数.
概率密度函数具有以下性质:
(1); (2);
(3); (4);
(5)如果在处连续,则.
常见的连续型随机变量的分布有:
(1)均匀分布,记为,概率密度为
.相应的分布函数为;
(2)指数分布,记为,概率密度为
.相应的分布函数为;
(3)正态分布,记为,概率密度为
,相应的分布函数为;
当时,即时,称服从标准正态分布.这时分别用和表示的密度函数和分布函数,即.具有性质:.
一般正态分布的分布函数与标准正态分布的分布函数有关系:.
5、随机变量函数的分布
(1)离散型随机变量函数的分布设为离散型随机变量,其分布列为(表2-2):
表2-2
… …
… …
则任为离散型随机变量,其分布列为(表2-3):
表2-3
… …
… …
有相同值时,要合并为一项,对应的概率相加.
(2)连续型随机变量函数的分布设为离散型随机变量,概率密度为,则的概率密度有两种方法可求.
1)定理法:若在的取值区间内有连续导数,且单调时,是连续型随机变量,其概率密度为
.
其中是的反函数.
2)分布函数法:先求的分布函数
,然后求.
疑 难 分 析
1、随机变量与普通函数随机变量是定义在随机试验的样本空间上,对试验的每一个可能结果,都有唯一的实数与之对应.从定义可知:普通函数的取值是按一定法则给定的,而随机变量的取值是由统计规律性给出的,具有随机性;又普通函数的定义域是一个区间,而随机变量的定义域是样本空间.
2、分布函数的连续性定义左连续或右连续只是一种习惯.有的书籍定义分布函数左连续,但大多数书籍定义分布函数为右连续,左连续与右连续的区别在于计算时,点的概率是否计算在内.对于连续型随机变量,由于,故定义左连续或右连续没有什么区别;对于离散型随机变量,由于,则定义左连续或右连续时值就不相同,这时,就要注意对定义左连续还是右连续.
例 题 解 析
【例1】分析下列函数是否是分布函数.若是分布函数,判断是哪类随机变量的分布函数.
(1)(2)
(3)
分析:可根据分布函数的定义及性质进行判断.
解:(1)在上单调不减且右连续.同时,.故是随机变量的分布函数.有的图形可知是阶梯形曲线,故是离散型随机变量的分布函数;
(2)由于在上单调下降,故不是随机变量的分布函数.但只要将中的改为,就满足单调不减右连续,且,这时就是随机变量的分布函数.由可求得显然,是连续型随机变量的分布函数;
(3)在上单调不减且右连续,且,是随机变量的分布函数.但在和处不可导,故不存在密度函数,使得.同时,的图形也不是阶梯形曲线,因而既非连续型也非离散型随机变量的分布函数.
【例2】盒中装有大小相等的球10个,编号分别为0、1、2、…、9.从中任取1个,观察号码是“小于5”、“等于5”、“大于5”的情况.试定义一个随机变量,求其分布律和分布函数.
分析:“任取1球的号码”是随机变量,它随着试验的不同结果而取不同的值.根据号码是“小于5”、“等于5”、“大于5”的三种情况,可定义该随机变量的取值.进一步,可由随机变量的分布律与分布函数的定义,求出其分布律与分布函数.
解:分别用表示试验的三种结果“小于5”、“等于5”、“大于5”,这时试验的样本空间为,定义随机变量为:,取每个值的概率为:,
,;故的分布律为(表2-4):
表2-4
0 1 2
当时,;
当时,;
当时,;
当时,;
由此求得分布函数为:.
【例3】设1小时内进入某图书馆的读者人数服从泊松分布.已知1小时内无人进入图书馆的概率为0.01.求1小时内至少有2个读者进入图书馆的概率.
分析:1小时内进入图书馆的人数是一个随机变量,且.这样,表示在1小时内无人进入图书馆,表示在1小时内至少有2人进入图书馆.通过求参数,进一步,求.
解:设为在1小时内进入图书馆的人数,则,这时:已知,故.所求概率为:.
【例4】设随机变量的密度函数为,试求:
(1)常数;(2);(3)的分布函数.
分析:由密度函数的性质可求得常数;对密度函数在上积分,即得;根据连续型随机变量分布函数的定义可求的分布函数.
解:(1)由得:; (2);
(3)当时,是不可能事件,所以;当时,;
当时,;所以,的分布函数为,.
【例5】设顾客在某银行窗口等待服务的时间(以分计)服从指数分布,其概率密度为,某顾客在窗口等待服务,若超过10分钟,他就离开.他一个月要到银行5次,以表示一个月内他未等到服务而离开窗口的次数,写出的分布律,并求.
分析:显然,为随机变量,取值为0、1、2、3、4、5,且.由及分布律的定义,可求得的分布律,进而求.
解:的取值为0、1、2、3、4、5,.由题意得:
,故的分布律为:
,即(表2-5):
表2-5
0 1 2 3 … 5
…
所以,.
【例6】某单位招聘2500人,按考试成绩从高分到低分依次录用,共有10000人报名,假设报名者的成绩,已知90分以上有359人,60分以下有1151人,问被录用者中最低分为多少?
分析:已知成绩,但不知的值,所以,本题的关键是求,再进一步根据正态分布标准化方法进行求解.
解:根据题意:,故,而
,反查标准正态分布表,得: (1)
同样,,而
,通过反查标准正态分布表,得: (2)
由(1)、(2)两式解得:,所以;
已知录用率为,设被录用者中最低分为,则
,而
,反查标准正态分布表,得:,解得:
故:被录用者中最低分为79分.
【例7】设的分布律为(表2-6):
表2-6
1 2 3 4 5 6
求的分布律.
分析:是离散型随机变量,也是离散型随机变量.当取不同值时,将那些取相等的值分别合并,并把相应的概率相加.从而得到的分布律.
解:与的对应关系如下表2-7:
表2-7
1 2 3 4 5 6
0 -1 0 1 0 -1
由上表可知,的取值只有-1,0,1三种可能,由于
,
,
,所以,的分布律为(表2-8):
表2-8
-1 0 1
【例8】设随机变量服从正态分布,求随机变量函数的概率密度.
分析:由于函数在上单调增加,且可导,故可按公式法求的概率密度.
解:由知,所以的取值区间为.当时,;当时,有反函数,从而,由此得随机变量的概率密度为:.
【例9】已知,求的概率密度.
分析:根据分布函数的定义,先求的分布函数,然后对其求导,即可得到的概率密度.
解:若,则是不可能事件,因而,
若,则有
,,从而,的概率密度为:.
第三章 多维随机变量及其分布内 容 提 要
1、二维随机变量及其联合分布函数设,为随机变量,则称它们的有序数组()为二维随机变量.
设()为二维随机变量,对于任意实数、,称二元函数
为()的联合分布函数.
联合分布函数具有以下基本性质:
(1)是变量或的非减函数;
(2)且
;
(3)关于右连续,关于也右连续;
(4)对任意点,若,则
.
上式表示随机点落在区域内的概率为:.
2、二维离散型随机变量及其联合分布律如果二维随机变量所有可能取值是有限对或可列对,则称为二维离散型随机变量.
设为二维离散型随机变量,它的所有可能取值为将或表3.1称为的联合分布律.
表3.1
… …
┇
┇
… …
… …
┇ ┇ … ┇ …
… …
┇ ┇ … ┇ …
联合分布律具有下列性质:(1);(2).
3、二维连续型随机变量及其概率密度函数如果存在一个非负函数,使得二维随机变量的分布函数对任意实数有 ,则称是二维连续型随机变量,称为的联合密度函数(或概率密度函数).
联合密度函数具有下列性质:
(1)对一切实数,有;
(2);
(3)在任意平面域上,取值的概率
;
(4)如果在处连续,则.
4、二维随机变量的边缘分布设为二维随机变量,则称
,分别为关于和关于的边缘分布函数.
当为离散型随机变量,则称分别为关于和关于的边缘分布律.
当为连续型随机变量,则称
分别为关于和关于的边缘密度函数.
5、二维随机变量的条件分布
(1)离散型随机变量的条件分布设为二维离散型随机变量,其联合分布律和边缘分布律分别为
,则当固定,且时,称
为条件下随机变量的条件分布律.同理,有
(2)连续型随机变量的条件分布设为二维连续型随机变量,其联合密度函数和边缘密度函数分别为:.则当时,在和的连续点处,在条件下,的条件概率密度函数为:.
同理,有.
6、随机变量的独立性设及分别是的联合分布函数及边缘分布函数.如果对任何实数有则称随机变量与相互独立.
设为二维离散型随机变量,与相互独立的充要条件是.
设为二维连续型随机变量,与相互独立的充要条件是对任何实数,有.
7、两个随机变量函数的分布设二维随机变量的联合概率密度函数为,是的函数,则的分布函数为.
(1)的分布若为离散型随机变量,联合分布律为,则的概率函数为:
或.
若为连续型随机变量,概率密度函数为,则的概率函数为:
.
(2)的分布若为连续型随机变量,概率密度函数为,则的概率函数为:
.
疑 难 分 析
1、事件表示事件与的积事件,为什么不一定等于?
如同仅当事件相互独立时,才有一样,这里
依乘法原理.只有事件与相互独立时,才有
,因为.
2、二维随机变量的联合分布、边缘分布及条件分布之间存在什么样的关系?
由边缘分布与条件分布的定义与公式知,联合分布唯一确定边缘分布,因而也唯一确定条件分布.反之,边缘分布与条件分布都不能唯一确定联合分布.但由知,一个条件分布和它对应的边缘分布,能唯一确定联合分布.
但是,如果相互独立,则,即.说明当独立时,边缘分布也唯一确定联合分布,从而条件分布也唯一确定联合分布.
3、两个随机变量相互独立的概念与两个事件相互独立是否相同?为什么?
两个随机变量相互独立,是指组成二维随机变量的两个分量中一个分量的取值不受另一个分量取值的影响,满足.而两个事件的独立性,是指一个事件的发生不受另一个事件发生的影响,故有.两者可以说不是一个问题.
但是,组成二维随机变量的两个分量是同一试验的样本空间上的两个一维随机变量,而也是一个试验的样本空间的两个事件.因此,若把“”、“”看作两个事件,那么两者的意义近乎一致,从而独立性的定义几乎是相同的.
例 题 解 析
【例1】设一盒内有2件次品,3件正品,进行有放回的抽取和无放回的抽取.设为第一次抽取所得次品个数,为第二次抽取所取得次品个数.试分别求出两种抽取下:(1)的联合分布律;
(2)二维随机变量的边缘分布律;
(3)与是否相互独立.
分析:求二维随机变量的边缘分布律,仅需求出概率.由二维随机变量的边缘分布律的定义,;将联合分布律表中各列的概率相加,即得关于的边缘分布律;将联合分布律表中各行的概率相加,即得关于的边缘分布律.关于与是否相互独立问题可由二维离散型随机变量与相互独立的充要条件来验证.
解:都服从0-1分布,分别记
(1)在有放回抽样时,联合分布律为:
,可列成表,如表3-1所示.
在不放回抽样时,联合分布律为:
,可列成表,如表3-2所示.
表3-1 表3-2
0 1
0 1
0
1
9/25 6/25
6/25 4/25
0
1
3/10 3/10
3/10 1/10
(2)在有放回抽样时,对表3-1,按各列、各行相加,得关于、的边缘分布律为表3-3、表3-4.在不放回抽样时,对表3-2,按各列、各行相加,得关于、的边缘分布律为表3-5、表3-6.
表3-3 表3-4
0 1
0 1
3/5 2/5
3/5 2/5
表3-5 表3-6
0 1
0 1
3/5 2/5
3/5 2/5
(3)在有放回抽样时,因为,所以与相互独立;在不放回抽样时,因为,所以与不相互独立.
【例2】设的联合密度函数为 试求:
(1)常数;(2);(3)与是否相互独立.
分析:由联合密度函数的性质确定常数,由边缘密度函数的定义:,计算广义积分得.关于与是否相互独立的问题,可用二维连续型随机变量与相互独立的充要条件来验证.
解,(1)因为,因此;
(2)因为,
当时,,当为其它情况时,,所以;同理 ;
(3) 则有
,因此,与相互独立.
【例3】设二维随机变量的密度函数为
,求的分布函数.
分析:根据密度函数的定义可以看出分布函数与所在的区域有关,可分区域分别进行讨论.
解:当时,,于是;
当时,,
;
当时,
;
当时,
;
当时,
;所以
【例4】随机变量的密度函数为,求条件下的条件分布密度.
分析:通过的联合密度和边缘密度函数,来求在条件下条件分布密度.
解:当时,有;
故
【例5】随机变量的密度函数为,求.
分析:先求得边缘密度函数,再根据条件概率的定义进行求解.
解:因为
故
又
所以.
【例6】设随机变量和相互独立,有 求随机变量的概率密度函数.
分析:可按分布函数的定义先求得,再进一步求得概率密度函数;在计算累次积分时要分各种情况进行讨论.
解:,积分仅当时才不为0,考虑的区域与的取值,分四种情况计算(如图3-1).
当时,;
当时,;
当时,
;
图 3-1 当时,;所以
第四章 随机变量的数字特征内 容 提 要
1、随机变量的数学期望设离散型随机变量的分布律为,如果级数绝对收敛,则称级数的和为随机变量的数学期望.
设连续型随机变量的密度函数为,如果广义积分绝对收敛,则称此积分值为随机变量的数学期望.
数学期望有如下性质:
(1)设是常数,则;
(2)设是常数,则;
(3)若是随机变量,则;
对任意个随机变量,有
;
(4)若相互独立,则;
对任意个相互独立的随机变量,有
.
2、随机变量函数的数学期望设离散型随机变量的分布律为,则的函数的数学期望为,式中级数绝对收敛.
设连续型随机变量的密度函数为,则的函数的数学期望为,式中积分绝对收敛.
3、随机变量的方差设是一个随机变量,则称为的方差.称为的标准差或均方差.
计算方差也常用公式.
方差具有如下性质:
(1)设是常数,则;
(2)设是常数,则;
(3)若相互独立,则;
对任意个相互独立的随机变量,有
;
(4)的充要条件是:存在常数,使.
4、几种常见分布的数学期望与方差
(1);
(2);
(3);
(4);
(5);
(6);
(7);
(8).
5、矩设是随机变量,则称为的阶原点矩.
如果存在,则称为的阶中心矩.
设是二维随机变量,则称为的阶混合原点矩;称为的阶混合中心矩.
5、二维随机变量的数字特征
(1) 的数学期望;
若是离散型随机变量,则,.
若是连续型随机变量,则
,.这里,级数与积分都是绝对收敛的.
(2)的方差
若是离散型随机变量,则,.
若是连续型随机变量,则,.这里,级数与积分都是绝对收敛的.
6、协方差与相关系数随机变量的协方差为.它是1+1阶混合中心矩,有计算公式:.
随机变量的相关系数为.
相关系数具有如下性质:
(1);
(2)存在常数,使=1,即与以概率1线性相关;
(3)若独立,则,即不相关.反之,不一定成立.
疑 难 分 析
1、随机变量的数字特征在概率论中有什么意义?
知道一个随机变量的分布函数,就掌握了这个随机变量的统计规律性.但求得一个随机变量的分布函数是不容易的,而且往往也没有这个必要.随机变量的数字特征则比较简单易求,也能满足我们研究分析具体问题的需要,所以在概率论中很多的应用,同时也刻画了随机变量的某些特征,有重要的实际意义.
例如,数学期望反映了随机变量取值的平均值,表现为具体问题中的平均长度、平均时间、平均成绩、期望利润、期望成本等;方差反映了随机变量取值的波动程度;偏态系数、峰态系数则反映了随机变量取值的对称性和集中性.因此,在不同的问题上考察不同的数字特征,可以简单而切实地解决我们面临的实际问题.
2、在数学期望定义中为什么要求级数和广义积分绝对收敛?
首先,数学期望是一个有限值;其次,数学期望反映随机变量取值的平均值.因此,对级数和广义积分来说,绝对收敛保证了值的存在,且对级数来说,又与项的次序无关,从而更便于运算求值.而由于连续型随机变量可以离散化,从而广义积分与无穷级数有同样的意义.要求级数和广义积分绝对收敛是为了保证数学期望的存在与求出.
3、相关系数反映了随机变量和之间的什么关系?
相关系数是用随机变量和的协方差和标准差来定义的,它反映了随机变量和之间的相关程度.当时,称与依概率1线性相关;当时,称与不相关;当时,又分为强相关与弱相关.
4、两个随机变量与相互独立和不相关是一种什么样的关系?
(1)若、相互独立,则、不相关.因为、独立,则,故,从而
,所以、不相关.
(2)若、不相关,则、不一定独立.如:
因为,
,知、不相关.但,
,,知、不独立.
(3)若、相关,则、一定不独立.可由反证法说明.
(4)若、不相关,则、不一定不相关.因为、不独立,
,但若时,可以有,从而可以有、不相关.
但是,也有特殊情况,如服从二维正态分布时,、不相关与、独立是等价的.
例 题 解 析
【例1】设随机变量的分布律为求和.
分析:可直接按离散型随机变量的期望和方差的定义进行计算.
解,;同理,
所以.
【例2】设的概率密度函数为求
(1);(2);(3).
分析:由数学期望的定义及方差、协方差、相关系数的计算公式,首先须求出关于的边缘密度函数,然后在分别求数学期望、方差、协方差、相关系数等.
解:(1),
,所以
;
(2)
所以,;
(3),所以
;
.
【例3】设事件在第次试验中出现的概率为,表示在次独立试验中出现的次数,求和.
分析:可先求出随机变量的分布,再依公式计算数字特征.
解:设 于是:.
,故,
;,
由于各相互独立,所以.(式中)
【例4】设,,且相互独立,试求
和的相关系数.为不等于零的常数.
分析:求函数的数字特征,可有以下三种方法:(1)先求函数的概率分布,再依公式计算数字特征;(2)直接依随机变量函数数字特征的公式计算;(3)利用数字特征的有关定理计算.
解:
;
而,所以
.
【例5】设 是相互独立的随机变量,且
.记.证明
(1);(2).
分析:运用随机变量数字特征的某些性质及一定的技巧进行证明证明:(1),
;
(2)
.
第五章 大数定律和中心极限定理内 容 提 要
1、切贝雪夫不等式设随机变量的数学期望,方差,则对任意正数,有不等式 或成立.
2、大数定律
(1)切贝雪夫大数定理:设是相互独立的随机变量序列,数学期望和方差都存在,且,则对任意给定的,有
.
(2)贝努利大数定理:设是次重复独立试验中事件发生的次数,是事件在一次试验中发生的概率,则对于任意给定的,有.
贝努利大数定理给出了当很大时,发生的频率依概率收敛于的概率,证明了频率的稳定性.
3、中心极限定律
(1)独立同分布中心极限定理:设是独立同分布的随机变量序列,有有限的数学期望和方差,,.则对任意实数,随机变量的分布函数满足.
(2)李雅普诺夫定理:设 是不同分布且相互独立的随机变量,它们分别有数学期望和方差:,,记 ,若存在正数,,使得当时,有,则随机变量的分布函数对于任意的,满足
.
当很大时,.
(3)德莫佛—拉普拉斯定理:设随机变量服从参数为的二项分布,则对于任意的,恒有.
疑 难 分 析
1、依概率收敛的意义是什么?
依概率收敛即依概率1收敛.随机变量序列依概率收敛于,说明对于任给的,当很大时,事件“”的概率接近于1.但正因为是概率,所以不排除小概率事件“”发生.依概率收敛是不确定现象中关于收敛的一种说法.
2、大数定律在概率论中有何意义?
大数定律给出了在试验次数很大时频率和平均值的稳定性.从理论上肯定了用算术平均值代替均值,用频率代替概率的合理性,它既验证了概率论中一些假设的合理性,又为数理统计中用样本推断总体提供了理论依据.所以说,大数定律是概率论中最重要的基本定律.
3、中心极限定理有何实际意义?
许多随机变量本身并不属于正态分布,但它们的极限分布是正态分布.中心极限定理阐明了在什么条件下,原来不属于正态分布的一些随机变量其总和分布渐进地服从正态分布.为我们利用正态分布来解决这类随机变量的问题提供了理论依据.
4、大数定律与中心极限定理有何异同?
相同点:都是通过极限理论来研究概率问题,研究对象都是随机变量序列,解决的都是概率论中的基本问题,因而在概率论中有重要意义.不同点:大数定律研究当 时,概率或平均值的极限,而中心极限定理则研究随机变量总和的分布的极限.
例 题 解 析
【例1】设每次试验中某事件发生的概率为0.8,请用切贝雪夫不等式估计:需要多大,才能使得在次重复独立试验中事件发生的频率在0.79~0.81之间的概率至少为0.95?
分析:根据切贝雪夫不等式进行估计,须记住不等式.
解,设表示次重复独立试验中事件出现的次数,则,出现的频率为,
由题意得 ,.可见做32000次重复独立试验中可使事件发生的频率在0.79~0.81之间的概率至少为0.95.
【例2】证明:(马尔柯夫定理)如果随机变量序列,满足
,则对任给,有.
证明,,由切贝雪夫不等式,得,
根据题设条件,当时,,
但概率小于等于1,故马尔柯夫定理成立.
【例3】一本书共有100万个印刷符号.排版时每个符号被排错的概率为0.0001,校对时每个排版错误被改正的概率为0.9,求校对后错误不多于15个的概率.
分析:根据题意构造一个独立同分布的随机变量序列,具有有限的数学期望和方差,然后建立一个标准化的随机变量,应用中心极限定理求得结果.
解:设随机变量 则是独立同分布随机变量序列,有.作,为校对后错误总数.按中心极限定理(德—拉定理),有
.
第六章 数理统计的基本概念内 容 提 要
1、总体与样本在数理统计中,将研究对象的全体称为总体;组成总体的每个元素称为个体.
从总体中抽取的一部分个体,称为总体的一个样本;样本中个体的个数称为样本的容量.
从分布函数为的随机变量中随机地抽取的相互独立的个随机变量,具有与总体相同的分布,则称为从总体得到的容量为的随机样本.一次具体的抽取记录是随机变量的一个观察值,也用来表示这些随机变量.
2、统计量设是总体的一个样本,则不含未知参数的样本的连续函数称为统计量.统计量也是一个随机变量,常见的统计量有
(1)样本均值 ;
(2)样本方差 ;
(3)样本标准差 ;
(4)样本阶原点矩 ;
(5)样本阶中心矩 .
2、经验分布函数设是总体的一组观察值将它们按大小顺序排列为:
,称它为顺序统计量.则称
为经验分布函数(或样本分布函数).
3、一些常用统计量的分布
(1)分布设,是的一个样本,则统计量服从自由度为的分布,记作.
(2)分布设,,且相互独立,则随机变量服从自由度为的分布,记作.分布又称为学生分布.
(3)分布设,,且相互独立,则随机变量服从自由度为的分布,记作.
4、正态总体统计量的分布设,是的一个样本,则
(1)样本均值服从正态分布,有
或;
(2)样本方差 ;
(3)统计量 .
设,是的一个样本,是的一个样本,两者相互独立.则
(1)统计量 ;
(2)当时,统计量 ,其中
;
(3)统计量 ;
(4)统计量 .
疑 难 分 析
1、为什么要引进统计量?为什么统计量中不能含有未知参数?
引进统计量的目的是为了将杂乱无序的样本值归结为一个便于进行统计推断和研究分析的形式,集中样本所含信息,使之更易揭示问题实质.
如果统计量中仍含有未知参数,就无法依靠样本观测值求出未知参数的估计值,因而就失去利用统计量估计未知参数的意义.
2、什么是自由度?
所谓自由度,通常是指不受任何约束,可以自由变动的变量的个数.在数理统计中,自由度是对随机变量的二次型(或称为二次统计量)而言的.因为一个含有个变量的二次型的秩是指对称矩阵的秩,它的大小反映个变量中能自由变动的无约束变量的多少.我们所说的自由度,就是二次型的秩.
例 题 解 析
【例1】设,(1)不全等;(2)
.问:是否为简单随机样本?
分析:相互独立且与总体同分布的样本是简单随机样本,由此进行验证.
解:(1) 由于,且不全等,所以不是同分布,因此不是简单随机样本.
(2)由于,那么服从相同的分布,但不知道是否相互独立,因此不一定是简单随机样本.
【例2】设,是取自总体的简单随机样本,为样本均值,为样本二阶中心矩,为样本方差,问下列统计量
(1),(2),(3)各服从什么分布?
分析:利用已知统计量的分布进行分析.
解:(1)由于,又有
,因此;
(2)由于,又有,因此
;
(3)由得:,由分布的定义得:.
【例3】设总体服从参数为的指数分布,分布密度为
求和.
分析:利用已知指数分布的期望、方差和它们的性质进行计算.
解:由于,所以
;
;
.
【例4】设总体,是取自总体的简单随机样本,为样本均值.问样本容量取多大时有:
(1);(2).
解:(1)要使,即有
,故取.
(2)由中心极限定理,要使
,即有
,故取.
第七章 参数估计内 容 提 要
1、参数的点估计及其求法根据总体的一个样本来估计参数的真值称为参数的点估计.
(1)估计量根据总体的一个样本构造的用其观察值来估计参数真值的统计量称为估计量,称为估计值.
(2)矩估计法用样本矩作为相应的总体矩估计来求出估计量的方法.其思想是:如果总体中有个未知参数,可以用前阶样本矩估计相应的前阶总体矩,然后利用未知参数与总体矩的函数关系,求出参数的估计量.
(3)极大似然估计法设总体的密度函数为,其中为未知参数,是取自总体的样本,为一组样本观测值,则总体的联合密度函数称为似然函数,记作 ,取对数 ,由,求得似然函数的极大值,即为未知参数的极大似然估计.其思想是:在已知总体概率分布时,对总体进行次观测,得到一个样本,选取概率最大的值作为未知参数的真值的估计是最合理的.
(4)估计量的优劣标准
1)无偏性.设存在,且,则称值是的无偏估计量.否则称为有偏估计量.
2)有效性.设和均为参数的无偏估计量,如果,则称估计量比有效.
3)一致性(相合性).设为的估计量,与样本容量有关,记为,对于任意给定的,都有 ,则称为参数的一致估计量.
2、参数的区间估计设总体的分布中含有未知参数,若存在样本的两个函数和,使对于给定的,有,则随机区间()称为参数的置信度为的双侧置信区间.
若有或,则定义或为的置信度为的单侧置信区间.
(1)单个正态总体均值与方差的置信区间(见表7-1)
表7-1
估计的参 数
参数的情 况
统计量
置信度为的置信区间
已知
未知
未知
已知
(2)两个正态总体均值差与方差比的置信区间(见表7-2)
表7-2
估计的参 数
参数的情况
置信度为的置信区间
已知
未知
未知
已知
疑 难 分 析
1、有了点估计为什么还要引入区间估计?
点估计是利用样本值求得参数的一个近似值,对了解参数的大小有一定的参考价值,但没有给出近似值的精确程度和可信程度,因此在使用中意义不大.而区间估计是通过两个(或一个)统计量,构成随机区间(),使此区间包含未知参数的概率不小于事先设定的常数.的值越大,则()包含真值的概率越大,即由样本值得到的区间()覆盖未知参数的可信程度越大,而()的长度越小,又反映估计的精确程度越高.所以区间估计不仅是提供了的一个估计范围,还给出了估计范围的精确与可信程度,弥补了点估计的不足,有广泛的应用意义.
2、怎样理解置信度的意义?
置信度有两种方式的理解.
对于一个置信区间()而言,表示随机区间()中包含未知参数的概率不小于事先设定的数值.
对于区间估计而言,表示在样本容量不变的情况下反复抽样得到的全部区间中,包含真值的区间不少于.
3、怎样处理区间估计中精度与可靠性之间的矛盾?
区间估计量()的长度称为精度,称为()的可靠程度.长度越短,精确程度越高;越大,可靠程度越大.但在样本容量固定时,两者不能兼顾.因此,奈曼指出的原则是,先照顾可靠程度,在满足可靠性时,再提高精度.否则,只有增加样本容量,才能解决.
例 题 解 析
【例1】设总体服从几何分布,分布律为:,其中为未知参数,且.设为的一个样本,求的矩估计与极大似然估计.
分析:根据矩估计与极大似然估计方法直接进行估计.
解:(1)因为,所以的矩估计为;
(2)似然函数为:,
取对数:,
求导,令,
解得,的极大似然估计为.
【例2】设是参数的无偏估计,且有,试证明不是的无偏估计.
分析:证明无偏性,可直接按定义:进行证明.
证明:由,及(由题意),
而,可以得出 ,
因此,不是的无偏估计.
【例3】某厂生产的钢丝.其抗拉强度,其中均未知,从中任取9根钢丝,测得其强度(单位:kg)为:
578,582,574.568,596,572,570,584,578
求总体方差、均方差的置信度为0.99的置信区间.
分析:由于参数均未知,故取统计量,从而得、置信度为的置信区间分别为
、.
解:,,
,
所以方差的置信度为0.99的置信区间为:
,即(26.96,440.48);
均方差的置信度为0.99的置信区间为:
,即(5.19,20.99).
【例4】设有两个正态总体,.分别从和抽取容量为和的两个样本,并求得.试求两正态总体方差比的置信度为0.98的置信区间.
分析:由于均未知,故取统计量,的置信度为的置信区间为:.
解:由,查表得:,所以,的置信度为0.98的置信区间为:(0.2152,4.5714).
第八章 假设检验内 容 提 要
1、假设检验的基本概念
(1)假设检验对总体的分布提出某种假设,然后利用样本所提供的信息,根据概率论的原理对假设作出“接受”还是“拒绝”的判断,这一类统计推断问题统称为假设检验.
假设检验所依据的原则是:小概率事件在一次试验中是不该发生的.
(2)两类错误在根据样本作推断时,由于样本的随机性,难免会作出错误的决定.当原假设为真时,而作出拒绝的判断,称为犯第一类错误;当原假设不真时,而作出接受的判断,称为犯第二类错误.
控制犯第一类错误的概率不大于一个较小的数称为检验的显著性水平.
(3)假设检验的基本步骤
1)建立原假设;
2)根据检验对象,构造合适的统计量;
3)求出在假设成立的条件下,该统计量服从的概率分布;
4)选择显著性水平,确定临界值;
5)根据样本值计算统计量的观察值,由此作出接受或拒绝的结论.
2、单个正态总体的假设检验设总体.
(1)关于均值的检验(见表8-1)
(2)关于方差的检验(见表8-2)
表8-1
统计量
拒绝域
检验法(已知)
检验法(未知)
表8-1
统计量
拒绝域
检验法(已知)
检验法(未知)
3、两个正态总体的假设检验设总体,样本容量为;,样本容量为.
(1)两个正态总体均值的检验(见表8-3)
(2)两个正态总体方差的检验(见表8-4)
表8-3
统计量
拒绝域
检验法(已知)
检验法未知)
表8-4
统计量
拒绝域
检验法已知)
检验法未知)
疑 难 分 析
1、什么是显著性检验?其基本思想是什么?有什么缺陷?
显著性检验是指只考虑一个假设是否成立的检验.其原则是,只要求犯第一类错误的概率不大于设定的.
基本思想是:根据小概率事件在一次试验中一般不应该发生的实际推断原理来检验假设是否成立.
其缺陷是:由于只有一个假设,不能评判显著性检验方法本身的好坏,因而对同一假设的众多显著性检验法难以评定优劣.
2、对于实际问题的择一检验中,原假设与备择假设地位是否相等?应如何选择原假设与备择假设?
假设检验是控制犯第一类错误的概率,所以检验发本身对原假设起保护的作用,决不轻易拒绝原假设,因此原假设与备择假设的地位是不相等的,正因为如此,常常把那些保守的、历史的、经验的取为原假设,而把那些猜测的、可能的、预期的取为备择假设.
3、参数的假设检验与区间估计之间有什么关系?
常见的区间估计与相应的参数的假设检验有着密切联系,一般某个参数的置信区间可以确定关于此参数的假设检验的接受域.如已知,
为一个样本.对于给定置信度,的置信区间为:.而的显著性水平为的拒绝域为(假设)为.从以上结果可以看出,置信度的的置信区间与关于的假设的显著性水平为的接受域是相呼应的,由它们中的一个可以确定另一个.
例 题 解 析
【例1】根据长期资料分析,钢筋强度服从正态分布.今测得六炉钢生产出钢的强度分别为:48.5,49.0,53.5,49.5,56.0,52.5;能否认为其强度的均值为52.0()?
分析:问题为在未知的条件下,检验.
解,检验假设
取统计量
当,自由度,查分布表得临界值
由题意得统计量的观察值
由于,所以接受假设,即认为钢筋的强度的均值为52.0.
【例2】两台机床加工同一种零件,分别取6个和9个零件测量其长度,计算得,假设零件长度服从正态分布,问:是否认为两台机床加工的零件长度的方差无显著差异()?
分析:问题为在未知的条件下,检验.
解,检验假设
选择统计量,因为,
而,所以有
,故接受,即认为两台机床加工的零件长度的方差无显著差异.
第九章 方差分析和回归分析内 容 提 要
1、方差分析
(1)基本概念方差分析:通过随机抽样及数据处理,检验试验结果是否受试验条件这一类可控制因素显著影响,从而确认对质量指标影响主要来自哪一类因素,即用来鉴别所谓因素效应的有效统计分析方法.
因素(因子):人为可以控制的实验条件称为因素或因子.
水平:因素或因子的不同等级或因素所处的不同状态称为因素的不同水平.
单因素试验:试验中如果只有一个因素或因子在变化,其它可控条件保持不变,这样的方差试验称为单因素试验.
多因素试验:试验中不止一个因素或因子在变化,称为多因素试验.若只有二个因素在变化就叫双因素试验.
(2)单因素试验的方差分析设因素有j个不同水平(),在总的个水平下均重复试验i次().每一个水平视为一个独立总体,每个水平下总的m次试验结果视为取自的容量为m的样本.单因素方差分析的一般方法步骤如下:
1)提出待检假设H0:;
2)列方差计算表9-1,计算、;
3)选取建立F统计量
,并计算F统计量的值;
4)对给定的检验水平,查F分布表,找到F统计量的临界值(表值);
5)比较得出结论:
若计算值临界值,拒绝H0,即因素水平影响显著,或有显著影响;
② 若计算值临界值,接受H0,即因素水平影响不显著或没有显著影响.
单因素方差分析见表9-2.
表9-1
水平
试验序号
…
…
1
x11
x12
…
x1j
…
x1r
2
x12
x22
…
x2j
…
X2r
…
…
…
…
…
…
…
i
xi1
xi2
…
xij
…
xir
…
…
…
…
…
…
…
m
xm1
xm2
…
xmj
…
xmr
…
…
…
…
…
…
2、回归分析
(1)基本概念回归分析:利用样本数据建立起相关变量之间相关关系的数学模型,并应用统计推断的一般法则,对相关关系进行有效的统计分析方法.
一元线性回归模型为 , 其中,a、b称为回归系数.
(2)最小二乘法表9-2
方差来源
离差平方和
方差
自由度
F统计量计算值
F临界值
(表值)
组间
组内
总变差
或
线性回归方程可表示为 ,可用最小二乘法求得回归系数的估计值:
或
令 则
(3)线性相关显著性检验检验回归方程是否有效,或x、y之间线性相关关系是否显著,只要检验回归系数是否成立.这个问题只存在下面两种可能
1)表示与x无关 即y与x没有线性相关关系,反过来,若不能否定1),就表示线性相关显著;
2)有二种可能,都表示y与x之间线性相关关系成立.
运用检验法进行线性相关显著性检验.检验法检验线性相关显著性或回归方程有效性的一般步骤为:
1)提出检验假设::;
2)选用统计量,并计算值;
3)在给定下,查相关系数表得到临界值;
4)比较得出结论:
① 若,拒绝,所求回归方程有效或线性相关显著;
② 若,接受,所求回归方程无效或线性相关不显著.
在实际应用中,经常出现的情况,这时不用查表即可判断线性相关显著,即回归方程有效.
疑 难 分 析
1、怎样区分讨论的问题是方差分析还是回归分析?
实际问题所考察的指标往往既受因素的影响,又受随机误差的影响.而因素又分为属性的和数量的.属性的因素一般无数量大小可言,只是性质的不同,如:种子的品种、机器的型号、加工的工艺、材料的品质等等.数量的因素,可以在一定范围内取值,如:人的身高、体重,试验的温度,产品的合格率等等.当所考虑的因素是属性时,问题属于方差分析的范围;当所考虑的因素是数量时,问题属于回归分析的范围.
例 题 解 析
【例1】设某地区酿酒公司下属有、、、共4个酒厂.公司总经理为提高酒的质量,开展质量评优活动,随机地从4个酒厂各抽取3瓶样酒,指定同一名品酒员按事先规定的色、香、味质量标准评分,评分结果的原始数据如表9-3所示.
表9-3
厂别
试验序号
1
5 8 7 11
2
6 9 8 10
3
6 8 6 12
试问:不同酒厂对酒的质量有无显著影响()?
解:(1)提出待检假设H0:;
(2)列方差计算表,如表9-4所示.
利用表中最后一列,即()列的数据计算表9-4
水平
试验序号
1
5
8
7
11
2
6
9
8
10
3
6
8
6
12
()
17
25
21
33
=96
289
625
441
1089
=2444
97
209
149
365
=820
(3)选F统计量并求F计算值和临界值
又查附表5,
(4)比较得出结论因为,拒绝H0,即表示不同酒厂对酒的质量有显著影响.这里,可认为因素水平影响特别显著,事实上由原始数据可见,评分特别高,直观上已可判断有显著差异,说明分析的结论是符合实际情况的,也证明了方差分析的科学性.
【例2】设有某种创汇商品在国际市场上需求量q(单位:万件),价格p(单位:万美元/件).根据往年市场调查获悉q与p之间的一组调查数据如表9-5所示.
表9-5
价格 pi
2 4 4 4.5 3 4.2 3.5 2.5 3.3 3
需求量 qi
6 2 2 1 4 1.5 2.8 5.1 3.4 4.2
如果今年该商品预定价为p=4.6(万美元/件),要求根据往年资料建立的q对p的回归方程,进行线性相关性是否显著,并预测国际市场上今年的需求量大致为多大?()
解:根据样本数据,用最小二乘法求、的值.
将、的值代入得到所要求的引例中需求量q对价格p的回归方程为
.
对所建立的q对p的回归方程进行线性相关性显著检验:
1)提出待检假设:;
2)选用统计量,并利用回归计算的结果计算:
因为;;
所以 ;
3)查附表7得到 ;
4)结论
∵,拒绝,即q对p的回归方程有效或线性相关性显著.
经检验说明:回归方程有效,可以用于预测.
当p=4.6时,国际市场上今年对该商品的需求量大致为:10.136-2.04×4.6=0.752(万件).