第三章 统计基础第一节 几个基本概念第二节 异常数据的剔除第三节 统计假设检验第四节 Excel在统计假设检验中的应用第一节 几个基本概念一、数学期望二、方 差三、总体和样本四、统计量五、变异系数第一节 几个基本概念在重复测定某种食品的糖度时,由于种种偶然的因素的影响,测定结果是一个 随机变量 。在这种情况下,我们关心的是:
( 1)测定的 平均值 是多少?
( 2)测定的 精密度 如何?即测定值与平均值的离散程度如何?离散程度越小。测定结果越精确。
随机变量的平均值和离散程度虽然不能完整地描述随机变量,但是它们能描述随机变量某些特征。常用来描述随机变量特征的量为 数学期望 和 方差 。
一、数学期望例:对某种食品的水分进行了 n次测定,m1次测定的结果为 X1,m2次测定的结果为 X2,……,mk次测定的结果为 Xk,
则测定结果的平均值为
= (X1*m1+X2*m2+……+X k*mk)/n
其中 n=m1+m2+……+m k,mi为 Xi出现的频数,mi/n为 Xi
出现的频率。
因此,平均值 就是随机变量所取值与对应的频率乘积之和。由于频率具有偶然性,通常用频率的稳定值 ——概率 来代替 频率,这样就消除了偶然性,从本质上反映了随机变量的平均值。习惯上,把这个平均结果叫做数学期望或均值。
数学期望 的含义就是通过大量观察,可以期望这个随机变量取这个值。
二、方差它是描述测定值对数学期望的平均 偏离程度 。
三、总体和样本总体,在数理统计中,把所有要研究对象的全体叫做总体。
个体,构成总体的每个单元。
样本,从总体中抽取的一部分个体叫做总体的一个样本。
样本容量,样本中个体的数目。
任何一个总体都可以用一个随机变量来代表。
例:某饮料厂某班生产汽水 1000瓶,则这个班生产的汽水的全体( 1000)瓶是总体,每一瓶是个体。
如果我关心的是这班产品的细菌总数(个 /mL),则这班产品的细菌总数就可视为一个随机变量,每瓶汽水的细菌数就是随机变量的一个取值。
研究中总是把总体和他所对应的一个随机变量等同起来,因此,凡是提到总体就是指一个随机变量,提到一个随机变量就是指一个总体。
四、统计量为了从总体的一个样本推得总体的一些性质,就需要对所取得的样本做一些计算,即 构成样本的某种函数,这种函数称为统计量 。由于样本是一个随机变量,因此作为样本的函数的统计量也是随机变量。
数理统计中,常用的统计量有 中数、众数、样本均值、
标准误、样本方差、样本标准差和极差 等。
( 1)中数将样本内所有变量从小到大依次排列,处于中间位置的变量即为 中数( median) 。如果变量的个数为偶数,
即中间两个变量的平均数为中数。
( 2)众数样本中最常见的一个数值或出现次数最多的一组的中点,即为 众数( mode)
( 3)样本均值(算术平均值)( mean)
n
x
n
xxx
x
n
i
i
n
121?
( 4)样本极差,
R=max( X1,X2,……,Xn) —min( X1,X2,……,Xn )
( 5) 样本方差 ( mean square缩写为 MS),又称,记为 s2,即
122 /n)x(xs
( 6) 总体标准差标准差 ( standard deviation,S.D.) 是随机误差的代表,
是随机误差绝对值的统计均值。在国家计量技术规范中,
标准差的正式名称是标准偏差,简称标准差,用符号 σ表示。它的定义为:
N
μ)(x
N
i
i?
1
2
( 7) 样本标准差统计学上把样本方差 s2 的平方根叫做样本标准差,记为 s,
即:
1
1
2
n
)x(x
s
n
i
i
s反映了整个样本变量的分散程度。样本标准差小,说明样本变量的分布比较密集在平均数附近,否则,样本的分布比较离散。当 n→ ∝ 时,s趋向于 σ。
在表达有随机误差的实验结果数据中,我们常见到
“平均数 ± 标准差,
中的标准差,实际上是指总体标准差的估计值 S。
( 8)样本平均数的标准误及其估计在抽样试验中,常用到样本平均数的标准差,也称样本平均数的标准误或简称标准误 ( standard error of mean,S.E.) 。
样本标准差 s不能直接反映样本平均数与总体平均数究竟误差多少,因此,平均数的误差实质上是样本平均数与总体平均数之间的相对误差。
样本平均数的标准误定义为:
该式与总体标准差 σ类似,样本平均数的标准误也是无法求出,只能估计 。
nx

为了区别是用样本标准差的值来估计总体标准差的值,
样本平均数的标准误的估计值用下式表示 ( 也称平均数的标准偏差)
该式反映的是平均数的离散程度。标准误越小,说明样本平均数与总体平均数越接近,否则,表明样本平均数比较离散。当 n→ ∝,样本标准误趋向于总体标准误。
在表达有随机误差的实验结果数据中,我们常见到
“平均数 ± 标准误”
中的标准误,实际上是指样本平均数标准差的估计值。
n
ss
x?
标准差 (亦称单数标准差 ) 一般用 S表示,是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标;而标准误一般用 sx
表示,反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。
标准差与标准误的区别和联系随着样本数 (或测量次数 ) n 的增大,标准差趋向某个稳定值,即样本标准差 s 越接近总体标准差 σ,而标准误则随着样本数 (或测量次数 ) n 的增大逐渐减小,即样本平均数越接近总体平均数 μ; 故在实验中也经常采用适当增加样本数 (或测量次数 ) n 减小 sx 的方法来减小实验误差,但样本数太大意义也不大。
标准差是最常用的统计量,一般用于表示一组样本变量的分散程度 ; 标准误一般用于统计推断中,主要包括假设检验和参数估计,如样本平均数的假设检验、参数的区间估计与点估计等。
标准差与标准误既有明显区别,又密切相关,标准误是标准差的 1/ n ; 二者都是衡量样本变量 (观测值 ) 随机性的指标,只是从不同角度来反映误差 ; 二者在统计推断和误差分析中都有重要的应用。
标准差与标准误的应用中数、众数、样本均值是描述数据的平均状态或集中位置的;标准误、样本方差、标准差和极差是描述数据的波动情况或离散程度的。
例:在某饮料灌装机灌装得汽水中随机抽取 6瓶,检验瓶内饮料的体积( mL),结果为
251.0,250.8,249,249.5,251.5,250.5。
求:该批产品灌装的平均体积,样本方差,标准差,极差。
解:
平均体积 = ( 251.0 + 250.8 + 249 + 249.5 + 251.5 + 250.2 ) /6
= 250.4
样本方差 S2 = =0.90
标准差 S = 0.95
极 差 = 251.5-249 = 2.5
1/)( 2 nxx
五、变异系数变异系数是衡量样本中各观测值离散程度的另一个统计量 。
标准差与平均数的比值称为 变异系数,记为 C·V
coefficient of variation 。
在比较两个样本或制定食品质量标准时,因单位不同,平均数各异,就不能用标准差进行食品质量评价,就应采用变异系数来评价两个或多个样本的相对变异程度。
变异系数可以消除单位 和(或)平均数不同对两个或多个样本离散程度比较的影响。
%1 00 xsVC
变异系数的大小,同时受平均数和标准差两个统计量的影响,
变异系数表示样品质量的变异程度,变异系数越大,食品质量的波动越大,因此变异系数是衡量食品质量优劣的一种指标。
例:红玉苹果与金冠苹果制的果脯的含酸量平均数和标准差如下,计算变异系数。
品种 S C.V
红玉 6.44 1.91 23.9%
金冠 5.63 1.43 25.4%
x
如果只看标准差,金冠苹果制的果脯的含酸量的离散程度低于红玉苹果制的果脯。但是两者的平均数不同,不能直接用标准差进行比较其分布的变异量。从变异系数可以看出,红玉苹果制的果脯含酸量的变异系数小于金冠的,因此红玉苹果制的果脯的含酸量变异度小。
第二节 异常数据的剔除一、拉依达准则二、肖维勒准则三,t-检验准则试验数据中如果混有异常数据,就会歪曲试验结果,
因此必须正确地剔除异常数据,异常数据一般在重复间的规律性可做出判断,因此试验一般重复 3次以上是必要的。
如果各处理在 3次重复表现出的规律相同,仅有一个处理的数据表现出异常,则可判断为异常数据。
另一方面,由于在特定的条件下进行试验测定的随机波动性,导致测定数据有一定的分散性,如果人为舍掉一些误差较大的,但不属于异常数据,这样会造成虚假的高精度,因此,通常采用物理判别剔除和统计判别剔除。
物理判别剔除是在试验过程中根据常识或经验判断由于振动、误读等原因造成的异常数据,随时发现随时剔除。
统计判别剔除的基本思想是根据概率论的原理确定一个置信限,凡超出此置信限的误差一般认为不属于随机误差范围,属于应剔除的异常数据。
一、拉依达准则该准则简称 3σ 准则。将超过 3σ 的数据剔除,
犯“弃真”错误的概率为 0.27%,即:
Vd = | | > 3σ (1 ≤ d ≤ n)
xd 被判定为异常数据,应予以剔除。 在实际应用中,
当样本数 n<10时,不能应用此准则。 σ,为 σ正态总体的标准差。
xx d?
二、肖维勒准则若某个测定值 xd 的残差 Vd =
(1 ≤ d ≤ n) 满足以下公式:
| Vd | ≥ Wn * s
xd 被判定为异常数据,应予以剔除。 Wn 可以查表获得。
xx d?
Wn值表
n Wn n Wn n Wn n Wn n Wn n Wn
3 1.38 10 1.96 17 2.17 24 2.31 35 2.45 100 2.81
4 1.53 11 2.00 18 2.20 25 2.33 40 2.50 150 2.93
5 1.65 12 2.03 19 2.22 26 2.34 50 2.58 185 3.00
6 1.73 13 2.07 20 2.24 27 2.35 60 2.64 200 3.02
7 1.80 14 2.10 21 2.26 28 2.37 70 2.69 500 3.29
8 1.86 15 2.13 22 2.28 29 2.38 80 2.74 1000 3.48
9 1.92 16 2.15 23 2.30 30 2.39 90 2.78
3,t-检验准则把测定值的最大和最小值作为被检验量 x0除去,进行 及 S 计算,若时,舍去 x0。
x
Snkxx?)(|| 0
k(a,n)值表
n a n a n a
0.01 0.05 0.01 0.05 0.01 0.05
4 4.97 11.46 13 2.29 3.23 22 2.14 2.91
5 3.56 6.53 14 2.26 3.17 23 2.13 2.9
6 3.04 5.04 15 2.24 3.12 24 2.12 2.88
7 2.78 4.36 16 2.22 3.08 25 2.11 2.86
8 2.62 3.96 17 2.2 3.04 26 2.1 2.85
9 2.51 3.71 18 2.18 3.01 27 2.1 2.84
10 2.43 3.54 19 2.17 3 28 2.09 2.83
11 2.37 3.41 20 2.16 2.95 29 2.09 2.82
12 2.33 3.31 21 2.15 2.93 30 2.08 2.81
关于异常数据的剔除还有其它一些准则,
如格拉布斯准则、狄克逊准则等,应用效果是相同的,拉布依达准则适用于大样本,肖维勒准则和 t-检验准则适用于小样本。
第三节 统计假设检验一、假设检验的基本思想二、两类错误三、假设检验的步骤四、假设检验的单尾检验与双尾检验五、统计假设检验
(一)一个正态总体的检验
(二)两个正态总体的检验一、假设检验的基本思想
,小概率事件在一次试验中被认为是不可能出现的。,
举例说明:
一个箱中有白色乒乓球和黄色乒乓球,总数为 100个,
但不知道它们分别的数目。现在提出假设:,其中有 99个白乒乓球,。现在用上面的想法来验证这个假设的正确性,我们设定这个假设是正确的,那么从箱中任取一个乒乓球,取到黄色乒乓球的概率为 1/100=0.01,认为是一个小概率事件。
如果竟然一次就抽得了黄色的乒乓球,那么我们就自然会否定这个假设,认为箱中白乒乓球的个数不是 99个。
有一个问题值得注意,就是概率小到什么程度才算是小概率事件呢?这没有绝对的标准,要根据具体情况而定,通常把概率不超过 0.05的事件当作小概率事件,有时则把概率不超过 0.01的事件当作小概率事件。
二、两类错误假设检验的判断,并不是完全肯定的结论,而是根据概率原理作出的一种合理的推断,因此,存在错误的可能性。这主要与小概率事件的界限值大小有关。
错误有两种:一种是原来假设是正确的,而做出了拒绝的判断,这称为,弃真,错误;另外一种是原来假设是错误的,而做出了接受的判断,这称为,取伪,错误。
犯第一类错误的原因:检验水平定得过低( α取值过大),否定区域过宽,错误地把本来正确的假设否定了,把两个本来没有实质差异的样本当成本质的差异。
犯第二类错误的原因:检验水平定得过高( α取值过小),否定区域过窄,错误地把本来错误的假设接受了,把两个本来有实质差异的样本当成没有本质的差异。
Ⅰ 型错误和 Ⅱ 型错误由样本推断的结果真实结果 拒绝 H0 不拒绝 H0
H0成立 Ⅰ 型错误 α 推断正确 (1- α )
H0不成立 推断正确( 1- β) Ⅱ 型错误 β
( 1- β)即 把握度 ( power of a test):两总体确有差别,被检出有差别的能力
( 1- α)即 可信度 ( confidence level):重复抽样时,
样本区间包含总体参数( m)的百分数
b
减少(增加) I型错误,将会增加(减少) II型错误增大 n 同时降低? 与 b
与 b 间的关系三、假设检验的步骤:
1、提出假设,假设小概率事件不可能发生。
2、构造合适的统计量根据不同的目的,统计量的要求,选择合适的统计量。而且要保证总体是服从正态分布。
3、由样本值计算统计量
4、在给定的信度下,查相应统计量的正态分布表得出统计量的临界值。
5、做出判断,如果计算所得的统计量值的绝对值大于临界值,则拒绝原假设;如果计算所得的统计量值的绝对值小于等于临界值,则接受原假设。
四、假设检验的单尾检验与双尾检验单尾检验:如果假设中只含有大于号或小于号,这样的检验称为单尾检验。
双尾检验:如果假设中同时含有大于号和小于号,这样的检验称为双尾检验。
95%接受区域
2.5%否定区域 2.5%否定区域例 1:对单个样本平均数进行显著性检验,在假设检验时,我们假设样本的平均数与总体的平均数没有显著性差异,
也即认为是相等的。
如果经过检验发现样本的平均数与总体的平均数有显著差异,即不相等,这就有两种可能,一种是样本平均数大于总体平均数,另一种是样本平均数小于总体平均数。
例 2:国家规定酿造白酒中的甲醇含量不得大于 0.1%,
也就是说只能小于等于 0.1%,在进行检验时否定区域只能在正态曲线的左侧才有意义。
两种检验方法一样,只是在确定小概率事件的边界问题上不同。
在查概率表时,要注意区分是单尾概率表还是双尾概率表。如果是双尾检验,在查单尾概率表时,需要将检验水平值除以 2,再查概率表;如果是单尾检验,
在查双尾概率表时,需要将检验水平值乘以 2,再查概率表,从而获得统计量的临界值。
如:两尾检验的检验水平 α=0.05,一尾概率
u0.05=1.64,应将检验水平 α =0.05除以 2得 0.025,
u0.025=1.96;
如果一尾检验的检验水平 α=0.05,两尾概率
u0.05=1.96,应将检验水平 α=0.05乘以 2得 0.1,
u0.1=1.64。
统计检验中,有显著性检验和判别性检验之分。所谓显著性检验是鉴定某些新产品、新技术、新工艺或其他改革措施是否比原产品、原技术、原工艺能显著地提高产品质量或显著地降低生产成本。因此,显著性检验一般多为单尾检验。 判别性检验是鉴定两个样本是否来自一个总体,所以 判别性检验多为双尾检验 。
在进行试验结果分析时,应根据其处理的性质和试验结果的准确性,确定显著性检验用单尾还是双尾。
五、假设检验
(一)一个正态总体的假设检验(举例说明)
例:奶粉包装机正常工作时,包装量服从正态分布,额定标准( a0)为每袋净重 500g,为了检验包装机是否正常工作,随机抽取奶粉 9袋,称其净重( g)
分别为,498,508,518,526,488,513,510,
516,513。从这个九个数据能否判断包装机是否正常工作。
1,方差已知时一个正态总体均值的检验如果根据长期的工作经验知道总体的标准差 σ=15g。
假设包装机工作正常,也就是总体均值等于 500g。然后构造统计量如下:
通过计算得 μ0=2.0,若 α=0.05,查表得 μα/2=μ0.025=1.96。
|μ0 | > μα/2,说明在一次抽样中小概率事件发生了。因此,
认为原假设不正确,也就是说包装机工作不正常。
n
ax
/
0

双尾检验,查的是单尾概率表说 明
1、总体符合正态分布;
2,U检验适用于 大样本容量 ;
3、它是在总体的标准差已知的情况下对样本 均值 的检验,即检验样本的均值是否在总体均值的变化范围内。
2,方差未知时一个正态总体均值的检验假设包装机工作正常,也就是总体均值等于 500g。
然后构造统计量如下:
ns
ax
t
/
0
通过计算得 t0=2.67,若 α=0.05,f=n-1=8,查表得
tα/2,n-1=t 0.025,8=2.306。
|t 0 | > tα/2,n-1,因此,拒绝原假设,也就是说包装机工作不正常。
双尾检验,查的是单尾概率表说 明
1、总体符合正态分布;
2,t检验适用于 小样本容量 ;
3、它是在总体的标准差未知的情况下对样本 均值 的检验,即检验样本的均值是否在总体均值的变化范围内;
4,t检验与 u检验的不同就是,t检验用样本的标准差代替总体的标准差。
5、对于我们的试验,由于一般都是小样本容量,都采用 t检验。
3,一个正态总体方差的检验例:某厂生产的保健饮料中游离氨基酸含量 ( mg/100mL),
在正常情况下服从正态分布 N( 200,252)。某生产日抽测了 6
个样品,得数据如下:
205,170,185,210,230,190
问:这一天生产的产品中游离氨基酸含量总体方差是否正常。
解:建立原假设,这一天生产的产品中游离氨基酸含量的总体方差正常。 α=0.05,f=n-1=5,这里构造统计量为:
2
0
2
2 )1(
Sn
由样本计算的 =198,S2=447,所以可求得 =3.576x 20?
查 分布表得两个临界值:2?
8 3 1.0,8 3 3.12 2 5,9 7 5.02,
21
2
5,0 2 5.0
2
,2 ff
由于,故接受原假设。即认为这一天生产的产品中游离氨基酸含量的总体方差正常。
双尾检验,查的是单尾概率表
2
5,0 2 5.0
2
0
2
5,9 7 5.0
说 明
1、总体符合正态分布;
2,检验是对样本 方差 的检验,也就是样本对总体的变异程度(离散程度或者偏离程度)。
2?
在实际工作中还经常会遇到推断两个样本平均数差异是否显著的问题,以了解两样本所属总体的平均数是否相同。对于两样本平均数差异显著性检验,因试验设计不同,一般可分为两种情况:
一是非配对设计或成组设计;
二是配对设计。
(二)两个正态总体的假设检验(举例说明)
1、非配对设计显著性检验非配对设计或成组设计 是指当进行只有两个处理的试验时,将试验单位完全随机地分成两个组,然后对两组随机施加一个处理。在这种设计中两组的试验单位相互独立,
所得的二个样本相互独立,其含量不一定相等。
非配对设计资料的一般形式
( 1)方差未知但相等时两个正态总体均值的检验
)
11
(
)(
21 nn
S
T

2
)1()1(
21
2
22
2
112


nn
SnSn
S?
其中:,分别为两个样本的均值;,
分别为两个样本的方差;,分别为两个样本的样本容量。
21S 22S
1n 2n
在给定的小概率,及自由度 f=n1+n2-2,查 t分布表可得 ta/2,f值。
根据样本值计算的 T值 T0,如果 |T0|≥ ta/2,f,则拒绝原假设;如果 |T0|≤ ta/2,f,则接受原假设。
例:某人研究了两种浸提条件下山楂中可溶性固形物的浸提率,试验结果如下:
浸提条件 可溶性固形物提取率( %)
条件 1 42.5 41.3 43.7 41.0 41.8 44.0
条件 2 47.6 48.2 46.3 47.9 46.0 49.0
请问:这两种浸提条件下山楂可溶性固形物提取率有无显著差异( a=0.05)?
本例实际上就是两个正态总体均值的检验问题。
解:假设两种提取条件下提取率无明显差异有样本值可计算得有给定的信度 =0.05,自由度 f= + - 2,查 t分布表,可得由于 |T0|=7.36>t0.025,10=2.2281,因此,拒绝原假设,即认为两种条件下提取率有显著差异。
1n 2n
44.1,32.1,56.1,5.47,4.42 2222121SSSxx
36.7
6
1
6
12.1
5.474.42
0?

T
2 2 8 1.210,025.0,
2
tt f
双尾检验,查的是单尾概率表上述例子中,是在假设两个正态总体方差相等但未知时对总体均值的检验。
然而,怎么才能知道两个正态总体的方差相等呢?
对这个问题,我们可以构造统计量 F来进行检验。
2、两个正态总体方差的检验( F检验)
2
2
2
1
S
SF?
统计量 F服从第一自由度为,第二自由度为 的 F分布。
111 nf
122 nf
对于给定的小概率,根据自由度,查 F
分不表,可得临界值 。如果,
拒绝原假设,如果,则接受原假设。
21,ff
),(,21 ffF FF0
FF0
注意:在 F分布表中,表中 是较大的方差的自由度,是较小方差的自由度,编制分布表时,是将较大方差作为分子,较小的方差作为分母。因此在利用样本计算 F值时,也应将样本方差较大的作为分子,较小的作为分母。
1f
2f
根据以上 F检验的介绍,请检验上述例子中两组数据方差是否有显著差异( a=0.05)?
假设没有显著差异,可计算得
F0=1.56/1.32=1.18
由 a=0.05,= =5,查 F分布表得 Fa=5.05。
由于 F0 < Fa,因此接收原假设,即认为在置信水平 a=0.05的条件下,两个总体的方差无显著差异,是相等的。
1f 2f
单尾检验,查的是单尾概率表说 明
1、两个总体都必须符合正态分布;
2,T检验是在假设两个样本的方差相等的情况下,对两个样本 均值 的检验,也就是检验两个样本的均值是否显著差异;
3,F检验是对两个正态总体的方差进行检验,即检验两个总体的方差是否可认为相等;
4、在不知道两个正态总体的方差是否相等的情况下,
应该 先采用 F检验,然后 再采用 T检验 。
5、这两个检验在我们的研究中应用比较广泛,特别是有阴阳性对照试验,或者不同剂量的试验之间是否有差别,希望大家能够 熟练掌握 。
方差不齐 Satterthwaite t检验
S a t t e r t h w a i t e 法 ( 1 9 4 6 ) 对 自 由 度 校 正 。
最 终 结 果 查 附 表 2 的 t 界 值 表 。
12 11
22
22
12
12
1
'
1
nXX
t
nSS
nn


12
12
22
212
2 2 2
' 12
4 4 2 2
2212
12
12
12
()
()
( ) ( )
11
11
XX
XX
SS
SS nn
tt
S S S S
nnnn
nn



非配对设计要求试验单位尽可能一致。如果试验单位变异较大,如试验动物的年龄、体重相差较大,若采用上述方法就有可能使处理效应受到系统误差的影响而降低试验的准确性与精确性。 为了消除试验单位不一致对试验结果的影响,正确地估计处理效应,减少系统误差,降低试验误差,提高试验的准确性与精确性,可以利用局部控制的原则,采用配对设计。
2、配对设计显著性检验配对设计 是指先根据配对的要求将试验单位两两配对,然后将配成对子的两个试验单位随机地分配到两个处理组中。配对的要求是,配成对子的两个试验单位的初始条件尽量一致,不同对子间试验单位的初始条件允许有差异,每一个对子就是试验处理的一个重复。 配对的 方式有两种:自身配对与同源配对。
自身配对 指同一试验单位在二个不同时间上分别接受前后两次处理,用其前后两次的观测值进行自身对照比较;或同一试验单位的不同部位的观测值或不同方法的观测值进行自身对照比较。如观测某个病人治疗前后临床检查结果的变化;观测用两种不同方法对畜产品中毒物或药物残留量的测定结果变化等。
同源配对 指将来源相同、性质相同的两个个体配成一对,如将畜别、品种、窝别、性别、
年龄、体重相同的两个试验动物配成一对,然后对配对的两个个体随机地实施不同处理。
优点:配对设计减少了个体差异。
特点:资料成对,每对数据不可拆分。
配对设计试验资料的一般形式计算出各对 子 差值 d 的均数 d 。当 比较 组 间 效果相 同时,
d 的总体均数
d
= 0,故可将配对 设计资料的假 设检验视为样本均数 d 与总体均 数
d
=0 的比较,所用 方法 称 为配对 t 检验
( p a i r e d t - te s t )方法 。 1,
/
||||

n
nS
d
S
d
t
dd
d
两法测定 12份尿铅含量的结果
2d样品号尿铅含量( μmol.L- 1)
简便法 常规法 差值( d )
1 2.41 2.80 -0.39 0.1521
2 2.90 3.04 -0.14 0.0196
3 2.75 1.88 0.87 0.7569
4 3.23 3.43 -0.20 0.0400
5 3.67 3.81 -0.14 0.0196
6 4.49 4.00 0.49 0.2401
7 5.16 4.44 0.72 0.5184
8 5.45 5.41 0.04 0.0016
9 2.06 1.24 0.82 0.6724
10 1.64 1.83 -0.19 0.0361
11 1.06 1.45 -0.39 0.1521
12 0.77 0.92 -0.15 0.0225
合 计 -- -- 1.34 2.6314
1,建 立 假 设,确 定 检 验 水 准 α
H 0,0?
d
H
1,
0?
d
( 双 侧 检 验 ) α = 0,0 5
2,计 算 检 验 统 计 量
112.01234.1d, 34.1d, 6314.2
2
d,
475.0
112
12/34.16314.2
1
/)(
222

n
ndd
S
d
111121,817.0
12/475.0
112.0
/
||
n
nS
d
t
d
3,查 相 应 界 值 表,确 定 P 值,下 结 论 。
查 表 201.2
11,2/05.0
t,
11,2/05.0
tt?,P > 0,0 5,按 α = 0,0 5 水 准,
不 拒 绝 H 0,两 种 方 法 的 测 量 结 果 差 值 无 统 计 学 意 义 。
10例高血压患者用某中药治疗前后舒张压的变化患者号 舒 张 压 差值 d d2
治疗前 治疗后
1 115 116 -1 1
2 110 90 20 400
3 129 108 21 441
4 109 89 20 400
5 110 92 18 324
6 116 90 26 676
7 116 110 6 36
8 116 120 -4 16
9 120 88 32 1024
10 104 96 8 64
146 3382
0,0 5 / 2,9
1 4,6
1 1,7 8 7 1 0
3,7 2 7
3,9 1 7
2,2 6 2
dd
d
S S n
t
t
统计假设检验说明
1、所有的统计检验都是在总体是正态分布的情况进行的。
2、在食品质量研究中,属于同一总体的各个个体的变异计量资料,如长度、重量、体积、面积等形状的变异都服从正态分布。
3、根据不同条件构造不同的统计量是建立不同检验法的关键。
4、对不同统计量的适用范围和应用要熟练掌握。
第四节 Excel在统计假设检验中的应用一、描述统计二,F检验三、平均值的成对二样本分析四、双样本等方差 t检验五、双样本异方差 t检验一、如何利用 Excel进行描述统计?
例:在某饮料灌装机灌装得汽水中随机抽取 6瓶,检验瓶内饮料的体积( mL),结果为
251.0,250.8,249,249.5,251.5,250.5。
对该结果进行统计分析。
操作步骤,1,输入数据 。
3.用鼠标双击数据分析工具中的,描述统计,选项 。
2.选择,工具,菜单的,数据分析,子菜单。
4.出现,描述统计,对话框,对话框内各选项的含义如下:
输入区域:在此输入待分析数据区域的单元格范围 。
一般情况下 Excel 会自动根据当前单元格确定待分析数据区域。
分组方式,如果需要指出输入区域中的数据是按行还是按列排列,则单击,行,或,列,。
标志位于第一行 /列:如果输入区域的第一行中包含标志项 (变量名 ),则选中,标志位于第一行,复选框;如果输入区域没有标志项,则不选任何复选 框,Excel 将在输出表中生成适宜的数据标志。
均值置信度:若需要输出由样本均值推断总体均值的置信区间,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度。例如,置信度 95%可计算出的总体样本均值置信区间为 10,则表示:在 5%的显著水平下总体均值的置信区间为 (
X -10,X +10)。
第 K 个最大 /小值:如果需要在输出表的某一行中包含每个区域的数据的第 k 个最大 /小值,则选中此复选框。然后在右侧的编辑框中,输入 k 的数值。
输出区域:在此框中可填写输出结果表左上角单元格地址,
用于控制输出结果的存放位置。整个输出结果分为两列,左边一列包含统计标志项,右边一列包含统计值。根据所选择的,分组方式,选项的不同,Excel 将为输入表中的每一行或每一列生成一个两列的统计表。
新工作表:单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始存放计算结果
。如果需要给新工作表命名,则在右侧编辑框中键入名称。
新工作簿:单击此选项,可创建一新工作簿,并在新工作簿的新工作表中存放计算结果。
汇总统计:指定输出表中生成下列统计结果,则选中此复选框。
这些统计结果有:平均值、标准误差、中值,模式
、标准偏差、方差、峰值、偏斜度、极差( 全距)、最小值,最大值、总和、样本个数,置信区间 。
5.填写完,描述统计,对话框之后,按,确定,按扭即可。
结果说明:
描述统计工具可生成以下统计指标,按从上到下的顺序其中包括样本的平均值( X ),标准误差,中值
(Medium),模式 (Mode),样本标准差 (S),样本方差 (S2),峰度值,偏度值,极差 (Max-Min),最小值 (Min),最大值 (Max),
样本总和,样本个数( n)和一定显著水平下总体均值的置信区间。
置信区间 =平均值 ± 置信度这项的值上述计算结果的置信区间为,250.38± 1.00(均值的置信区间),概率为 95%。
偏度是测定一个次数分布的非对称程度的统计指标。相对于对称分布,偏度有两种:一种是左向偏态,简称左偏,另一种是右向偏态,
简称右偏。
左偏 对称 右偏右偏和左偏的程度都可以用一定的方法测定出来。当实际分布为右偏时,测定出的偏度值为正值
,因而右偏又称为正偏;当实际分布为左偏时,测定出的偏度值为负值,所以左偏被称为负偏。
峰度是反映某个分布与正态分布相比尖峭程度的统计指标。峰度有三种形态:正态峰度,尖顶峰度和平顶峰度。当分布数列的次数比较集中于众数位置,次数分布曲线的峰顶较正态分布曲线的峰顶更为隆起时,属于尖顶分布;当分布数列的次数对众数来说比较分散(即没有明显的集中趋势),次数分布曲线的峰顶较正态分布曲线的峰顶更为平坦时,属于平顶分布。
尖顶峰度平顶峰度正态峰度二、如何利用 Excel进行 F检验 —双样本方差检验?
两个样本的容量可以相等,也可以不等。
例:某人研究了两种浸提条件下山楂中可溶性固形物的浸提率,试验结果如下:
浸提条件 可溶性固形物提取率( %)
条件 1 42.5 41.3 43.7 41.0 41.8 44.0
条件 2 47.6 48.2 46.3 47.9 46.0 49.0
请检验这两个样本的方差是否相等?(首先假设无显著差异,也即相等)
操作步骤,1、输入数据。
2、选择“工具”菜单中的“数据分析”选项,
会出现对话框,见下页图。
3、选择,F-检验 双样本方差”选项。然后点击“确定”,会出现对话框,见下页图。
对话框中各项的解释
1、变量 1的区域,将条件 1的这一行选中;变量 2的区域,将条件 2的的这一行选中。
2、标志:将该复选框选中,即表明表格中的条件 1
和条件 2就是统计表的第一行的内容;如果不选中,
系统会给出默认的标志行。
3、置信水平,根据分析要求选择不同的水平。
4、输出选项,选定统计表输出的位置。
各项选择后,对话框见下页图
4、点击“确定”,即可得到统计结果见下页图。
5、对统计结果的解释平均:两个样本各自的平均值。
方差,两个样本各自的平均值。
观测值:每个样本的容量。
df:每个样本的自由度。
F,两个样本计算所得 F值。
P(F<=f)单尾:单尾检验的显著水平。( P<0.05,说明有显著差异; P>0.05,说明无显著差异)
F 单尾临界:单尾检验,查 F分布表的临界值。
从分析的结果可以看出,P值大于 0.05,说明条件 1和条件 2的方差无显著的差异。也即认为两者的方差相等。
三、如何利用 Excel进行 t检验 —平均值的成对二样本分析?
这项分析属于对比试验分析,将性质相同的供试单位配成若干对,然后对每一对的供试单位分别给以不同的处理,所得计量资料的观察值,为一对对的对比数据。
两个样本的处理量必须一致,n1=n2。配对后,各处理之间不能互换位置。此分析并没有假设两个总体的方差相等。
例:电渗处理 10个草莓品种果实中钙离子含量的结果见表。问电渗处理是否可显著提高草莓钙离子含量。(首先假设无显著差异)
品种号 1 2 3 4 5 6 7 8 9 10
处理 22.23 23.42 23.25 21.38 24.45 22.42 24.37 21.75 19.82 22.56
对照 18.04 20.32 19.64 16.38 21.37 20.43 18.45 20.04 17.38 18.42
操作步骤:
1、输入数据。
2,选择“工具”菜单中的“数据分析”选项,会出现对话框,见下页图。
3、选择,t-检验 平均值的成对二样本分析”选项。
然后点击“确定”,会出现对话框,见下页图。
对话框中各项的解释
1、变量 1的区域,将,处理,的这一行选中;变量
2的区域,将,对照,的这一行选中。
2、标志:将该复选框选中,即表明表格中的,处理,和,对照,就是统计表的第一行的内容;如果不选中,系统会给出默认的标志行。
3、假设平均差:由于我们做的是等均值检验,因此这一项应该为 0,不填,则默认为 0。
4、置信水平,根据分析要求选择不同的水平。
5、输出选项,选定统计表输出的位置。
4、点击“确定”,即可得到统计结果见下页图。
5、对统计结果的解释平均:两个样本各自的平均值。
方差,两个样本各自的平均值。
观测值:每个样本的容量。
df:每个样本的自由度。
t Stat,两个样本计算所得 t值。
P(T<=t)单尾:单尾检验的显著水平。( P<0.01,说明有显著差异; P>0.01,说明无显著差异)。
t 单尾临界:查 t分布表的临界值。
5、对统计结果的解释
P(T<=t)双尾:双尾检验的显著水平。 ( P<0.01,
说明有显著差异; P>0.01,说明无显著差异)。
t 双尾临界:查 t分布表的临界值。
从分析的结果可以看出,无论单尾还是双尾检验,P
值都小于 0.01,说明处理和对照有显著的差异。根据题意,应该属于单尾检验,也就是说明电渗处理可以显著提高 草莓果实中钙离子的含量。
四、如何利用 Excel进行 t检验 —双样本等方差分析?
该项分析之前,首先要对二样本进行 F检验,确认二者的方差相等后,才能用该工具分析,如果不等,就要其他分析工具。
两个样本的容量可以相等,也可以不相等。
例:某人研究了两种浸提条件下山楂中可溶性固形物的浸提率,
试验结果如下:
浸提条件 可溶性固形物提取率( %)
条件 1 42.5 41.3 43.7 41.0 41.8 44.0
条件 2 47.6 48.2 46.3 47.9 46.0 49.0
请问这两种条件下提取率有无显著差异?
(首先假设无显著差异)
操作步骤:
1、输入数据。
2、选择“工具”菜单中的“数据分析”选项,会出现对话框,见下图。
3、选择,t-检验 双样本等方差假设”选项。然后点击“确定”,会出现对话框,见下图。
对话框中各项的解释
1、变量 1的区域,将,条件 1”的这一行选中;变量
2的区域,将,条件 2”的这一行选中。
2、标志:将该复选框选中,即表明表格中的,条件 1”和,条件 2”就是统计表的第一行的内容;如果不选中,系统会给出默认的标志行。
3、假设平均差:由于我们做的是等均值检验,因此这一项应该为 0,不填,则默认为 0。
4、置信水平,根据分析要求选择不同的水平。
5、输出选项,选定统计表输出的位置。
4、点击“确定”,即可得到统计结果见下页图。
5、对统计结果的解释平均:两个样本各自的平均值。
方差,两个样本各自的平均值。
观测值:每个样本的容量。
合并方差:是 T统计量中的 Sw
df:每个样本的自由度。
t Stat,两个样本计算所得 t值。
P(T<=t)单尾:单尾检验的显著水平。( P<0.05,说明有显著差异; P>0.05,说明无显著差异)。
t 单尾临界:查 t分布表的临界值。
5、对统计结果的解释
P(T<=t)双尾:双尾检验的显著水平。
P<0.05,说明有显著差异;
P>0.05,说明无显著差异
t 双尾临界:查 t分布表的临界值。
从分析的结果可以看出,无论单尾还是双尾检验,P值都小于 0.05,说明条件 1和条件 2的提取率有显著的差异。
五、如何利用 Excel进行 t检验 —双样本异方差分析?
注意:该分析是在两个样本的方差有显著差异的情况下的分析。
请同学们自己找数据,然后按照前面的相似的操作步骤进行分析。
六,Z-检验 双样本平均差检验该项分析是在两个 正态总体的方差 已知的情况下,对两个样本的均值进行差异性分析。(大样本容量)
【 例 】 用两组小鼠分别给以高蛋白和低蛋白饲料,观察各鼠喂养 8周后所增体重 (mg)。问两组小鼠增加体重有无不同?
高蛋白组 134 146 104 119 124 161 107 83 113 129 97 12
低蛋白组 70 118 101 85 107 132 94
【 例 】 探讨白血病患者血清 SIL-2R的变化对白血病的诊断意义,试检验两组均数是否有差异?