多元统计基本概念复习总体:根据研究目的确定所有同质个体的某指标观察值(或测量值)构成的集合称为总体(population),或更严谨地称为该观察指标(变量)的总体。由于在实际研究中,往往需要观察或测量多个指标,而这些指标之间往往伴有某种关联,故多个观察指标构成了个体的一组观察指标。为了叙述方便,往往简单地称总体是根据研究目的确定同质个体的全体。
总体均数,总体中所有个体测量值的平均数称为总体均数。总体均数是一个总体的重要特征参数总体参数:总体均数、总体发生率等总体的特征指标或总体统计指标称为总体参数(parameter)。
未知参数:由于总体往往非常大,有些总体参数无法知道,因此这些无法知道的总体参数称为未知参数。
统计量:用样本表达式构成的样本统计指标估计未知总体参数,这种样本统计指标称为统计量(statistic)并且要求统计量的样本表达式中不含有未知参数。
频率与概率:在n次观察中,其中有m次观察到某现象A,则称观察到现象A的比例为频率(frequency),m称为频数。显然有。频率f是一个统计量,由于个体的变异性,频率f呈一定的随机波动。当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向于一个常数(:观察到现象A发生的概率(称为概率的统计定义)。
概率(probability):概率刻画随机事件发生可能性大小,其取值界于0和1之间。随机事件发生的可能性越小,概率越接近0;随机事件发生的可能性越大,概率越接近1。特别,不可能事件发生的概率等于0,必然事件发生的概率等于1。
在统计学中,如果随机事件发生的概率小于或等于0.05,则认为是一个小概率事件,表示该事件在大多数情况下不会发生,并且一般认为小概率事件在一次随机抽样中不会发生,这就是小概率原理。小概率原理是统计推断的基础。
频率图与概率密度曲线例 某市1995年110名7岁男童的身高(cm)资料如下,请作频数图和频率图。
121.4
119.2
124.7
125.0
115.0
112.8
120.2
110.2
120.9
120.1
125.5
120.3
122.3
118.2
116.7
121.7
116.8
121.6
120.2
122.0
121.7
118.8
121.8
124.5
121.7
122.7
116.3
124.0
119.0
124.5
121.8
124.9
130.0
123.5
128.1
119.7
126.1
131.3
123.8
116.7
122.2
122.8
128.6
122.0
132.5
122.0
123.5
116.3
126.1
119.2
126.4
118.4
121.0
119.1
116.9
131.1
120.4
115.2
118.0
122.4
120.3
116.9
126.4
114.2
127.2
118.3
127.8
123.0
117.4
123.2
119.9
122.1
120.4
124.8
122.1
114.4
120.5
120.0
122.8
116.8
125.8
120.1
124.8
122.7
119.4
128.2
124.1
127.2
120.0
122.7
118.3
127.1
122.5
116.3
125.1
124.4
112.3
121.3
127.0
113.5
118.8
127.6
125.2
121.5
122.5
129.1
122.6
134.5
118.3
132.8

频率图:以7岁男童身高的频数分布图为例,图中的直方面积大小表示频数的多少,直方面积之和等于总频数。若图形的直方面积大小描述的是频率,则直方面积之和为100%,这样的分布图称为频率分布图。频率图与频数图相似,只是纵坐标的量纲不同。
概率密度曲线:如果本例中的7岁男童人数(n)逐渐增多,各个组段的频率越来越趋向相应的概率,即各个组段的直方面积趋向相应的概率。当组段逐渐细分,则频率分布图中的直条逐渐变窄,其顶端逐渐接近一条光滑曲线,这条曲线称为概率密度曲线。曲线下的面积对应的是概率。如果样本频数图呈对称分布,则可以称该样本近似服从正态分布;反之称为偏态分布(如下图)。
 
正态分布

正态曲线1的=2.4,=0.8;曲线2的=3.4,=0.8;曲线3的=3.4,=1.2。
两个参数:均数(和标准差(,若X服从正态分布,则记为X~N((,(2)。特别(=0,(=1,则称为标准正态分布,记为N(0,1)。
X~N((,(2),令,则Y~N(0,1)。
样本均数的统计性质和分布(用模拟程序说明)
由于个体变异的原因,也呈随机变化
的总体均数与X的总体均数相同
的总体标准差(称为标准误)=(故:)
若X~N((,(2),则
若X呈偏态分布,n较大时,呈近似正态分布
意义:样本量较大时,对正态分布的要求降低或没有必要了。
两个均数的比较:用t检验(用模拟程序说明)
要求每一组的资料都服从正态分布,并且方差齐性,两组资料都是独立的。
两个样本均数差的标准误
H0:(1=(2 vs H1:(1((2
。若,则拒绝H0:(1=(2
多组均数的比较
H0:(1=(2=…=(k vs H1:(1,(2,…,(k不全相同不能直接用t检验进行两两比较:第一类错误=,为两两比较的次数用完全随机设计的资料的方差分析(单因素方差分析,oneway ANOVA)
基本思想是变异分解:
记:总的平均值,第i组均数
,校正数

,其中Si是第i组的标准差均方:,df组间=k-1,
df组内=N-k。
对于资料X~N((i,(2),则统计量MS组内可以视为k组合并的方差(仅含有随机的个体变异),因此MS组内对于不同的抽样而言,将随机地出现在(2左右。
可以证明:H0成立时,MS组间随机地出现在(2附近,但当H0不成立时,MS组间将增大(不仅含有随机的个体变异而且含有处理效应)。
检验统计量,H0成立时,F在1附近(在附近);若H0不成立,则F值增大。
若F>F((df组间,df组内),则拒绝H0。
注意:方差分析的假设检验是双侧的,F检验的临界值是单侧的。
例为研究A、B、C三种治疗缺铁性贫血的药物的疗效,某研究者将11例患者完全随机地分为三组,分别给予三种药物,治疗一个疗程后的结果如表1,请作统计分析。
表1 三种药物治疗缺铁性贫血一个疗程后的红细胞增加数(百万/mm3)
A药
(group=1)
B药
(group=2)
C药
(group=3)
1.3
0.7
0.9
1.5
0.5
1.4
1.2
1.0
1.6
0.6
1.1
Stata数据输入格式
x
group
1
1.3
1
2
1.5
1
3
1.2
1
4
.7
2
5
.5
2
6
1
2
7
.6
2
8
.9
3
9
1.4
3
10
1.6
3
11
1.1
3
oneway表示单因素方差分析,x为观察变量,group为分组变量,t表示计算样本均数和标准差,sidak表示用Sidak方法进行两两比较。
oneway x group,t sidak
| Summary of x
group | Mean Std,Dev,Freq.
------------+------------------------------------
1 | 1.3333333,15275251 3
2 |,7,21602469 4
3 | 1.25,31091265 4
------------+------------------------------------
Total | 1.0727273,36902821 11
Analysis of Variance
Source SS df MS F Prob > F
Between groups,885151506 2,442575753 7.43 0.0150
Within groups,476666671 8,059583334
Total 1.36181818 10,136181818
Bartlett’s test for equal variances,chi2(2) = 0.9853 Prob>chi2 = 0.611
说明可以认为三组的方差是齐性的。
Comparison of x by group
(Sidak)
Row Mean-|
Col Mean | 1 2
---------+----------------------
2 | -.633333 第2(行号)组的均数-第1(列号)组均数,其他类推
| 0.028 对应的P值
|
3 | -.083333,55
| 0.963 0.038
方差齐性的检验结果为(2=0.9853,df=2,相应的P值=0.611,表明:可以认为3组的方差是齐性的。(应检验正态性,目前先不检验)
(=0.05,3组检验的F=7.43,P值=0.0150<(,因此可以认为3组的总体均数不全相同。
Sidak两两比较的结果表明:服用A药(第1组)与C药(第3组)的红细胞增加数的均数的差异没有统计意义;服用A药(第1组)和C药(第3组)的红细胞增加数的均数对于服用B药(第2组),并且差别有统计意义。