第一章 绪 论
第一节 生物统计在畜禽、水产科学研究中的作用
为了推动畜牧业、水产业的发展,常常要进行科学研究。例如畜禽、水产品种资源研究,新品种的选育,新的饲养、管理技术研究等。这些研究都离不开调查或试验。进行调查或试验首先必须解决的问题是:如何合理地进行调查或试验设计。在实际研究工作中常常碰见这样的情况:由于调查或试验设计不合理,以至于无法从所获得的数据提取有用的信息,造成人力、物力和时间的浪费。若调查或试验设计方法好,用较少的人力、物力和时间即可收集到必要而有代表性的资料,从中获得可靠的结论,达到调查或试验的预期目的,收到事半功倍之效。
通过调查或试验能获得一定数量的数据。这些数据常常表现出程度不同的变异。例如测量100头猪的日增重所获得的100个数据,彼此不完全相同,表现出一定程度的变异;又如测量了200头黄牛的体高,所获得的200个数据,也表现出一定程度的变异。产生这种变异的原因,有的己被人们所了解。例如品种、性别、年龄、初始重、健康状况、饲养条件等不同,使得所测的猪的日增重、黄牛的体高表现出差异。另外还有许多内在和外在的因素还未被人们所认识。由于这些人们已了解的因素和人们尚未认识因而无法控制的因素的作用,使得通过调查或试验得来的数据普遍具有变异性。所以进行调查或试验还必须解决的第二个问题是:如何科学地整理、分析所收集得来的具有变异的资料,揭示出隐藏在其内部的规律性。合理地进行调查或试验设计、科学地整理、分析所收集得来的资料是生物统计(Biometrics)的根本任务。
生物统计是数理统计的原理和方法在生物科学研究中的应用,是一门应用数学。它在畜禽、水产科学研究中具有十分重要的作用。
一、提供试验或调查设计的方法
试验设计这一概念有广义与狭义之分,广义的试验设计是指试验研究课题设计,也就是指整个试验计划的拟定,包含课题名称、试验目的,研究依据、内容及预期达到的效果,试验方案,供试单位的选取、重复数的确定、试验单位的分组,试验的记录项目和要求,试验结果的分析方法,经济效益或社会效益的估计,已具备的条件,需要购置的仪器设备,参加研究人员的分工,试验时间、地点、进度安排和经费预算,成果鉴定,学术论文撰写等内容。狭义的试验设计主要是指试验单位(如动物试验的畜、禽)的选取、重复数目的确定及试验单位的分组。生物统计中的试验设计主要指狭义的试验设计。合理的试验设计能控制和降低试验误差,提高试验的精确性,为统计分析获得试验处理效应和试验误差的无偏估计提供必要的数据。
调查设计这一概念也有广义与狭义之分,广义的调查设计是指整个调查计划的制定,包括调查研究的目的、对象与范围,调查项目及调查表,抽样方法的选取,抽样单位、抽样数量的确定,数据处理方法,调查组织工作,调查报告撰写与要求,经费预算等内容。狭义的调查设计主要包含抽样方法的选取,抽样单位、抽样数目的确定等内容。生物统计中的调查设计主要指狭义的调查设计。合理的调查设计能控制与降低抽样误差,提高调查的精确性,为获得总体参数的可靠估计提供必要的数据。
简而言之,试验或调查设计主要解决合理地收集必要而有代表性资料的问题。
二、提供整理、分析资料的方法
整理资料的基本方法是根据资料的特性将其整理成统计表、绘制成统计图。通过统计表、图可以大致看到所得资料集中、离散的情况。并利用所收集得来的数据计算出几个统计量,以表示该资料的数量特征、估计相应的总体参数。
统计分析最重要的内容是差异显著性检验。通过抽样调查或控制试验,获得的是具有变异的资料。产生变异的原因是什么?是由于进行比较的处理间,例如不同品种、不同饲料配方间有实质性的差异或是由于无法控制的偶然因素所引起?显著性检验的目的就在于承认并尽量排除这些无法控制的偶然因素的干扰,将处理间是否存在本质差异揭示出来。显著性检验的方法很多,常用的有t 检验——主要用于检验两个处理平均数差异是否显著;方差分析——主要用于检验多个处理平均数间差异是否显著;检验——主要用于由质量性状得来的次数资料的显著性检验等。
统计分析的另一个重要内容是对试验指标或畜禽性状间的关系进行研究,或者研究它们之间的联系性质和程度,或者寻求它们之间的联系形式,即进行相关分析与回归分析。通过对资料进行相关、回归分析,可以揭示出试验指标或性状间的内在联系,为畜禽、水产新品种选育等提供强有力的依据。
还有一类统计分析方法不考虑资料的分布类型,也不事先对有关总体参数进行估算,这类统计分析方法叫非参数检验法。非参数检验法计算简便。当通常的检验方法对畜禽、水产科研中的某些资料无能为力时,非参数检验法则正好发挥作用。
以上我们对生物统计在畜禽、水产科学研究中的作用作了概略的介绍。从中不难看出,生物统计对于进行畜禽、水产科学研究是多么重要。它是每一个畜禽、水产科技工作者必须掌握的基本工具。可喜的是,随着生物统计方法的普及、计算工具的改进、统计计算程序的编制,已有越来越多的科技工作者掌握并在实际研究工作中应用了生物统计,取得了显著成效。
第二节 生物统计的常用术语
生物统计是一门应用数学,它涉及较多的数学概念、计算公式和数学用表;从判断方式上要求摆脱传统的确定性推断方式而接受建立在概率论基础上的统计推断方式,这对初学者来说有一定难度。为了便于初学者学习,在本教材中除了结合实例,从应用的角度来介绍生物统计的基本概念、基本原理、基本方法外,每章后还附有一定数量的习题供初学者练习。对于初学者来说,能正确理解生物统计的基本概念、了解基本原理、掌握并应用所介绍的基本的试验设计与结果分析方法解决畜牧、水产等科学研究中收集、整理、分析资料的问题,也就达到预期目的了。
在这一节里介绍生物统计中几个最常用的术语。
一、总体与样本
根据研究目的确定的研究对象的全体称为总体(population),其中的一个研究单位称为个体(individual);总体的一部分称为样本(sample)。例如研究中国黑白花乳牛头胎305天产乳量,所有中国黑白花乳牛头胎305天产乳量观测值的全体就构成中国黑白花乳牛头胎305天产乳量总体;而观测200头中国黑白花乳牛头胎305天产乳量所得的200个观测值则是中国黑白花乳牛头胎305天产乳量总体的一个样本,这个样本包含有200个个体。含有有限个个体的总体称为有限总体。例如上述中国黑白花乳牛头胎305天产乳量总体虽然包含的个体数目很多,但仍为有限总体。包含有无限多个个体的总体叫无限总体。例如在生物统计理论研究上的服从正态分布的总体、服从 t 分布的总体,包含一切实数,属于无限总体。在实际研究中还有一类假想总体。例如进行几种饲料的饲养试验,实际上并不存在用这几种饲料进行饲养的总体,只是假设有这样的总体存在,把所进行的试验看成是假想总体的一个样本。样本中所包含的个体数目叫样本容量或大小(sample size)。例如上述中国黑白花乳牛头胎305天产乳量样本容量为200。样本容量常记为n。通常把n≤30的样本叫小样本,n>30的样本叫大样本。
生物统计一般是通过样本来了解总体。这是因为或者总体是无限的、假想的;即便是有限的但包含的个体数目相当多,要获得全部观测值须花费大量人力、物力和时间;或者观测值的获得带有破坏性,例如猪的瘦肉率测定,要求将猪屠宰后,把剥离板油和肾脏的胴体分割为瘦肉、脂肪、皮、骨四部分,再进行计算,不允许也没有必要对每一头猪一一屠宰测定。研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。为了能可靠地从样本来推总体,要求样本具有一定的含量和代表性。只有从总体随机抽取的样本才具有代表性。所谓随机抽取(random sampling)是指总体中的每一个个体都有同等的机会被抽取组成样本。然而样本毕竟只是总体的一部分,尽管样本具有一定的含量也具有代表性,通过样本来推断总体也不可能是百分之百的正确。有很大的可靠性但有一定的错误率这是统计分析的又一特点。所以Lienert(1973)指出:作为科学方法论的现代统计学究竟能提供什么?它能回答在抽样调查中所发现的差异、联系和规律性以什么样的概率纯属偶然?对于总体来说这些发现作为一般规律的可靠程度有多大?
二、参数与统计量
为了表示总体和样本的数量特征,需要计算出几个特征数。由总体计算的特征数叫参数(parameter);由样本计算的特征数叫统计量(statistic)。常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差;常用拉丁字母表示统计量,例如用表示样本平均数,用S表示样本标准差。总体参数由相应的统计量来估计,例如用估计μ,用S估计σ等。
三、准确性与精确性
准确性(accuracy)也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为μ,观测值为 x,若 x与μ相差的绝对值|x-μ|小,则观测值x的准确性高;反之则低。精确性(precision)也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测值xi 、xj 相差的绝对值|xi -xj |小,则观测值精确性高;反之则低。准确性、精确性的意义图示如下:
图1-1(a)观测值密集于真值μ两侧,其准确性高、精确性亦高;图1-1(b)观测值稀疏地分布于真值μ两侧,其准确性高,精确性却低;图1-1(c)观测值密集于远离真值μ的一侧,准确性低,精确性高;图1-1(d)观测值稀疏的分布于远离真值μ的一侧,其准确性、精确性都低。调查或试验的准确性、精确性合称为正确性。在调查或试验中应严格按照调查或试验计划进行,准确地进行观测记载,力求避免人为差错,特别要注意试验条件的一致性,即除所研究的各个处理外,供试畜禽的初始条件如品种、性别、年龄、健康状况、饲养条件、管理措施等应尽量控制一致,并通过合理的调查或试验设计努力提高试验的准确性和精确性。由于真值μ常常不知道,所以准确性不易度量,但利用统计方法可度量精确性。
四、随机误差与系统误差
在畜牧、水产科学试验中,试验指标除受试验因素影响外,还受到许多其它非试验因素的干扰,从而产生误差。试验中出现的误差分为两类:随机误差(random error)与系统误差(systematic error)。随机误差也叫抽样误差(sampling error),这是由于许多无法控制的内在和外在的偶然因素如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致但不可能绝对一致所造成。随机误差带有偶然性质,在试验中,即使十分小心也难以消除。随机误差影响试验的精确性。统计上的试验误差指随机误差。这种误差愈小,试验的精确性愈高。系统误差也叫片面误差(lopsided error),这是由于试验动物的初始条件如年龄、初始重、性别、健康状况等相差较大,饲料种类、品质、数量、饲养条件未控制相同,测量的仪器不准、标准试剂未经校正,以及观测、记载、抄录、计算中的错误所引起。系统误差影响试验的准确性。图1-1(c)、(d)所表示的情况,则是由于出现了系统误差的缘故。一般说来,只要试验工作做得精细,系统误差容易克服。图1-1(a)表示克服了系统误差的影响,且随机误差较小,因而准确性高,精确性也高。
第三节 统计学发展概况
由于人类的统计实践是随着计数活动而产生的,因此,统计发展史可以追溯到远古的原始社会,也就是说距今足有五千多年的漫长岁月。但是,能使人类的统计实践上升到理论上予以概括总结的程度,即开始成为一门系统的学科统计学,却是近代的事情,距今只有三百余年的短暂历史。统计学发展的概貌,大致可划分为古典记录统计学、近代描述统计学和现代推断统计学三种形态。
一、古典记录统计学
古典记录统计学形成期间大致在十七世纪中叶至十九世纪中叶。统计学在这个兴起阶段,还是一门意义和范围不太明确的学问,在它用文字或数字如实记录与分析国家社会经济状况的过程中,初步建立了统计研究的方法和规则。到概率论被引进之后,才逐渐成为一项较成熟的方法。最初卓有成效地把古典概率论引进统计学的是法国天文学家、数学家、统计学家拉普拉斯(P.S. Laplace,1749~1827)。因此,后来比利时大统计学家凯特勒指出,统计学应从拉普拉斯开始。
(一)拉普拉斯的主要贡献
1、发展了概率论的研究 拉普拉斯第一种关于概率论的表述发表于1774年。从1812年起,先后出过四版《概率分析理论》,是他的代表作。书中,拉普拉斯最早系统地把数学分析方法运用到概率论研究中去,建立了严密的概率数学理论。该书不仅总结了他自己过去的研究,而且还总结了前一代学者研究概率论的成果,成为古典概率论的集大成者。
2、推广了概率论在统计中的应用 由于拉普拉斯是通过结合天文学、物理学的研究来从事概率研究的,所以,他能相当自觉、相当明确地指出:概率论能在广泛范围中应用,能解决一系列的实际问题。他在实际推广中的成绩是多方面的,主要表现在人口统计、观察误差理论和概率论对于天文问题的应用。1809~1812年,他结合概率分布模型和中心极限思想来研究最小二乘法,首次为统计学中这项后来最常用的手段奠定了理论基础。
3、明确了统计学的大数法则 拉普拉斯认为:“由于现象发生的原因,是为我们所不知或知道了也因为原因繁复而不能计算;发生原因又往往受偶然因素或无一定规律性因素所扰乱,以至事物发展发生的变化,只有进行长期大量观察,才能求得发展的真实规律。概率论则能研究此项发展改变原因所起作用的成份,并可指明成份多少。”这是他通过天文学上的研究后所得的体会。他发现在观察天体运动现象中,当次数足够多时,能使个体的特征趋于消失,而呈现出某种同一现象。他指出这其中一定存在着某些原因,而非出于偶然。
4、进行了大样本推断的尝试 在统计发展史上,人口的推算问题,多少年来成为统计学家耿耿于怀的难题。直到十九世纪初,拉普拉斯才用概率论的原理迈出了关键的一步。在理论上,1781年拉普拉斯在“论概率”一文中,建立了概率积分,为计算区间误差提供了有力手段。1781~1786年提出“拉普拉斯定理”(中心极限定理的一部分),初步建立了大样本推断的理论基础。在实践上,拉普拉斯于1786年写了一篇关于巴黎人口的出生、婚姻、死亡的文章,文中提出根据法国特定地方的出生率来推算全国人口的问题。他抽选了30个市县,进行深入调查,推算出全国总人口数。尽管其方法和结果还相当粗糙,但在统计发展史上,他利用样本来推断总体的思想方法,为后人开创了一条抽样调查的新路子。
另一位对概率论与统计学的结合研究上作出贡献的是德国大数学家高斯(C.F.Gauss,1777~1855)。
(二)高斯的主要贡献
1、建立最小二乘法 在学生时代,高斯就开始了最小二乘法的研究。1794年,他读了数学家兰伯特(J.H. Lambert,1728~1777)的作品,讨论如何运用平均数法,从观察值(Yi ,xi )中确定线性关系Y=α+βx中的二个系数。1795年,设想了以残差平方和Σ(Yi -a-bxi )2 为最小的情况下,求得的a与b来估计α与β。1798年完成最小二乘法的整个思考结构,正式发表于1809年。
2、发现高斯分布 调查、观察或测量中的误差,不仅是不可避免的,而且一般是无法把握的。高斯以他丰富的天文观察和在1821~1825年间土地测量的经验,发现观察值x与真正值μ的误差变异,大量服从现代人们最熟悉的正态分布。他运用极大似然法及其他数学知识,推导出测量误差的概率分布公式。“误差分布曲线”这个术语就是高斯提出来的,后人为了纪念他,称这分布曲线为高斯分布曲线,也就是今天的正态分布曲线。高斯所发现的一般误差概率分布曲线以及据此来测定天文观察误差的方法,不仅在理论上,而且在应用上都有极重要的意义。
二、近代描述统计学
近代描述统计学形成期间大致在十九世纪中叶至二十世纪上半叶。由于这种“描述”特色由一批原是研究生物进化的学者们提炼而成,因此历史上称他们为生物统计学派。生物统计学派的创始人是英国的高尔登(F. Galton,1822~1911),主将是高尔登的学生毕尔生(K.Pearson,1857~1936)。
(一) 高尔登的主要贡献
1、初创生物统计学 为了研究人类智能的遗传问题,高尔登仔细地阅读了三百多人的传记,以初步确定这些人中间多少人有亲属关系以及关系的大致密切程度。然后再从一组组知名人士中分别考察,以便从总体上来了解智力遗传的规律性。为了获得更多人的特性和能力的统计资料,高尔登自1882年起开设“人体测量实验室”。在连续六年中,共测量了9337人的“身高、体重、阔度、呼吸力、拉力和压力、手击的速率、听力、视力、色觉及个人的其它资料”,他深入钻研那些资料中隐藏着的内在联系,最终得出“祖先遗传法则”。他努力探索那些能把大量数据加以描述与比较的方法和途径,引入了中位数、百分位数、四分位数、四分位差以及分布、相关、回归等重要的统计学概念与方法。1901年,高尔登及其学生毕尔生在为《生物计量学》(Biometrika)杂志所写的创刊词中,首次为他们所运用的统计方法论明确提出了“生物统计”(Biometry)一词。高尔登解释道:“所谓生物统计学,是应用于生物学科中的现代统计方法”。从高尔登及后续者的研究实践来看,他们把生物统计学看作为一种应用统计学,其研究范围,既用统计方法来研究生物科学中的问题,更主要的是发展在生物科学应用中的统计方法本身。
2、对统计学的贡献
(1) 关于变异 变异是进化论中的重要概念,高尔登首次以统计方法加以处理,最终导致了英国生物统计学派的创立。1889年,高尔登把总体的定量测定法引入遗传研究中。高尔登通过总体测量发现,对动物或植物的每一个种别都可以决定一个平均类型。在一个种别中,所有个体都围绕着这个平均类型,并把它当作轴心向多方面变异。这就是他在《遗传的天赋》一书中提出的“平均数离差法则”。
(2)关于“相关” 统计相关法是由高尔登创造的。关于相关研究的起因,最早是他因度量甜豌豆的大小,觉察到子代在遗传后有“返于中亲”的现象。1877年他搜集大量人体身长数据后,计算分析高个子父母、矮个子父母以及一高一矮父母的后代各有多少个高个子和矮个子子女,从而把父母高的后代高个子比较多、父母矮的其后代高个子比较少这一定性认识具体化为父母与子女之间在身长方面的定量关系。1888年,高尔登在“相关及其主要来自人体的度量”一文中,充分论述了“相关”的统计意义,并提出了高尔登相关函数(即现在常用的相关系数)的计算公式。
⑶ 关于“回归” 1870年,高尔登在研究人类身长的遗传时发现:高个子父母的子女,其身长有低于他们父母身长的趋势;相反,矮个子父母的子女,其身长却往往有高于他们父母身长的趋势,从人口全局来看,高个子的人“回归”于一般人身长的期望值,而矮个子的人则作相反的“回归”。这是统计学上“回归”的最初涵义。1886年,高尔登在论文“在遗传的身长中向中等身长的回归”中,正式提出了“回归”概念。
(二)毕尔生的主要贡献
对生物统计学倾注心血,并把它上升到通用方法论高度的是毕尔生。毕尔生的一生是统计研究的一生,他对统计学的主要贡献有:
1、变异数据的处理 生物统计中所取得的数据常常是零乱的,很难看出其所以然。为此,毕尔生首先探求处理数据的方法,他所首创的频数分布表与频数分布图如今已成为统计方法中最基本的手段之一。
2、分布曲线的选配 十九世纪以前,人们认为以频数分布描述变异值,最终都表现为正态分布曲线。但是,毕尔生从生物统计资料的经验分布中,注意到许多生物上的度量不具有正态分布,而常常呈偏态分布,甚至倾斜度很大;也不一定都是单峰,也有非单峰的。说明“唯正态”信念并不可靠。1894年,他在“关于不对称频率曲线的分解”一文中首先把非对称的观察曲线分解为几个正态曲线。他利用所谓“相对斜率”的方法得到12种分布函数型,其中包括正态分布、矩形分布、J型分布、U型分布或铃型分布等。后来经R. 费雪的进一步研究,毕尔生分布曲线中第Ⅰ、Ⅱ、Ⅲ、Ⅳ及Ⅶ型出现在小样本理论内。尽管,毕尔生的曲线体系的推导方法是缺乏理论基础的,但也给人们不少启迪。
3、卡方检验的提出 1900年毕尔生独立地又重新发现了分布,并提出了有名的“卡方检验法”(Test of )。毕尔生获得了统计量:=∑(实际次数-理论次数)2 /理论次数,并证明了当观察次数充分大时, 总是近似地服从自由度为(k-1)的分布,其中k表示所划分的组数。在自然现象的范围内,检验法运用得很广泛。后经R. 费雪补充,成为了小样本推断统计的早期方法之一。
4、回归与相关的发展 回归与相关,经毕尔生进一步作了发展后,这两个出自于生物统计学领域的概念,便被推广为一般统计方法论的重要概念。 1896年,他在“进化论的数理研究: 回归、遗传和随机交配”一文中得出至今仍被广泛使用的线性相关计算公式: 。毕尔生还得出回归方程式:=a+bx (其中a与b根据最小二乘法计算获得),以及回归系数的计算公式:当y随x而变时,∑(x-)(y-)/∑(x-)2 ;当x随y而变时,∑(x-)(y-)/∑(y-)2 。此外,在1897~1905年,毕尔生还提出复相关、总相关、相关比等概念,不仅发展了高尔登的相关理论,还为之建立了数学基础。
三、现代推断统计学
现代推断统计学形成期间大致是二十世纪初叶至二十世纪中叶。人类历史进入二十世纪后,无论社会领域还是自然领域都向统计学提出更多的要求。各种事物与现象之间繁杂的数量关系以及一系列未知的数量变化,单靠记录或描述的统计方法已难以奏效。因此,相继产生“推断”的方法来掌握事物总体的真正联系以及预测未来的发展。从描述统计学到推断统计学,这是统计发展过程中的一个大飞跃。统计学发展中的这场深刻变革是在农业田间试验领域中完成的。因此,历史上称之为农业试验学派。对现代推断统计的建立贡献最大的是英国统计学家哥塞特(W.S. Gosset,1876~1937)和费雪(R.A. Fisher,1890~1962)。
(一) 哥塞特的t检验与小样本思想
1908年,哥塞特首次以“学生”(Student)为笔名,在《生物计量学》杂志上发表了“平均数的概率误差”。由于这篇文章提供了“学生t检验”的基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。后来,哥塞特又连续发表了“相关系数的概率误差”(1909)、“非随机抽样的样本平均数分布”(1909)、“从无限总体随机抽样平均数的概率估算表”(1917),等等。他在这些论文中,第一,比较了平均误差与标准误差的两种计算方法;第二,研究了泊松分布应用中的样本误差问题;第三,建立了相关系数的抽样分布;第四,导入了“学生”分布,即t分布。这些论文的完成,为“小样本理论”奠定了基础;同时,也为以后的样本资料的统计分析与解释开创了一条崭新的路子。由于哥塞特开创的理论使统计学开始由大样本向小样本、由描述向推断发展,因此,有人把哥塞特推崇为推断统计学的先驱者。
(二) R. 费雪的统计理论与方法
R. 费雪一生先后共写作论文329篇。在世界各国流传最广泛的统计学著作是:1925年出版的《供研究人员用的统计方法》、1930年出版的《自然选择的遗传原理》、1935年出版的《试验设计》、1938年与耶特斯合著出版的《供生物学、农学与医学研究用的统计表》、1938年出版的《统计估计理论》、1950年出版的《对数理统计的贡献》、1950年出版的《统计方法和科学推断》等。当时,他在统计学方面居世界领先地位,他的贡献是多方面的。
1、“通用方法论” R. 费雪非常强调统计学是一门通用方法论,他认为无论对各种自然现象或社会生活现象的研究,统计方法及其计算公式“正如同其它数学科目一样,这里同一公式适用于一切问题的研究”。他指出“统计学是应用数学的最重要部分,并可以视为对观察得来的材料进行加工的数学”。
2、“假设无限总体” R. 费雪认为,在研究各种事物现象,包括社会经济现象时,必须把具体物质内容的信息舍弃掉,让统计处理的只是“统计总体”。比如说,“如果我们已有关于一万名新兵身长的资料,那么,统计研究的对象不是新兵的整体,而是各种身长尺寸的总体”。显然,R. 费雪只是对构成统计总体各因素的某些标志感兴趣而不是各因素的本身。其目的就是为了使问题简化,便于统计上的处理。他在1922年所写的“关于理论统计学的数学基础”一文中,提出了一个重要的概念:“假设无限总体”。“所谓假设的无限总体,即现有的资料就是它的随机样本”。
3、抽样分布 R. 费雪跨进统计学界就是从研究概率分布开始的。1915年,他在《生物计量学》杂志上发表“无限总体样本相关系数值的频率分布”。由于这篇论文对相关系数的一般公式作了论证,对后来的整个推断统计的发展有一定贡献。因此,有人把这篇论文称为现代推断统计学的第一篇论文。1922年,R. 费雪导出相关系数r的Z分布,后来还编制了《Z曲线末端面积为0.05、0.01和0.001的Z数值分布表》。1924年,R. 费雪对t分布、分布和Z分布加以综合研究,使哥塞特的t检验也能适用于大样本,使毕尔生的检验也能适用于小样本。1938年,R. 费雪与耶特斯合编了《F分布显著性水平表》,为该分布的研究与应用,提供了方便。
4、方差分析 方差和方差分析两词,由R. 费雪于1918年在“孟德尔遗传试验设计间的相对关系”一文中所首创。方差分析也称变异数分析,其系统研究开始于1923年R. 费雪与麦凯基合写的“对收获量变化的研究”一文中。而于1925年,R. 费雪在《供研究人员用的统计方法》中对方差分析以及协方差分析进一步作了完整的叙述。“方差分析法是一种在若干能相互比较的资料组中,把产生变异的原因加以区分开来的方法与技术”。方差分析简单实用,大大提高了试验分析效率,对大样本、小样本都可使用。
5、试验设计 自1923年起,R. 费雪陆续发表了关于在农业试验中控制试验误差的论文。1925年他提出随机区组法和拉丁方法,到1926年,R. 费雪发表了试验设计方法的梗概;这些方法在1935年进一步得到完善,并首先在卢桑姆斯坦德农业试验站中得到检验与应用,后来又被他的学生推广到许多其它科学领域。
6、随机化原则 R. 费雪在创建试验设计理论的过程中,提出了十分重要的“随机化”原则。他认为这是保证取得无偏估计的有效措施,也是进行可靠的显著性检验的必要基础。所以,他把随机化原则放在极重要的地位,“要扫除可能扰乱资料的无数原因,除了随机化方法外,别无它法。”1938年,他和耶特斯合作编制了有名的Fisher Yates随机数字表。利用随机数字表保证总体中每一元素有同等被抽取的机会。这样,R. 费雪就把随机化原则以最明确、最具体化的形式引入统计工作与统计研究中。
R. 费雪在统计发展史上的地位是显赫的。这位多产作家的研究成果特别适用于农业与生物学领域,但它的影响已经渗透到一切应用统计学,由此所提炼出来的推断统计学已越来越被广大领域所接受。因此,美国统计学家约翰逊(P.O. Johnson)于1959年出版的《现代统计方法:描述和推断》一书中指出:“从1920年起一直到今天的这段时期,称之为统计学的费雪时代是恰当的”。
四、统计学在中国的传播
1913年,顾澄教授(1882~?)翻译了统计名著《统计学之理论》。这是英国统计学家尤尔在1911年新出版的关于描述统计学的著作,也就是英美数理统计学传入中国之始。之后有1922年翻译英国爱尔窦登的《统计学原理》、1929年翻译美国金氏的《统计方法》、1938年翻译鲍莱的《统计学原理》、1941年翻译密尔斯的《统计方法》。密尔斯的著作对中国统计学界影响较大,并被推崇为统计学范本。R. 费雪的理论和方法也很快传入中国,在20世纪三十年代,“生物统计与田间试验”就作为农学系的必修课程,最早有1935年王绶编著出版的《实用生物统计法》,随后有范福仁著于1942年出版的《田间试验之设计与分析》。新中国成立后,中国科学院生物物理研究所的杨纪柯在介绍、推广数理统计学上作了大量工作。1963年他与汪安琦一起翻译出版了G.W. 斯奈迪格著《应用于农学和生物学试验的数理统计方法》,同年,他编写出版了《数理统计方法在医学科学中的应用》。接着,郭祖超的《医用数理统计方法》(1963)、范福仁的《田间试验技术》(1964)、《生物统计学》(1966)、赵仁熔的《大田作物田间试验统计方法》(1964)相继问世。到了七十年代,中国科学院数理研究所数理统计组先后出版了《常用数理统计方法》(1973)、《回归分析方法》(1974)、《方差分析》(1977)、《正交试验法》(1975)、《常用数理统计用表》(1974)。薛仲三的《医学统计方法和原理》(1978)、上海师范大学数学系概率统计研究组的《回归分析及其试验设计》(1978)等,这些都有力地推动了数理统计方法在中国的普及和应用。1978年12月,国家统计局在四川峨眉召开了统计教学、科研规划座谈会。会上明确提出“统计工作部门应该更好地运用数理统计方法”。这以后有关统计学的教材与论著如雨后春笋般涌现,如南京农业大学主编农业院校统编教材《田间试验和统计方法》(1979年第一版、1988年第二版)、贵州农学院主编农业院校统编教材《生物统计附试验设计》(1980年第一版、1989年第二版),林德光编著的《生物统计的数学原理》(1982)、张尧庭、方开泰编著的《多元统计分析引论》(1982)、莫惠栋编著的《农业试验统计》(1988年第一版,1994年第二版)、明道绪主编的《兽医统计方法》(1991)、吴仲贤主编的《生物统计》(1994)、俞渭江、郭单元编著的《畜牧试验设计》(1995)等,译著有:杨纪珂、孙长鸣翻译出版的R.G.D. 斯蒂尔、J.H. 托里著的《数理统计的原理与方法 适用于生物科学》(1979),关彦华、王平翻译[日]吉田实著《畜牧试验设计》(1984)等。随着计算机的迅速普及,统计电算程序SAS,SPSS等的引进,统计学在中国的应用与研究出现了崭新的局面。
习 题
1、什么是生物统计?它在畜牧、水产科学研究中有何作用?
2、什么是总体、个体、样本、样本含量、随机样本?统计分析的两个特点是什么?
3、什么是参数、统计量?二者有何关系?
4、什么是试验的准确性与精确性?如何提高试验的准确性与精确性?
5、什么是随机误差与系统误差?如何控制、降低随机误差,避免系统误差?
6、统计学发展的概貌可分为哪几种形态?拉普拉斯、高斯、高尔敦、毕尔生、哥塞特、费雪各对统计学有何重要贡献?