试验设计与数据处理刘书成
Lsc771017@163.com
2152218 13763010176
第一章 绪 论一、试验设计的性质、任务和作用二、试验设计的内容三、试验设计的发展四、学习试验设计方法的意义五、课程学习的基本要求六、参考书籍
1 性质,专门研究合理的 制定试验方案 和 科学的分析试验结果 的一门应用技术学科。
2 任务,以概率论与数理统计为理论依据,结合专业知识和实践经验,经济地、科学地、合理地安排试验,有效的控制试验的干扰,充分地利用和科学地分析所获取的试验信息,从而达到 尽快 获得最优试验方案的目的。
一 试验设计的性质、任务和作用
3 作 用:
( 1)通过试验设计可以分清各个试验因素对试验指标影响的大小顺序,找出主要因素,抓住主要矛盾;
( 2)通过试验设计可以了解因素与试验指标间的规律性,
即每个因素的水平改变时,指标是怎么样变化的;
( 3)通过试验设计可以了解各因素之间的相互影响情况,
即因素之间的交互作用情况;
( 4)通过试验设计可迅速找出最优的生产条件或工艺条件,确定最优的方案,并能预测在最优的生产条件下的试验指标值及波动范围;
( 5)通过试验设计的方差分析,可以了解试验误差的大小,从而提高试验的精度。
( 6)通过对试验结果的分析,可以明确为寻找最优生产或工艺条件而进一步试验的研究方向。
二、试验设计的内容试验设计是统计数学的一个重要分支,内容丰富。主要有以下内容:
全面试验设计; 正交试验设计 ; 均匀试验设计 ;拉丁方试验设计;裂区试验设计; 回归正交试验设计 ; 回归旋转试验设计 ;饱和 D-最优试验设计;混料试验设计;三次试验设计等。
本课程的学习内容
1 试验设计的基础知识 5 正交试验设计
2 统计基础 6 均匀试验设计
3 方差分析 7 回归正交设计
4 回归分析 8 回归旋转设计三、试验设计的发展由英国生物统计学家费歇 ( R.Fisher) 于 20世纪 20年代创立。总结出了 完全随机化法、随机区组法、拉丁方法和希腊拉丁方法 等试验设计,并发明了 方差分析方法 。这些方法在农业和生物学试验中的应用,取得了丰硕的成果。 1925年,
这些方法首次被称为,试验设计,; 1935年出版了专著,试验设计,。
20世纪 40年代,西方工业化国家在对试验设计研究的基础上,并逐步推广到工业生产中,发现受到一定的限制。如这些方法考察的因素数量有一定限制,而且有的方法还不能考察因素之间的交互作用。因此需要对这些方法进行改进。
1947年,日本的田口玄一等人创立了可以安排多因素的正交试验设计法,它极大的丰富了试验设计方法的内容,解决了工业化生产中多因素的试验设计问题。这给日本和西方发达国家带来了巨大的经济效益,尤其在二战后。
50年代,田口玄一等人又创立了 SN比试验设计和三次试验设计,解决了产品或工序的最佳稳定性和最佳动态特性问题,为试验设计在工业中的应用开辟了更为广泛的领域。
同时,美国的博克斯( Box)于 1957年创立了调优运算试验设计,该方法是对传统的试验技术的发展和完善,不仅可以探索最优的生产工艺条件,而且可以大大提高劳动生产率,获得比较好的经济效益,很快就得到了推广。
1978年,我国数学家 方开泰 和 王元 数学家将数论和多元统计相结合,在正交试验设计的基础上,创立了一种新的适用于多因素多水平的试验设计 —— 均匀试验设计法 。
随着科学技术的进步,科研、生产的不断发展,试验设计技术也将不断发展和完善。试验设计技术的应用也将越来越广泛。
培 养:
独立从事试验研究工作的能力严谨治学、理论联系实际的科学态度独立获取知识和综合运用知识的能力分析问题和解决问题的能力四、学习试验设计的意义试验是科学研究的重要手段发现问题提出解决问题的途径设计并执行试验解决问题试验设计与科学试验的关系试验计划与设计试验组织与实施结果整理与分析试验结论成果展示提出数据的获取方法收集数据加工数据归纳与推论编制图表五、课程学习的基本要求了 解 基本原理;
熟练掌握 介绍的几种生物统计方法,能独立进行试验结果的统计分析;
熟练掌握 介绍的几种试验设计方法,能独立进行试验设计;
熟练掌握 Excel,SAS等数据处理软件处理数据。
说 明:
1、对于基本公式,要理解公式的含义和应用条件,
不必深究其数学推导。
2、加强实践加深对公式及统计步骤理解和记忆,达到能熟练地应用统计方法。
3、注意培养科学的统计思维方法,从不确定性和概率的角度来思考问题和分析科学试验的结果。
4、平时要留意书籍和杂志中的表格、数据及其分析和解释,以熟悉表达方式及应用。
参考书籍
1、试验设计方法,林维宣主编
2、食品研究与数据分析,刘魁英主编
3、试验设计与分析,袁志发主编
4、食品试验设计与统计分析 王钦德 杨坚主编第二章 试验设计的基本知识试验过程就是方案的实施过程,依靠合理的试验设计得出正确的判断和结论。
试验目的是为了获得条件与结果之间的规律性认识。
一个良好的试验设计可以最大限度的节约成本,缩短试验周期,同时又能迅速获得确切的科学结论。
试验设计的广义理解是指整个试验过程的课题设计。
应当包括三个组成部分:
( 1)确定试验处理方案;
( 2)观察资料的搜集与整理;
( 3)统计分析方法。
进行试验设计,首先要明确几点:试验目的,考核和评价的指标,考察的因素。然后根据试验目的来合理设计试验方案,组织试验的具体实施,最后对试验结果进行统计分析。
试验设计是为试验服务的,试验者必须有实事求是的科学精神。为了达到不同的试验目的,
应该采用不同的试验设计方法,根据试验要求灵活掌握,不能生搬硬套。
本章的主要内容第一节 试验设计的基本概念第二节 试验数据结构与试验误差第三节 试验设计的基本原理第四节 试验设计的基本要求第五节 试验设计的基本程序第一节 试验设计的基本概念一、试验指标在试验设计中,根据试验目的而选定的用来衡量试验效果的特征值,称为 试验指标 。
在一项试验中,试验指标是根据试验目的而选定的,不同的试验目的选用不同的试验指标。例如,在考察不同的多糖提取工艺对多糖提取率的影响时,多糖提取率 是试验指标;在考察不同提汁工艺条件对果汁褐变的影响时,果汁色泽 就是试验指标。
试验指标可分为两类:定量指标和定性指标。
定量指标,能用数量表示的指标,如食品的糖度、
酸度,pH、提取率,吸光度、合格率等,食品的理化指标及由理化指标计算得到的特征值一般为定量指标。
定性指标,不能用数量表示的指标,如色泽、风味、口感、手感等。食品的感官指标多为定性指标。
通常为了便于试验分析结果,常把定性指标进行量化,转化为定量指标。 例如,食品的感官指标可用评分( 10分制或者百分制)的方法分成不同的等级,
代替很好、较好、较差、很差等定性描述方式。
试验设计中,根据试验目的的不同,可以选择一个试验指标,也可以同时选择多个试验指标,前者称为单指标试验,后者称为多指标试验。
二、试验因素在试验设计中,可能对试验指标产生影响的条件称为 试验因素 。
在酶解制备水解动物蛋白的试验中,酶的种类、
温度,pH、时间、底物浓度等都对水解度有很大的影响,这些就是影响水解度的因素。
试验因素又可分为数量因素和非数量因素。数量因素 —— 依据数量化分水平的因素,如温度,pH、时间等。非数量因素 —— 不是依据数量化分水平,如酶的种类等。
三、试验水平在试验设计中,为考察试验因素对试验指标的影响情况,要使试验因素处于不同的状态,把试验因素所处的各种状态称为 试验水平 。
试验设计中,一个因素选择了几个水平,就称该因素为几水平。例如在酶解制备水解动物蛋白的试验中,
温度分别设为 30℃,40 ℃,50 ℃,就称温度为三水平。
因素的水平,有的可以取具体的数值,有的无法用具体的数值表示,如添加剂的种类,酶的种类,设备的不同型号,原料的不同品种,工艺的不同操作方法等。
四、试验处理试验处理是指各试验因素的不同水平之间的联合搭配,因此,试验处理也叫因素的水平组合或组合处理。
在单因素试验中,水平和处理是一致的,一个水平就是一个处理。在多因素试验中,由于因素和水平较多,
可以形成若干个水平组合。
处理的多少等于参加试验各因素水平的乘积。如三因素三水平试验共有 3× 3× 3=27个处理。
五、全面试验对全部组合处理进行试验,叫全面试验。全面试验的组合处理等于各试验因素水平的乘积。
优点:能够掌握每个因素及其每一个水平对试验结果的影响,无一遗漏。
缺点:但是当试验的因素和水平较多时,试验处理的数目会急剧增加,如果还要重复,工作量就会更大,
在实际中难以实施。因此,全面试验是有局限性的,只适用于因素和水平都不太多的情况。
六、部分实施部分实施就是从全部组合处理种选取部分有代表性的处理进行实施。如正交试验设计和均匀试验设计等都属于部分实施。部分实施可使试验规模大大减少。
如三因素三水平的试验,按照全面试验有 27个处理,
按照正交试验设计只有 9个处理,仅为全面试验的三分之一。
因此,在试验因素和水平较多时,常采用部分实施的方法。
第二节 试验数据结构与试验误差一、试验数据结构在试验研究中,所获得的试验结构(数据)总是有差异的,即使在同一条件下进行试验,所得的试验数据也不完全一样,引起试验数据产生差异的因素很多,这些因素对试验数据的影响也是不同的,有主有次,有大有小。
对影响因素,抓住主要的因素加以控制,使这些因素固定在希望的水平上,从理论上讲,它们对试验结果的影响也是固定的,
用 m表示;次要的因素不加以控制,它们对试验结果的影响也可概括为一项,称为误差项,用 ε 表示。
因此,任何试验结果(数据)都可以表示为两部分之和,即
Χ =m + ε
m,被控制因素对试验指标的影响之和,是在某一工艺下试验指标应有的理论值。 ε,从下料、配料、加工直到测试整个过程中许多未加控制的因素对试验指标的影响之和,称为试验误差。
该式为试验数据的结构式,是对试验数据进行分析的依据,
m 和 ε 在性质上是两类完全不同的量,m是常量,ε 是随机变量,
因此,试验数据 Χ 也是一个随机变量。
二、试验误差
(一)试验误差来源
1、试验材料试验中,所用的试验材料在质量、纯度上不可能完全一致,就是同一厂家生产的同批号的同一包装内的产品,有时也存在某种程度的不均匀性。试验材料的差异在一定范围内是普遍存在的,这种差异会对试验结果带来影响,产生试验误差。
2、试验仪器和设备
( 1)仪器精度有限;
( 2)仪器的磨损;
( 3)仪器可能不在最佳状态;
( 4)测量工具可能没有校正,即使校正,也不可能绝对准确,也会有误差;
( 5)有时试验中,需要同时使用多台仪器,即使是同一型号也会存在一定的差异,同一台仪器不同时间的测定也有差异。
3、试验环境条件环境因素主要包括温度、湿度、气压、振动、光线、电磁场、海拔高度和气流等。
试验在完全相同的环境条件下进行,才能得到可靠的结果。但是由于环境条件的复杂性,且难以控制,
因此环境条件对试验结果的影响不可避免,特别是试验周期较长的试验。环境的变化可能会使原料的组成、
性质和结构等发生变化,同时也可能影响仪器的稳定性,从而引起误差。
4、试验操作主要由操作人员引起的。
人的生理机能的差异如眼睛的分辨能力,不能正确的读数以及辨别颜色的色调及深浅;嗅觉对气味的敏感度等。
操作人员的习惯,读数的偏高和偏低,终点观察的超前或滞后。
有的试验有多人共同操作,操作人员的素质和固有习惯。
(二)试验误差的分类
1 随机误差随机误差是由于在试验过程中一系列有关因素的细小随机的波动而形成的具有相互抵消性的误差。它决定试验结果的精密度。
在一次试验中,随机误差的大小和符号是无法预测的,没有任何规律性。多次试验中随机误差的出现还是有规律的,它具有统计规律性。
随机误差取决于试验过程中的一系列的随机因素,这些因素无法严格控制,因此随机误差是不可避免的,试验人员可设法将其大大减少,但不可能完全消除它。
2 系统误差系统误差是在一定试验条件下由某个或某些因素按照某一确定的规律起作用而形成的误差,它决定试验结果的准确度。
系统误差的大小和符号在同一试验中是恒定的,或在试验条件改变时,按照某一确定的规律变化。
系统误差可以设法避免,或者通过校正加以消除。
总之,试验过程中出现误差是不可避免的,但可以设法尽量减少误差,这正是试验设计的主要任务之一。
第三节 试验设计的基本原理试验设计中,为了尽量减少试验误差,就必须严格控制试验干扰。试验干扰是指那些可能对试验结果产生影响,但在试验中未加以考察,未加以精确控制的条件因素。例如:试验材料的不均匀,仪器设备和实验操作人员的不同,试验周围的环境、气候、时间的差异和变化等。
控制和消除试验干扰的方法就是严格遵循试验设计的三个基本原理。
一、重 复重复是指在试验中每种处理至少进行 2次以上。
重复的作用:
( 1)估计试验误差,要有误差的估计值,才能判断处理之间的差异的显著性,而误差估计可从重复试验中得到。
( 2)更精确的估计处理效应(或者说可以减少试验误差)。
重复试验不但能测定误差的估计值,还能减少误差估计值,提高试验精度,同时还能扩大试验的代表性。
重复次数的多少才合适是值得研究的问题。重复次数太少,试验误差大且不准确;重复次数太多,则费时,费力。为了避免这一问题,
需要在同时遵循下面要讲的,局部控制原理,的前提下进行重复。
重复是估计和减少随机误差,不能发现和减少系统误差。
二、随机排列随机排列是指在试验中,每一个组合处理及其每一个重复都有同等的机会被安排在某一特定的空间和时间微环境中,以消除某些组合处理或其重复可占有的,优势,
或,劣势,,保证试验条件在空间和时间上的均匀性。
随机化可消除系统误差,是系统误差转化为随机误差,从而可正确、无偏地估计试验误差,并可保证实验数据的独立性和随机性,以满足统计分析的基本要求。
随机化通常采用抽签、摸牌,或者查随机数表等方法来实现。
三、局部控制做一项试验,总希望试验条件(除试验因素以外的所有其他条件)基本保持一致,这样得到的结果才能直接看出试验因素对试验指标的影响情况,因素的不同水平之间才有可比性,反之,如果除了试验因素外,试验条件也同时改变,
就会引入系统误差,这是就不能确定实验指标的变化就是由于试验因素引起的还是由试验条件的改变引起的。这就干扰了对试验结果的分析。
任何一项试验,都是在一定的时空范围内进行的,而不同时空范围内的试验条件是有差异的。试验次数越多,所占的时空范围就越大,试验条件之间的差异也就越大。反之,
试验时空范围越小,试验条件就越均匀一致。
如果把一项试验的时空范围划分为几个小的范围 —— 区组,
使得每个区组内的试验条件尽可能均匀一致,每个区组内各处理的试验顺序随机安排,这样,每个区组内的试验误差减小,
区组间的试验条件的差异虽较大,但可用适当的统计方法来处理,这种安排试验的方法称为局部控制。
实施局部控制时,区组如何划分,应根据具体情况确定。
试验设计的三个基本原理,最终的目的都是为了提高试验结果的精确度,只有在正确地应用这三个原理,并在试验中贯穿实施,才能得到精确度高、
可靠性好的试验结果。三者的关系如下:
随机排列随机排列 +重复 正确估计误差重 复局部控制重复 +局部控制 减少试验误差提高试验结果和精确度举 例:
为了评价 2,6— 二氯靛酚滴定法( A),2,4—
二硝基苯肼比色法( B)和荧光法( C)三种测定维生素 C的方法的好坏,有甲、乙、丙三人进行了试验。
为了减少随机误差,遵循,重复,原理,每个方法重复三次,共 9次试验(即 9个处理)每人做三次试验。
三种试验设计方法如下:
试验人员 甲 乙 丙处 理 A A A B B B C C C
试验人员 甲 乙 丙处 理 B C A C B B A C A
试验人员 甲 乙 丙处 理 B C A C A B A C B
规则设计法完全随机化设计法随机化局部控制设计法对于( a),如从实施方便的角度来看,这是最方便的方案,但是当试验人员之间存在技术和固有习惯的差异时,
就会引入系统误差,造成方法与人员之间的混杂。比如试验结果表明 A处理最好,弄不清楚这是方法 A好呢还是试验人员甲的技术好。因此这种试验设计方法所得出的结论是不可靠的。
试验方案( b),采用完全随机化设计,将系统误差转化为随机误差,当增加试验重复次数,各处理的误差相互抵消,比较平均值就更加公平了。但是,如果知道试验人员之间的差异很大,则该方案是不平衡的,因为乙作了两次 B法,丙作了两次 A法。
试验方案( c)中,遵循局部控制原则,以试验人员划分区组,每个试验人员对三种方法各操作一次,试验顺序按照随机化排列。这样就消除了由于试验人员的差异而带入试验中的系统误差。
在实际应用中,三个原理相辅相成、相互补充、融为一体,从而控制实验干扰,保证试验条件基本均匀一致,提高试验精度,减少试验误差,再结合适当的统计分析方法,就能准取得评价试验因素的作用,正确估计试验误差,作出可靠的推断,获得正确的试验结论。
第四节 试验设计的基本要求一、试验结果要可靠包括试验的精确度和准确度两个方面。
准确度是指试验中每一个处理的实际值或所研究特性的观察值与其相应的真值的接近程度。越接近就越准确。
但在试验中真值往往未知,因此准确度难以确定。
精确度是指试验误差尽可能小,是处理之间的差异能精确的比较。
试验中,必须尽最大努力准确地执行各项实验技术,
力求避免人为的差错,特别是要注意试验条件的一致性,
这样才能提高试验结果的准确度和精确度。
准确度和精确度都好 准确度差、精确度好准确度?,精确度差 准确度和精确度都差二、试验条件要有代表性试验条件具有代表性,试验结果才能进行扩大生产。
三、试验的重现性在相同条件下再进行试验,能重复获得与原试验相类似的结果。
四、选择适当的试验指标,并有相应的数据分析方法试验结果最基本的分析方法是方差分析。因此,试验结果数据须满足方差分析的基本模型要求,如正态、独立、
等方差等要求;若不能满足则须采取相应的措施,如数据转换等。
第五节 试验设计的基本程序一、试验目的这是试验设计首先考虑的问题,应当对其深入了解,
认真分析,提出试验目的及预期效果,避免盲目性。
二、因素和水平的确定试验设计之前必须了解哪些因素可能对试验结果产生影响,并根据试验要求选择出适当因素加以研究。 在因素和水平的确定中专业知识和经验是特别重要的。
三、指标的确定在选择试验指标时,必须考虑指标对所研究问题能提供什么信息,以及如何测定该指标。
四、试验计划的确定这一步在整个试验设计中是至关重要的。首先须确定希望分辨出不同试验处理间的最小差异和允许冒多大的风险,以便确定重复数,还要考虑以怎样的方式收集数据以及怎样做随机排列。努力做到统计分析方法正确,而试验经费又比较节省。
五、试验设计的实施该过程也是收集数据的过程,设计者应加强监督。
六、数据分析所得试验数据应作统计分析,如比较两个处理平均数的差异,简单地比较两个平均数是不够的,要考虑统计显著性。数据分析中应注意使用有关统计软件,减少工作量,
对可疑数据的处理要切实查找理论根据,或在统计上提出根据。
七、结论与应用对数据分析的结果应从归纳出有关结论,给予专业的地解释,评价这些结论的实际意义。