《统计学》
实
验
指
导
书
重庆工商大学统计学院
2006-5-15第一章 前言 3
1.1背景 3
1.2适用范围 3
第二章 运行环境 4
2.1硬件环境 4
2.2软件环境 4
第三章 实验目的和任务 5
3.1实验的目的 5
3.2实验的任务 6
第四章 实验内容 7
4.1实验一 直方图工具 7
4.2 实验二 季节变动时间序列的分解分析 7
4.3 实验三 线性回归分析 21
第一章 前言
1.1背景
自20世纪60年代以后,统计学的发展有三个明显的趋势:第一,随着数学的发展,统计学依赖和吸收的数学方法越来越多;第二,向其他学科领域渗透,或者说以统计学为基础的边缘学科不断形成。2003年度诺贝尔经济学奖授予两位著名计量经济学家罗伯特·恩格尔(RobertF.Engle)和克莱夫·格兰杰(CliveGranger)。20 世纪 80 年代两位获奖者发明了新的统计方法来处理许多经济时间数列中两个关键属性:时变性(time-varyingvolatility)和非平稳性(nonstationarity),恩格尔研究方向主要是利率、汇率和期权的金融计量分析,提出谱分析回归等创新性统计方法;格兰杰的研究涉及统计和经济计量学,特别是时间序列分析、预测、金融、人口统计学、方法论等领域。这足以证明统计方法应用的领域越来越广泛,可以应用于各行各业的数据分析,使统计学成了一门“万能”的方法论学科。美国SCIENCFY有一篇文章列出近百年来最有用的科学,统计高居前十名。
随着统计学应用日益广泛和深人,由于受计算机和新兴科学的影响,使统计学越来越依赖于计算技术,成为数量分析的方法论科学。这一时期统计学的研究和应用范围越来越广。比如海洋学中水面的高程,电磁能(特别是无线电波)的流量,工业过程的状态,生物的状态,都能用计算机收集;没有计算机这些是不实际或不可能的。计算机节省了大量人力,特别是在同样输出的重复计算上,例如在计算多元分析的相关系数和其它检验统计量时。由于计算机软件SPSS和SAS可用于所有通常的检验,特别是关于方差分析,则节省更多时间。而且随着统计学发展的越来越快,它与计算机科学结合也就越紧密,也就会带来更大的社会效益。因此,在高等学校尤其是财经、经贸、商业类高校的《统计学》教学中为了使学生能够对所学知识和方法有更好地掌握,必须做好试验方面的教学。
1.2适用范围
我院设计的统计实验以及开发的实验环境主要用于统计、国际贸易、电子商务、企业管理与信息系统、旅游管理、行政管理等专业本科《统计学》课程的辅助教学。另外,此套实验也适用于统计机构、市场调查公司进行基础培训。
第二章 运行环境
2.1硬件环境
50个客户端同时在线时,本软件对服务器的要求:
CPU 主频 ≥900MHZ PⅢ及以上芯片
内存 ≥256M
硬盘 转速≥7200转/分 建议使用SCSI硬盘
100个客户端同时在线时,本软件对服务器的要求:
CPU 主频≥1.8GHZ缓存>1M 至强系列芯片 推荐使用双CPU
内存 ≥1G
硬盘 建议使用SCSI硬盘
另外,推荐服务器安装RAID卡,以保证数据的安全性。
2.2软件环境
服务器端
操作系统:Microsoft Windows XP
数据库系统:Microsoft SQL Server2000
运行平台:IIS5.0以上
客户端:
Windows 98 及以上版本,IE浏览器要求5.0以上, Microsoft word 2000 以上。
由于本软件为B/S架构,维护较为方便,只需要保证服务器的正常运行就可以。
第三章 实验目的与任务
3.1实验目的
长期以来,我国高等教育中《统计学》课程的教学由于各种客观条件的限制只能以理论教学为主,缺乏对于实践的操作。这种传统教学模式已不能适应新形式的需要。因为随着统计学在经济、社会生活中更广泛和深入的应用以及市场调查分析方法的成熟与完善,脱离实际的教学难以使学生对统计学有更深刻的感性认识,也难以使他们在今后的工作中熟练使用统计的方法和软件。所以许多高校重视实践教学环节的开发和改革,希望能在教学中使用可靠的实验系统,给学生提供一个高效的模拟实习环境。正是基于这种现实,我院在统计学实验中设计的实验项目应使学生熟练掌握统计软件的基本操作,利用统计软件对简单的经济和社会问题进行具体分析,激发他们学习统计学的兴趣,从感性层面更牢固地掌握统计学的知识和方法,为他们将来在工作中熟练运用统计工具解决问题打下良好的基础。
3.2实验任务
《统计学》是一门基础课程,教学面向的学生也较多,因此本门课实验建议不使用难以掌握的软件,一般使用Microsoft Excel作为实验教学软件。具体实验任务如下:
1.掌握Excel的基本操作;
2.掌握Excel的主要函数;
2.掌握统计图表的编制,尤其要熟练掌握直方图的绘制方法;
3.掌握一元线性回归的分析方法,了解t检验、F检验的内涵;
4.掌握季节变动的分析方法。
第四章 实验内容
4.1 直方图工具
(一)简介:直方图工具,用于在给定工作表中数据单元格区域和接收区
间的情况下,计算数据的个别和累积频率,可以统计有限集中某个数值元素的出现次数。例如,在一个有 50 名学生的班级里,可以通过直方图确定考试成绩的分布情况,它会给出考分出现在指定成绩区间的学生个数,而用户必须把存放分段区间的单元地址范围填写在在直方图工具对话框中的“接收区域”框中。
(二)操作步骤:
1.用鼠标点击表中待分析数据的任一单元格。
2.选择“工具”菜单的“数据分析”子菜单。
3.用鼠标双击数据分析工具中的“直方图”选项 。
4.出现“直方图”对话框,对话框内主要选项的含义如下:
输入区域:在此输入待分析数据区域的单元格范围。
接收区域(可选):在此输入接收区域的单元格范围,该区域应包含一组可选的用来计算频数的边界值。这些值应当按升序排列。
只要存在的话,Excel 将统计在各个相邻边界值之间的数据出现的次数。如果省略此处的接收区域,Excel 将在数据组的最小值和最大值之间创建一组平滑分布的接收区间。
标志:如果输入区域的第一行或第一列中包含标志项,则选中此复选框;如果输入区域没有标志项,则清除此该复选框,Excel 将在输出表中生成适宜的数据标志。
输出区域:在此输入结果输出表的左上角单元格的地址。如果输出表将覆盖已有的数据,Excel 会自动确定输出区域的大小并显示信息。
柏拉图:选中此复选框,可以在输出表中同时显示按降序排列频率数据。如果此复选框被清除,Excel 将只按升序来排列数据。
累积百分比:选中此复选框,可以在输出结果中添加一列累积百分比数值,并同时在直方图表中添加累积百分比折线。如果清除此选项,则会省略以上结果。
图表输出:选中此复选框,可以在输出表中同时生成一个嵌入式直方图表。
所选数据如图4—1所示。
图4—1
5.按需要填写完“直方图”对话框之后,按“确定”按扭即可。
(三)结果说明:完整的结果通常包括三列和一个频率分布图,第一列是数值的区间范围,第二列是数值分布的频数,第三列是频数分布的累积百分比。
输出结果如图4—2所示。
图4—2
4.2季节变动时间序列的分解分析
(一)简介:分解分析法是分析时间序列常用的统计方法。季节时间序列是趋势变动(T)、季节变动(S)、随机变动(I)综合影响的结果,分解过程要从原始序列中消除随机变动,然后分别识别出季节变动和趋势变动的变化模式。下面结合具体例子介绍在Excel 中如何实现时间序列的分解分析。如图4—3 所示,表中A1 至B13 单元格是1996 至1998 年各季度某海滨城市旅游人口数(千人),试预测1999 年各季度旅游人口数。
(二)操作步骤:
1.计算一次移动平均,消除随机波动。在C3 单元格填入公式“=AVERAGE(B2:B5)”,然后用“填充柄”将公式复制到C4:C11 单元格。
2. 中心化移动平均数。在D4 单元格输入公式“=AVERAGE(C3:C4)”,然后用“填充柄”将公式复制到D5:D11 单元格。
3. 计算各个季节指数。在E4 单元格输入公式“=B4/E4”,然后用“填充柄”将公式复制到E5:E11 单元格。
4. 计算平均季节指数。在F4 单元格中输入公式“=AVERAGE(E4,E8)”,
然后用“填充柄”将公式复制到F5:F7 单元格。
图4—3
5. 计算调整后的季节指数。为了让季节指数的总平均为1,必须对季节指数加以调整。在G4 单元格中输入公式“=F4/AVERAGE($F$4:$F$7)”,然后用“填充柄”将公式复制到G5:G7 单元格。G4:G7 就是最终计算出的季节指数,按G4:G7 给出的4 个季度的季节指数,将季节指数填充到G2:G13 的其它单元格。
6. 消除旅游人数序列中的季节变动。在H2 单元格中输入“=B2/F2”,
然后用“填充柄”将公式复制到H3:H13 单元格。则H 列就是消除季节
变动之后的旅游人数时间序列。
7. 对消除季节变动的旅游人数进行回归分析。在I 列填入时间序号1至12,如图4—3 所示。选择“工具”菜单的“数据分析”子菜单,双击“回归”选 项,弹出回归分析对话框。按图4—4所示的方式填写对话框。然后单击“确定”按扭,即可得到剔除了季节波动的时间序列的线性趋势模型。估计结果如图4—5 所示,其中B35 单元格是线性趋势模型的截距,B36 单元格是斜率。
图4—4
图4—5
8. 预测。在G14:G17 单元格中分别填入刚才计算出的四个调整后的季节指数,在B14 单元格中输入公式“=($B$35+I14*$B$36)*G14”,然后利用“填充柄”将公式复制到B15:B17 单元格,B14:B17 单元格中就是1999 年各个季度旅游人数的预测值,如图4—6所示。
图4—6
4.3 线性回归分析
(一)简介:线性回归分析通过对一组观察值使用“最小二乘法”直线拟
合,用来分析单个因变量是如何受一个或几个自变量影响的。例子如图4—7所示,表中是我国1987 年至1997 年的布匹人均产量和人均纱产量,
试用线性回归分析的方法分析两组数据之间的关系。
图4—7
(二)操作步骤
1.选择“工具”菜单的“数据分析”子菜单,双击“回归”选项,弹出回归分析对话框。其中主要选项的含义如下:Y 值输入区域,在此输入对因变量数据区域,该区域必须由单列数据组成;X 值输入区域,在此输入对自变量数据区域,Excel 将对此区域中的自变量从左到右按升序排列,自变量的个数最多为 16;置信度,如果需要在汇总输出表中包含附加的置信度信息,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度,95%为默认值;常数为零,如果要强制回归线通过原点,则选中此复选框;输出区域,在此输入对输出表左上角单元格的引用。汇总输出表至少需要有七列的宽度,包含的内容有anova 表、系数、y 估计值的标准误差、r2 值、观察值个数,以及系数的标准误差;新工作表,单击此选项,可在当前工作簿中插入新作表,并由新工作表的 A1 单元格开始粘贴计算结果,如果需要给新工作表命名,则在右侧的编辑框中键入名称;新工作簿,单击此选项,可创建一新工作簿,并在新工作簿中的新工作表中粘贴计算结果;残差,如果需要以残差输出表的形式查看残差,则选中此复选框;标准残差,如果需要在残差输出表中包含标准残差,则选中此复选框;残差图,如果需要生成一张图表,绘制每个自变量及其残差,则选中此复选框;线形拟合图,如果需要为预测值和观察值生成一个图表,则选中此复选框;正态概率图,如果需要绘制正态概率图,则选中此复选框。
2. 按如下方式填写对话框:X 值输入区域为$B$1:$B$12, Y 值输入区域为$C$1:$c$12, 并选择“标志”和“线性拟合图”两个复选框,然后单击“确定”按扭即可。
(三)结果分析
按照如上的操作步骤即可得到图4—8 下表的计算结果。结果可以分为四个部分,第一部分是回归统计的结果包括多元相关系数、可决系数R2、调整之后的相关系数、回归标准差以及样本个数。第二部分是方差分析的结果包括可解释的离差、残差、总离差和它们的自由度以及由此计算出的F 统计量和相应的显著水平。第三部分是回归方程的截距和斜率的估计值以及它们的估计标准误差、t 统计量大小双边拖尾概率值、以及估计值的上下界。根据这部分的结果可知回归方程为Y=8.46433*X-18.288。第四部分是样本散点图,其中蓝色的点是样本的真实散点图,红色的点是根据回归方程进行样本历史模拟的散点。如果觉得散点图不够清晰可以用鼠标拖动图形的边界达到控制图形大小的目的。用相同的方法可以进行多元线性方程的参数估计,还可以在自变量中引入虚拟变量以增加方程的拟合程度。对于非线性的方程的参数
图4—8
估计,可以在进行样本数据的线性化处理之后,再按以上步骤进行参数估计