第二单元 直方图一、学习目标了解用直方图的方法处理数据.
二、内容讲解当数据很多的时候,如何来处理数据?这包括两个方面的问题:从一个角度来说,若数据很多,计算数据的平均数和方差是很麻烦的,或者说不必要计算精确的特征数;第二个问方面,我们不满足计算数据的特征数,我们还要知道数据的全貌.这就是频数分布标和频数直方图要解决的问题。先看一个例子.
如果数据很多,如何了解它的分布?先讲一个例子.
例某食品厂用自动打包机包装食盐,为了解机器的生产状况,现抽取120袋食盐测试重量,具体数值如下:
998
1001
985
997
1008
987
999
1005
1005
993
999
1000
981
1006
990
998
1007
998
1019
988
997
1003
1022
987
1011
1007
1002
999
984
989
998
986
996
1007
1003
1002
1006
996
1004
1001
994
1014
1006
997
1003
995
1005
1011
1001
999
1001
1009
996
992
993
998
1011
994
1015
990
983
995
1002
992
997
1009
1001
1017
996
991
993
1005
1003
1010
1018
1001
1011
1000
998
1000
995
994
1000
991
1009
997
1005
1005
1013
995
1014
1008
1000
992
989
999
1003
1013
1004
997
1001
979
1000
994
1002
997
997
986
1012
1004
996
1007
996
978
1011
1006
998
990
1003
1007?
第1步:确定全部数据所在的范围.
第2步:分组,确定组距和组限。每组数据的组上限与组下限之差称为组距,即组距=组上限 - 组下限.
第3步:唱票,数出落在每组中的数据个数,这个数据个数称为组频数.
第4步:计算每组的组中值和组频率各组的组频数与总频数之比,称为该组的组频率组上限与组下限的均值称为组中值,即组中值=
这样,就得到数据的频数分布表:
频数分布表组 限
组中值 xi
组频数vi
组频率fi
975~ 980
977.5
2
0.017
980~ 985
982.5
3
0.025
985~ 990
987.5
8
0.067
990~ 995
992.5
15
0.125
995~1000
997.5
30
0.250
1000~1005
1002.5
26
0.217
1005~1010
1007.5
20
0.167
1010~1015
1012.5
9
0.075
1015~1020
1017.5
6
0.050
1020~1025
1022.5
1
0.008
合计

120
1?
第5步建立坐标系,画出直方图。用数据作横轴,用频数作纵轴.
通过上面的例子,归纳列频数分布表、画频数直方图的步骤:
①找出数据中的最小值和最大值,确定数据所在的区间 (a,b);
②把(a,b)分组;
③计算组频数;
④计算组中值和组频率;
⑤建立坐标系,画出频数直方图.
大家可以看到,频数直方图既可以直观、简便地反映数据的全貌,又可以计算我们所需要的数据的特征数,大家可以想一想,我们也可以用频率来反映数据的全貌,这就是频率直方图.频率直方图是用数据作横轴、频率/组距作纵轴画出的直方图.
我们再看原来的例子:计算频率/组距的值填入表中:
组 限
组中值 xi
组频数vi
组频率f i
组频率/组距
100~105
102.5
2
0.13
0.026
105~110
107.5
4
0.27
0.054
110~115
112.5
7
0.47
0.094
115~120
117.5
2
0.13
0.026
合计

15
1

以组距为底,以频率/组距为高画小矩形,从而画出频率直方图.
频率直方图
·以数据为横轴
·以频率/组距为纵轴频率直方图中的小矩形的面积就等于有百分之多少的数据落在该区间内,整个直方图的面积总和应等于1.
三、例题讲解例题 有15个数据
101 114 106 118 108
117 111114 110 104
114 108 107 113 114
(1)列出频数分布表,并画出频数直方图;
(2)计算均值和方差.
解:这组数据中的最小值是101,最大值是118,确定区间为(100,120),分4组,组距=5,列表:
组 限
组中值 xi
组频数vi
组频率fi
100~105
102.5
2
0.13
105~110
107.5
4
0.27
110~115
112.5
7
0.47
115~120
117.5
2
0.13
合计

15
1?
画出直方图.
计算特征数利用频数分布表可以得到近似计算均值、方差的简便方法:=110.5
(102.5-110.5)2×0.13+(107.5-110.5)2×0.27+(112.5-110.5)2×0.47+(117.5-110.5)2×0.13=19
四、课堂练习下表是某城市30年(1967年~1996年〕的年降水量的 资料(mm).将表中的数据分成5组,取a=770.0,b=1510.0.列出这些数据的频数分布表,画出频数直方图和频率直方图,并计算均值和方差.
984.8
1390.3
1062.2
1287.3
1477.0
1017.9
1217.7
1197.1
1143.0
1018.8
1243.7
909.3
1030.3
1124.4
811.4
820.9
1184.1
1107.5
991.4
901.7
1176.5
1113.5
1272.9
1200.3
1508.7
772.3
813.0
1392.3
1006.2
1108.8
作频数分布表时,首先要确定数据所在的范围;其次分组,确定组距和组限;然后数出组频数;最后计算每组的组中值和组频率,将它们分别填入表内,就得到频数分布表.
画频数直方图和频率直方图时,要注意小矩形的底都是组距,高分别是组频数和组频率/组距(而不是组频率),a,b的确定要保证所有的数据都落在[a,b]内,且分组后最小值应落在第1组内,最大值应落在最后一组内,找出数据中的最大值和最小值,最大值是1508.7,最小值是772.3,a取略小于772.3的770,b取略大于1508.7的1510.0.这样所有数据都落在[a,b]内了.B),C)都不能使所有的数据落在其中,D) 的范围太大了,分组后,第1组可能会没有值,因此只有A)合适五、课后作业调查某企业100名职工的月收入(单位:元),具体数据见下表。试就这100个数据
(1)列出频数分布表;
(2)作出频数直方图;
(3)作出频率直方图;
(4)近似计算均值、方差和标准差.
852
637
751
865
1032
967
1019
935
998
910
862
794
896
810
1072
987
654
736
815
823
895
843
1180
809
794
661
937
864
870
810
772
1073
999
1020
600
630
740
601
905
790
542
882
1100
936
800
880
575
932
830
890
980
750
970
520
842
935
800
1050
840
820
974
901
859
790
675
1000
576
570
750
570
930
470
870
890
840
950
920
900
910
630
890
780
890
867
1021
930
740
690
890
930
830
747
840
951
690
770
830
878
880
940
分10组,a=450,b=1200,列频数分布表如下组 限
组中值 xi
组频数vi
组频率fi
450~525
487.5
2
0.02
525~600
562.5
5
0.05
600~675
637.5
7
0.07
675~750
712.5
8
0.08
750~825
787.5
16
0.16
825~900
862.5
28
0.28
900~975
937.5
20
0.2
975~1050
1012.5
9
0.09
1050~1125
1087.5
4
0.04
1125~1200
1162.5
1
0.01
合计

100
1?