第五章 市场调查的数据分析市场调查数据分析的基本方法假设检验法方差分析法聚类分析法判别分析法
5.1 市场调查数据分析的基本方法频数、频率分析数据集中趋势分析算术平均数中位数众数数据分散趋势分析全距(极差)
四分位差标准差
5.1.1 频数、频率分析( 1)
例 1:假设有样本数据
A B C D E F G H I J
1 1 2 2 1 4 6 5 3 3 2
2 6 1 1 2 2 3 2 5 4 3
3 4 4 1 3 3 1 4 3 3 5
4 1 3 4 5 6 4 2 4 6 3
5 3 5 2 1 1 2 1 1 4 6
6 2 6 3 4 5 5 1 3 2 2
7 6 3 6 6 2 3 6 5 1 1
8 4 1 5 3 3 6 4 6 3 4
9 5 1 3 2 5 2 2 2 6 2
10 3 2 5 2 3 4 1 4 4 5
5.1.1 频数、频率分析( 2)
V A R 0 0 0 0 1
6,0 05,0 04,0 03,0 02,0 01,0 0
C
o
u
n
t
22
20
18
16
14
12
5.1.1 频数、频率分析( 3)
V A R 0 0 0 0 1
17 1 7,0 1 7,0 1 7,0
20 2 0,0 2 0,0 3 7,0
21 2 1,0 2 1,0 5 8,0
16 1 6,0 1 6,0 7 4,0
13 1 3,0 1 3,0 8 7,0
13 1 3,0 1 3,0 1 0 0,0
1 0 0 1 0 0,0 1 0 0,0
1,0 0
2,0 0
3,0 0
4,0 0
5,0 0
6,0 0
To t a l
V a l i d
Fr e q u e n c y P e r c e n t
V a l i d
P e r c e n t
C u m u l a t i v
e P e r c e n t
5.1.2 算术平均数未分组数据的平均数计算分组数据的平均数计算上例的计算结果
2 7 0.3
1 0 0
100
1
i
i
x
x
f
f
f
x
f
xf
x
n
x
x
为组频数
5.1.3 中位数的计算( 1)
未分组数据的中位数计算对所有数据进行排序,当数据量为奇数时,取 中间数 为中位数,当数据量为偶数时,取最 中间两位数的平均数为中位数。上例中数据量为 100,是偶数,所以应取排序后第 50位数和第 51位数的平均值作为中位数。第 50位数是 3,第 51位数也是 3,所以中位数为 3。
5.1.3 中位数的计算( 2)
分组数据的中位数计算下式中 L为中位数所在组的下限值,fm为中位数所在组的组频数,Sm-1为至中位数组时累计总频数,h为组距。
h
f
Sf
LM
m
m
e?
121
5.1.3 中位数的计算( 3)
例 2:假设有分组数据如下(销售额单位为万元)
年销售额 组中值 商店数目 累计频数
80-90 85 3 3
90-100 95 7 10
100-110 105 13 23
110-120 115 5 28
120-130 125 2 30
合计 30
5.1.3 中位数的计算( 4)
依据公式例 2的中位数为万元 85.1 0 310
13
10
2
30
1 0 0
2
1
2
1
1
1
h
f
Sf
LM
h
f
Sf
LM
m
m
e
m
m
e
5.1.4 众数的计算未分组数据 的众数为出现次数 最多 的数。
分组数据 的众数依据下式计算获得。
表达式中△ 1表示众数所在组与前一组的频数差,△ 2表示众数所在组与后一组的频数差。依据公式,例 2分组数据的众数为 104.29万元。
hLM o
21
1
5.1.5 全距(极差)的计算全距指的是样本数据中最大值与最小值之间的距离,因而也叫极差 。 例 1中最小值为 1,最大值为 6,因而全距为 6-1=5。
5.1.6 四分位差的计算四分位差是一种按照位置来测定数据离散趋势的计量方法,它只取决于位于样本排序后中间 50%位置内数据的差异程度。即第一个四分位与第三个四分位数据之间的差异。例 2的四分位差计算过程如下万元 四分位差万元万元
606
2
43.9662.1 0 9
2
62.1 0 910
13
103
4
30
1 0 0
43.9610
7
3
4
30
90
13
3
1
.
QQ
Q
Q
5.1.7 标准差的计算( 1)
未分组数据的标准差计算
n
x
x
n
xx
s
2)(
5.1.7 标准差的计算( 2)
分组数据的标准差的计算
f
xf
x
f
fxx
s
2)(
5.2 市场调查数据的假设检验参数假设检验
U检验
t检验非参数检验
5.2.1 U检验当样本容量大于 30时,可以采用 U检验。
均值检验百分比检验双样本平均数差异的检验双样本百分比差异的检验均 值 检 验( U)
假设有选取统计量设定显著性水平 查表得到根据 U的计算结果,比较 U的绝对值与 的大小 。 若有 则接受 H0,否则拒绝 H0 。
01
00,,HH
ns
xU
05.0 96.1
2
U
2?
U
2?
UU?
百 分 比 检 验( U)
假设有选取统计量设定显著性水平 查表得到根据 U的计算结果,比较 U的绝对值与 的大小 。 若有 则接受 H0,否则拒绝 H0 。
01
00,,PPH PPH
n
PP
PpU
)1(?
05.0 96.1
2
U
2?
U
2?
UU?
双样本平均数差异的检验( U)
假设有选取统计量设定显著性水平 查表得到根据 U的计算结果,比较 U的绝对值与 的大小 。 若有 则接受 H0,否则拒绝 H0 。
211
210,,HH
2
2
2
1
2
1
21
n
s
n
s
xxU
05.0
96.1
2
U
2?
U 2?UU?
双样本百分比差异的检验( U)
假设有选取统计量设定显著性水平 查表得到根据 U的计算结果,比较 U的绝对值与 的大小 。 若有 则接受 H0,否则拒绝 H0 。
211
210,,PPH PPH
2
22
1
11
21
)1()1(
n
pp
n
pp
ppU
05.0
96.1
2
U
2?
U 2?UU?
5.2.2 t检验当样本容量小于 30时,不可以使用 U检验,而需要使用 t检验。
均值检验均值差异的检验百分比差异的检验均 值 检 验( t)
假设有选取统计量设定显著性水平 查表得到根据 t的计算结果,比较 t的绝对值与 的大小 。 若有则接受 H0,否则拒绝 H0 。
01
00,,HH
1?
ns
xt?
01.0 )1(?nt?
)1(?nt? )1(?ntt
均值差异的检验( t)
假设有选取统计量设定显著性水平 查表得到根据 t的计算结果,比较 t的绝对值与 的大小 。 若有则接受 H0,否则拒绝 H0 。
211
210,,HH
)11(2
2121
2
22
2
11
21
nnnn
snsn
xxt
01.0 )2( 21 nnt?
)2( 21 nnt?
)2( 21 nntt
百分比差异的检验( t)
假设有选取统计量设定显著性水平 查表得到根据 t的计算结果,比较 t的绝对值与 的大小 。 若有则接受 H0,否则拒绝 H0 。
211
210,,ppH ppH
21
2211
21
21
)11)(1( nn
pnpnp
nnpp
ppt
其中
01.0 )2( 21 nnt?
)2( 21 nnt?
)2( 21 nntt
5.2.3 非参数检验( X2)
在市场调查中常获得一些量表数据,对量表数据求取平均数与方差都是毫无意义的。对量表数据的处理更适宜于采用非参数检验方法。非参数检验中常用的方法是 X2检验。 X2检验的统计量是上述统计量中,表示第 类别在样本中实际出现的次数,表示期望出现的次数,为类别数。
k
i i
ii
E
EQX
1
2
2 )(
iQ i
iE k
5.3 市场调查的方差分析单因素方差分析双因素方差分析
5.3.1 单因素方差分析( 1)
单因素方差分析研究一个因素在不同水平下对研究对象影响的显著性。单因素方差分析的数据表如下:
试验数 试验水平A
1 A2 … An
1 …
2 …
… … … …
M …
平均值 …
11x 12x nx1
21x 22x nx2
1mx 2mx mnx
1x 2x nx
5.3.1 单因素方差分析( 2)
单因素方差分析的一般形式方差来源 平方和 自由度 方差 F
组间方差组内方差方差总和
AS
ES
EAT SSS
1?n
nmn?
1?mn
1?n
SA
nmn
SE
)(
)1(
nmnS
nS
E
A
5.3.1 单因素方差分析( 3)
单因素方差分析的数学计算表达式
n
j
j
i j
ij
j j
j
A
m
x
m
TS
1
2
2 )(
j
j
j
i j ijE m
TxS 22
n
j
j
i j
ij
i j
ijEAT
m
x
xSSS
1
2
2
)(
jm
i
ijj xT
1
5.3.1 单因素方差分析( 4)
例试验点 月销售量(吨)包装 1 包装 2 包装 3
1 15 15 19
2 10 10 12
3 9 12 16
4 5 11 16
5 16 12 17
合计 55 60 80
5.3.1 单因素方差分析( 5)
7015195580560555
)( 2222
1
2
2
n
j
j
i j
ij
j j
j
A
m
x
m
TS
122)580560555(1716...1015 22222222
j j
j
i j ijE m
TxS
19212270 EAT SSS
44.312122 270)( )1( nmnS nSF
E
A
5.3.1 单因素方差分析( 6)
查表求得 的值。比较 与 的大小。若有,则认为因素无显著性影响。
反之则认为影响较显著。本例中 n=3,m=5。
),1( nmnnF ),1( nmnnF F
),1( nmnnFF
5.3.2 双因素方差分析( 1)
双因素方差分析分析两个同时存在的因素在不同水平状态下独立作用对分析对象的影响的显著性。双因素分析的常用数据表因 素 A 行总计观察值 A1 A2 … As
因素
B
B1 …
B2 …
… … … … … …
Br …
列总计 …
11x 12x sx1
21x 22x sx2
1rx 2rx rsx
sj jx1 1
sj jx1 2
sj rjx1
ri ix1 1ri ix1 2ri isx1ri sj ijx1 1
5.3.2 双因素方差分析( 2)
双因素方差分析表方差来源 平方和 自由度 方差 F
因素 A
因素 B
误差总计
AS
BS
ES
TS
1?s
1?r
)1)(1( sr
1?rs
)1(?sS A
)1(?rSB
)1)(1( sr S E
)1)(1( )1( srS sSF E AA
)1)(1( )1( srS rSF E BB
5.3.2 双因素方差分析( 3)
n
j
j
i j
ij
i j
ijT
r
x
xS
1
2
2
)(
双因素方差分析的数学表达式
r
j
j
i j
ij
j j
j
A
r
x
r
TS
1
2
2 )(
s
j
ijis
i
i
i j
ij
i i
i
B xK
s
x
s
KS
1
1
2
2 )(
)( BATE SSSS
5.3.2 双因素方差分析( 4)
例销 地 销 量 行总计包装 A
1 包装 A2 包装 A3
B1 20 19 21 60
B2 16 15 14 45
B3 9 10 11 30
B4 8 7 6 21
列总计 53 51 52 156(总)
5.3.2 双因素方差分析( 5)
50.0121 5 6452451453
)( 2222
1
2
2
r
j
j
i j
ij
j j
j
A
r
x
r
TS
2 9 4121 5 6321330345360
)( 22222
1
2
2
s
i
i
i j
ij
i i
i
B
s
x
s
KS
3 0 2121 5 6611.,,1620
)( 2
2222
1
2
2
n
j
j
i j
ij
i j
ijT
r
x
xS
5.7)( BATE SSSS
5.3.2 双因素方差分析( 6)
20.0)13)(14(5.7 )13(5.0)1)(1( )1( srS sSF
E
A
A
4.78)13)(14(5.7 )14(294)1)(1( )1( srS rSF
E
BB
5.3.2 双因素方差分析( 7)
查表求得 的值。比较 与,的大小。若有,则认为因素 A无显著性影响;反之则认为影响较显著。若有,
则认为因素 B无显著性影响;反之则认为影响较显著。
与 ))1)(1(,1())1)(1(,1( rsrFrssF
与 ))1)(1(,1())1)(1(,1( rsrFrssF AF BF
))1)(1(,1( rssFF A
))1)(1(,1( rsrFF B
5.4 因子聚类分析距离聚类法最短距离法最长距离法相关系数聚类法
5.4.1 最短距离聚类法( 1)
计算样本间距离,并列出初始距离矩阵。
选取初始距离矩阵中的最小值,并对该值对应的样本进行类合并。
根据最小值原则计算新合并样本与其他样本之间的距离,
列出新的距离矩阵。
重复上述步骤,直至所有样本被全部合并为一类。
5.4.1 最短距离聚类法( 2)
例假设有样本数据如下,请对样本进行分类。
样本序号 样本式样 样本包装 样本性能
1 4 4 4
2 3 6 6
3 6 3 3
4 2 4 5
5 1 2 2
5.4.1 最短距离聚类法( 3)
初始距离矩阵
1433617
142165
3321336
66333
17563
5.4.1 最短距离聚类法( 4)
1466
14336
63333
6633
14
14
5.4.2 最长距离聚类法( 1)
计算样本间距离,并列出初始距离矩阵。
选取初始距离矩阵中的最小值,并对该值对应的样本进行类合并。
根据最大值原则计算新合并样本与其他样本之间的距离,
列出新的距离矩阵。
重复上述步骤,直至所有样本被全部合并为一类。
5.4.2 最长距离聚类法( 2)
同上例初始距离矩阵
1472617
142165
7221336
66333
17563
5.4.2 最长距离聚类法( 3)
17213
17336
213333
3633
633
633
3333
5.4.3 相关系数聚类法( 1)
被聚类的对象,的相关系数可以由下式计算获得
iX jX
n
k
jjk
n
k
iik
n
k
jjkiik
ij
XXXX
XXXX
r
1
2
1
2
1
)()(
))((
5.4.3 相关系数聚类法( 2)
样本相关系数表
X1 X2 X3 X4 X5 X6 X7
X1 -- 0.53 0.47 0.38 0.68 0.53 0.64
X2 0.53 -- 0.60 0.48 0.65 0.70 0.42
X3 0.47 0.60 -- 0.67 0.57 0.44 0.52
X4 0.38 0.48 0.67 -- 0.36 0.78 0.50
X5 0.68 0.65 0.57 0.36 -- 0.59 0.62
X6 0.52 0.70 0.44 0.78 0.59 -- 0.52
X7 0.64 0.42 0.52 0.50 0.62 0.52 --
5.4.3 相关系数聚类法( 3)
找出每列中最大的相关系数
X1 X2 X3 X4 X5 X6 X7
X1 -- 0.53 0.47 0.38 0.68 0.53 0.64
X2 0.53 -- 0.60 0.48 0.65 0.70 0.42
X3 0.47 0.60 -- 0.67 0.57 0.44 0.52
X4 0.38 0.48 0.67 -- 0.36 0.78 0.50
X5 0.68 0.65 0.57 0.36 -- 0.59 0.62
X6 0.52 0.70 0.44 0.78 0.59 -- 0.52
X7 0.64 0.42 0.52 0.50 0.62 0.52 --
5.4.3 相关系数聚类法( 4)
找出各列最大相关系数中的最大值
X1 X2 X3 X4 X5 X6 X7
X1 -- 0.68 0.64
X2 --
X3 --
X4 0.67 -- 0.78
X5 0.68 --
X6 0.70 0.78 --
X7 --
5.4.3 相关系数聚类法( 5)
合并 X2,X3,X4,X6。
重复上述步骤,合并 X1,X5,X7。
X1 X5 X7
X1 -- 0.68 0.64
X5 0.68 -- 0.62
X7 0.64 0.62 --
5.5 因子判别分析判别分析法的目的是判别给定样本是否属于假定的类型。
判别分析法的核心是建立判别函数。常用的判别函数为多元线性判别函数。其形式如下
inniiii XbXbXbXbY,..332211
5.5.1 判别函数的建立( 1)
例假设有下列原始数据,请建立判别函数,判别假定的分组是否正确。
产品各指标表相应评价值产品款式 X1 产品包装 X2 产品性能 X3
预定销售组 A
1 9 8 7
2 10 7 4
3 7 6 3
4 6 4 5
5 8 6 6
6 8 5 5
预定销售组 B
7 5 3 6
8 2 4 3
9 1 4 5
10 4 5 2
5.5.1 判别函数的建立( 2)
第一步:计算 A,B两组相应指标数据平均值
86 8867109)(1AX
66 564678)(2AX
56 565347)(3AX
34 4125)(1BX
44 5443)(2BX
44 2536)(3BX
5.5.1 判别函数的建立( 3)
第二步:计算组间平均值的差。
即有
538)()()( 111 BXAXXD
246)()()( 222 BXAXXD
145)()()( 333 BXAXXD
1
2
5
D
5.5.1 判别函数的建立( 4)
第三步:计算 A,B两组资料的离差矩阵。
010
100
022
101
212
221
556588
566688
556486
536687
5467810
576889
AC
211
101
102
212
424534
454431
434432
464335
BC
5.5.1 判别函数的建立( 5)
第四步:计算离差矩阵 CA,CB的共变异矩阵。
1032
3108
2810
010
100
022
101
212
221
010212
102012
002121
A
T
AA CCS
1041
421
1110
211
101
102
212
2112
1001
1212
B
T
BB CCS
5.5.1 判别函数的建立( 6)
第五步:计算 A,B两组资料的联合共变异矩阵。
2011
1127
3720
1041
421
1110
1032
3108
2810
BA SSU
5.5.1 判别函数的建立( 7)
第六步:求联合共变异矩阵 U的逆矩阵 U-1。
0 5 2 3.00 1 1 2.00 1 1 8.0
0 1 1 2.01 0 7 1.00 3 9 2.0
0 1 1 8.00 3 9 2.00 6 5 5.0
1 9 14143
413 9 11 4 3
431 4 32 3 9
3 6 5 0
11
332313
322212
312111
1
UUU
UUU
UUU
U
U
5.5.1 判别函数的建立( 8)
第七步:求判别方程的系数 b。
0 1 5 7.0
0 2 9 4.0
2 3 7 3.0
1
2
5
0 5 2 3.00 1 1 2.00 1 1 8.0
0 1 1 2.01 0 7 1.00 3 9 2.0
0 1 1 8.00 3 9 2.00 6 5 5.0
1 DUb
5.5.1 判别函数的建立( 9)
第八步:根据上述系数矩阵建立判别函数。
根据判别表达式可知:
产品款式对分组判别的影响最为显著,产品包装其次,而产品的性能对判别的影响不显著。
321 0 1 5 7.00 2 9 4.02 3 7 3.0 XXXY
5.5.1 判别函数的建立( 10)
第九步:求判别函数 Yc临界值。
5 2 2 8.15.40 1 5 7.050 2 9 4.05.52 3 7 3.0
5.4
2
45
2
)()(
5
2
46
2
)()(
5.5
2
38
2
)()(
33
3
22
2
11
1
Y
BXAX
X
BXAX
X
BXAX
X
5.5.1 判别函数的建立( 11)
第十步:判别分组的正确性。
预分组别 判别值 实际组别 预估准确性
A 2.4800 A 正确
A 2.6416 A 正确
A 1.8846 A 正确
A 1.6199 A 正确
A 2.1690 A 正确
A 2.1239 A 正确
B 1.3687 B 正确
B 0.6393 B 正确
B 0.4334 B 正确
B 1.1276 B 正确
5.5.1 判别函数的建立( 12)
第十一步:判别检验。
故接受原假设。
,由于有查表得到本例中 为
)63(
76.4)1346,3()1,()1,(
0 5 2 8.6)0 1 5 7.010 2 9 4.022 3 7 3.05(
3
46
3
1346
)(
1
050
05.02105.021
121
2121
,FF
FmnnmFmnnmF
F
bXD
nn
nn
m
mnn
F

m
j
jj