线性模型
基础知识
个体遗传评定-- BLUP法
线性!
模型?
线性模型?
,畜禽育种中的线性模型,
张沅、张勤,1993
X
Y Y=a+bX
线性关系:直线关系
例如:育种值与表型
观察值
Y与 X之间
X
Y
Y=aX?
非线性关系:曲线关系
例如:产奶曲线、生长
曲线
线 性
)*(? PPbA AP ??
模型的定义
?模型:数学表达式,科学合理地描述数据
?直接影响数据统计分析的效果
?数据:来自试验结果;来自调查测定结果
?数据统计分析:
一般分析,均数、方差 等 统计分布特征
特殊分析:遗传 参数,个体 育种值
?模型表达了数据的特性;反映了生物
学问题的规律
参 数,总体分布中的未知常数。如:总体均数、
总体标准差、总体方差
统计量,反映样本特征的数值。如:样本均数、
样本标准差、样本方差
均值,反映性状变量 集中性 的数值
方差,反映性状变量 离散性 的数值
群体均值
模型的定义
模型 ( m o d e l ),数学表达式,(随机变量,数
学变量,参数)
例:
2
TS ??
,
TS,
— 数学变量,
?
— 未知参数
eTS ??
2
' ?
,
eS,'
— 随机变量,T — 数学变量,
?
— 未知参数
),0(~
2
?Ne

),(~'
2
??NS
自由落体运动模型,T为时间
S为距离
S’为 S的一个观察值,e为随
机误差
线性模型的概念
观察值(记录),对试验个体直接测量的结果,
包括 客观 和 主观 获得的测量结果 。
?观察值一般都是具有 多元分布 的随机变量
?当观察值分布的形式已知(正态分布、卡方
分布),则需要详尽地了解分布的 参数 (平均
数、方差)
参数是对分布的
数据说明
50 10030 70 120
μ= 50
σ = 20
不同平均数、相同标准差的正态分布 (X~ N (μ,σ 2))
X~ N (50,202)
μ= 100
σ = 20
X~ N (100,202)
随机变量 X符
合正态分布
5030 70
μ= 50
σ = 20
不同标准差、相同平均数的正态分布
μ= 50
σ = 5
线性模型的概念
?建立线性模型的目的:为了分析影响观
察值的各因素(因子)
?建立模型时需考虑所有的影响因素
因子,直接或间接影响观察值的因素
例如,影响母牛产奶的因素有:头胎产犊年龄、
产犊季节、本身的遗传潜力、空怀天数等等
根据因子的变异形式,
?因子可能是不连续变异的,或连续变异的
?建模时也有时将连续变异的因素划分为等
级,例如头胎产犊年龄划为 4级,即 20- 24、
25- 28,29- 32、> 33月龄;
因子的类型
因子的类型
依据因子的性质,
?固定效应,事先知道所有可能出现的等级或
水平,并且可以观察到的,例如:动物个体
的性别、年龄、泌乳胎次、牧场(饲养管理
体系)、畜舍、笼位、品种等等
?随机效应, 随机地从一个无穷大的群体中抽
取的样本时,可能出现的水平 (预先不能判
断效应的大小,只能从抽样中估测)
例子:
?比较北京南郊 6个猪场与上海松江县 6个猪场的差别
-现对 这 12家猪场 进行详细的调查
-得出结论,北京南郊 6个猪场与上海松江县 6个
猪场 在某某方面不同(固定效应)
?比较北京和上海养猪水平的差别
-从两市分别 随机抽取 6个猪场 进行比较
-得出结论,北京与上海养猪 在某某方面不同(随机
效应)
总体
总体
因子的类型
区分因子性质的标准
━ 模型中因子可能的 水平数
━ 在一个大群体中考虑的水平数
━ 在同一试验或调查中,同一水平 重复 出现的可能
━ 能否 预知 或定义出可能出现的效应
━ 通过调查得到的数据的方式
线性模型
方差组分模型
协方差分析模型
方差分析模型
线性回归模型
线性模型 (linear model)的概念
是一类十分重要
的统计模型
线性模型 (linear model)的概念
线性模型, 对于参数和随机变量为线性的模型
exbxbxbby kk ?????? ?22110
其中,kbbb,,,10 ? 为未知参数,
kxxx,,,10 ? 为影响 y 诸因素的观察值
e
为随机残差( random rest error ) 产奶

品种 性别 个体
线性模型的内容,
?数学方程式(数学模型式,equation)
?模型中随机效应和随机变量的 数学期望 和 方差
?建立模型时的所有假设和约束条件
线性模型的概念
理论上
的均值
线性模型式
用矩阵的形式表示该线性模型,令:
).,,,,,1(22110 niexxxy iikkiii ??????? ???? ?
?
?
?
?
?
?
?
?
?
?
?
?
?
n
y
y
y
...
2
1
y
?
?
?
?
?
?
?
?
?
?
?
?
?
n
?
?
?
...
1
0
β
?
?
?
?
?
?
?
?
?
?
?
?
?
nkn
k
k
xx
xx
xx
.,,1
.,,.,,.,,.,,
.,,1
.,,1
1
221
111
X
?
?
?
?
?
?
?
?
?
?
?
?
?
n
e
e
e
...
2
1
e
设 y和 x1……xk之间服从线性关系,对 y及 x1……xk同时
作 n次观察后,得到 n组数据,对于第 i组数据,有:
则有:
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
n
k
nknn
k
k
n
e
e
e
xxx
xxx
xxx
y
y
y
?
?
?
?????
?
?
?
2
1
2
1
0
21
22221
11211
2
1
1
1
1
?
?
?
?
eXy ?? ?
y

n
维;
X

)1( ?? kn
维;
?

)1( ?k

e

n
维;
0)( ?eE;
IReV ar
2
)( ???
线性模型的矩阵表达式
I为单位阵
? ?虚变数, 仅取 0 或 1 值的变量
? ?试验点列, 当 iX 中的元素均为虚变量时
? ?设计矩阵(结构矩阵、关联矩阵), 由试验点列构
成的矩阵
? ?虚变量模型, 包括设计矩阵(或试验点列)以表
示参数的位置的线性模型
虚变量模型
模型举例 1
例,一资料结构如下,
日粮 观察值
1 y 11 y 12 y 13
2 y 21 y 22
3 y 31 y 32
设:
?
= 群体平均数;
?
?
?
?
?
3
2
1
?
?
?
三日粮的增重效应
则,ijiiiij
exxxy ?????
332211
????
各观察值为,
3232132
3132131
2232122
2132121
1332113
1232112
1132111
e100y
e100y
e010y
e010y
e001y
e001y
e001y
?????
?????
?????
?????
?????
?????
?????
)()()(
)()()(
)()()(
)()()(
)()()(
)()()(
)()()(
????
????
????
????
????
????
????
模型举例 1
以上各式可写成:
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
32
31
22
21
13
12
11
3
2
1
32
31
22
21
13
12
11
1001
1001
0101
0101
0011
0011
0011
e
e
e
e
e
e
e
y
y
y
y
y
y
y
?
?
?
?
ebXy ??
模型举例 1 设计矩阵关联矩阵
结构矩阵
设有肉牛 190~ 210日龄的体重资料,将日龄按每 5天
间隔分组,190~ 210日龄就可分为 4组,欲分析不同
日龄组对体重的影响。可建立如下的线性模型,
yij = ? + ai + eij
上式中:
yij:在第 i个日龄组中的第 j头肉牛的体重,为可观
察的随机变量;
?,总平均数,是一常量;
ai,第 i个日龄组的效应,它是固定效应;
eij:剩余效应,也称为随机误差;
模型举例 2
上式中随机变量的期望和方差及协方差为,
E(eij) = 0,E(yij) = ? + ai,
Var(yij) = Var(eij) = σ 2
Cov(eij,eij')= Cov(eij,ei'j)= Cov(eij,ei'j')=0
此模型的假设和约束条件包括:
1) 所有犊牛都来自同一品种,
2) 母亲的年龄对犊牛体重无影响,
3) 犊牛的性别相同或性别对体重无影响,
4) 所有犊牛都在相同的环境下以相同的饲养方式饲养
模型举例 2
现有一数据表
模型举例 2
190~ 194日龄
200~ 204日龄
195~ 199日龄
205~ 210日龄
每一观察值都可根据上面的模型建立一个方程式:
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
42
41
33
32
31
23
22
21
13
12
11
4
3
2
1
42
41
33
32
31
23
22
21
13
12
11
,,
10001
10001
01001
01001
01001
00101
00101
00101
00011
00011
00011
,
e
e
e
e
e
e
e
e
e
e
e
a
a
a
a
y
y
y
y
y
y
y
y
y
y
y
eaXy
?
y = Xa + e
E(e) = 0,E(y) = Xa
Var(y) = Var(e) = Iσ2
矩阵 X称为关联矩阵,
因为其中的元素指示
了 y中的元素与 a中的
元素的 关联情况, I是
单位矩阵。
线性模型分类
按试验因子分类:
a, 单项分类模型:
),,2,1,,2,1( njaiey
ijiij
?? ????? ??
b, 双向分类模型:
),,2,1,,2,1,,2,1( nkbjai
ey
ijkjiijk
??? ???
???? ???
c, 多项分类模型:
kijjikij
ey
??
? ????? ???
日粮
日粮
牧场
线性模型分类 e,系统分组模型
二因子, ijkijiijk
ey ???? ???
三因子, i j k li j kijii j k l
ey ????? ????
交叉与系统混合方程,
i j k ljkjii j k l
ey ????? ????
d,有互作效应的模型,
i j kijjii j k
ey ????? )( ?????
i j k lijkjkikijjii j k l
ey k ????????? )()()()( ? ? ???????????
线性模型分类
效应的性质
固定效应:
可人为控制;不因其他因素的变化而改变
随机效应:
来自一个总体的随机样本,其有可能表现不
同的状态,人为不能控制
线性模型分类
按效应的性质分类:
固定模型,i j kjii j k
ey ???? ???
?
—品种;
?
—日粮;
e
—残差
eXy ?? ?
随机模型,i j kjii j k
edsy ???? ?
s
—公牛;
d
—母牛;
e
—残差
euZy ??? 1?
线性模型分类
按效应的性质分类
混合模型:
i j kjii j k
eshy ???? ?
h
— 品种; s — 公牛; e — 残差
euZXY ??? ?
设有
p
个固定效应(包括
?
),
q
个随机效
应(除
e
以 外),则,
y

n
维;
?

p
维;
u

q
维;
X

pn ?
阶;
Z

qn ?
阶;
e

n

固定模型,除了随机误差( e)外,完全由固
定效应组成的模型称为固定效应模型,或固定
模型( fixed effects model)
随机模型,除了群体均数( μ )外,完全由随
机效应组成的模型称为随机效应模型,或随机
模型( random effects model)
混合模型,除了群体均数( μ )和随机误差
( e)外,一个模型既含有固定效应,又含有
随机效应,则称为混合模型( mixed model)
线性模型分类
BLUP
线性模型分类
环境效应,外界因素对家畜个体作用所产生的效应
?随机环境效应 (对于一个大群体,基本上可以相互抵消)
人为不可控制,作用于 个别个体 的环境效应
永久性随机环境效应;暂时性随机环境效应
?系统环境效应 (必须掌握其影响,并从表型值中剔除)
在一定时间内作用于 所有个体 的环境效应 (牧场、季节)
遗传效应,由基因对个体产生的效应
?随机遗传效应,任何个体均是一个群体的随机抽样
?固定遗传效应,公牛组效应
数据资料的结构
均衡资料 ( balanced data):所有
水平组合中重复数相等的资料称之
不均衡资料 ( unbalanced data):
水平组合中重复数不等的资料称之
(畜牧上大部分数据属于此类)
均衡资料是不均衡资料的特例
数据资料的结构
均衡资料 (balanced data)
头胎产犊年龄
1 2 … p
1 11
y
12
y
… p
y
1 ??1
y
2
21
y
22
y
… p
y
2
??2
y
?
?
?

?
?




q 1q
y
2q
y

qp
y
??q
y
,1.
y
.2.
y

.,p
y
?
y
对于这类资料估计各种效应比较容易
不均衡资料 ( u n b a l a n c e d d a t a )
头胎产犊年龄
1 2 3 … p
1 ? ??? ?? ?
2 ???
???
?
??
?




q ? ???
???
??
数据资料的结构
?对于结构不均衡数据资料的分析需要采用
特殊的统计方法,才能保证获得无偏估值