§ 4.3 马氏链模型随着人类的进化,为了揭示生命的奥秘,人们越来越注重遗传学的研究,特别是遗传特征的逐代传播,已引起人们广泛的注意。无论是人,还是动、植物都会将本身的特征遗传给下一代,这主要是因为后代继承了双亲的基因,形成自己的基因对,由基因又确定了后代所表现的特征。本节将利用数学的 马氏链方法 来建立相应的遗传模型等,并讨论几个简单而又有趣的实例。
马氏链(马尔柯夫链) 研究的是一类重要的随机过程,研究对象的状 态 s(t)是不确定的,它可能 取 K种 状态
si(i=1,…,k)之一,有时甚至可取无穷多种状态。在建模时,
时间变量也被离散化,我们希望通过建立两个相邻时刻研究对象取各种状态的概率之间的联系来研究其变化规律,
故马氏链研究的也是一类状态转移问题。
例 4.6 设某商店经营情况可能有三种状态:
好( S1:利润丰厚)、一般( S2)和不好
( S3:亏损)。根据统计资料,上月状态为
Si,下月状态为 Sj的概率为 pij( i=1,2,3;
j=1,2,3),0≤pij≤1
例 4.6中的关系既可用一转移矩阵表示
333231
232221
131211
ppp
ppp
ppp
A
例 4.7 研究某一草原生态系统中物质磷的循环,考虑土壤中含磷、牧草含磷、牛羊体内含磷和流失于系统之外四种状态,分别 以 S1,S2,S3和 S4表示这四种状态。以年为时间参数,一年内如果土壤中的磷以 0.4的概率被牧草生长吸收,水土流失于系统外的概率为 0.2;牧草中的含磷以 0.6的概率被牛羊吃掉而转换到牛羊体内,0.1的概率随牧草枯死腐败归还土壤;牛羊体中的磷 以 0.7的概率因粪便排泄而还归土壤,又以自 身 0.1的比率因屠宰后投放市场而转移到系统外。我们可以建立一个马尔柯夫链来研究此生态系统问题,其转移概率列表于下:
1000S4流失系统外
0.10.200.7S3羊体含 磷
00.60.30.1S2牧草含 磷
0.200.40.4S1土壤含 磷
i时段状态
S4S3S2S1
i+1时段状态状态转移概率相应的转移矩阵 为:
1000
1.02.007.0
06.03.01.0
2.004.04.0
M
且 Sj+1=SjM
马氏链模型的性质完全由其转移矩阵决定,故研究马氏链的数学工具是线性代数中有关矩阵的理论。
首先,任一转移矩阵的行向量均为概率向量,即有 ( 1)
( I,j=1,…,n)
( 2) ( i=1,…,n)
这样的矩阵被称为 随机矩阵 。
10 igP
1
1

n
j
igP
常染色体遗传模型下面给出双亲体基因型的所有可能的结合,以及其后代形成每种基因型的概率,如 表所示。
在常染色体遗传中,后代从每个亲体的基因对中各继承一个基因,形成自己的基因时,基因对也称为基因型。如果我们所考虑的遗传特征是由两个基 因 A和 a控制的,( A、
a为表示两类基因的符号)那么就有三种基因对,记为 AA,
Aa,aa。
1000aa
010Aa
0001AA后代基因型
aa

aa
Aa

aa
Aa

Aa
AA

aa
AA

Aa
AA

AA
父体 —— 母体的基因型双亲随机结合的较一般模型相对比较复杂,这些我们仅研究一个较简单的特例 。
例 4.8 农场的植物园中某种植物的基因型 为 AA,Aa
和 aa。农场计划采用 AA型的植物与每种基因型植物相结合的方案培育植物后代。那么经过若干年后,这种植物的任一代的三种基因型分布情况如何?
( a) 假设,令 n=0,1,2,… 。
( i) 设 an,bn和 cn分别表示第 n代植物中,基因型 为 AA,Aa和 aa
的植物占植物总数的百分比 。令 x (n)为第 n代植物的基因型分布:
n
n
n
n
c
b
a
x )( 当 n=0时
0
0
0
)0(
c
b
a
x
表示植物基因型的初始分布(即培育开始时的分布)
例 为和 。农场计划采用相结合的方案培育植物后代。那么经过若干年后,
这种植物的任一代的三种基因型分布情况如何?
( b) 建模根据假设 (ii),先考虑第 n代中的 AA型。由于第 n- 1代的 AA
型与 AA型结合。后代全部是 AA型;第 n- 1代的 Aa型与 AA
型结合,后代是 AA型的可能性为 1/2,而 第 n- 1代的 aa型与
AA型结合,后代不可能 是 AA型。因此当 n=1,2… 时
111 02
11
nnnn cbaa
11 2
1
nnn baa即类似可推出
112
1
nnn cbb
cn=0
显然有
( ii) 第 n代的分布与 第 n- 1代的分布之间的关系是通过表
5.2确定的。
1000 cba
(4.2)
(4.3)
(4.4)
将 ( 4.2)、( 4.3)、( 4.4) 式相加,得
111 nnnnnn cbacba
根据 假设 (I),可递推得出:
1000 cbacba nnn
对于 (4.2)式,(4.3)式和 (4.4)式,我们采用矩阵形式简记为
,2,1,)1()( nMxx nn
其中
n
n
n
n
c
b
a
xM
)(
,
000
1
2
1
0
0
2
1
1
( 注:这里 M为转移矩阵的位置)
(4.5)
由 ( 4.5) 式递推,得
)0()2(2)1()( xMxMMxx nnnn(4.6)
( 4.6) 式给出第 n代基因型的分布与初始分布的关系。
为了计算出 Mn,我们将 M对角化,即求出可逆矩 阵 P和对角库 D,使
M=PDP-1
因而有
Mn=PDnP-1,n=1,2,…
其中
n
n
n
nD
3
2
1
3
2
1
00
0
这里,,是矩 阵 M的三个特征值。对于 (4.5)式中的 M,易求得它的特征值和特征向量:
=1,=1/2,=0
1? 2? 3?
1? 2? 3?
因此


1
2
1
0
1
1
0
0
1
,
000
0
2
10
001
321 eeeD
所以


100
210
111
321 eeeP
通过计算,P-1=P,因此有
)0(1)( xPPDx nn


0
0
0
100
210
111
000
0
2
1
0
001
100
210
111
c
b
an



0
0
01
1
)(
000
2
1
2
1
0
2
1
1
2
1
11
c
b
a
c
b
a
x
nn
nn
n
n
n
n



0
2
1
2
1
2
1
2
1
0
1
0
0
1
0000
cb
cbcba
nn
nn

所以有



0
2
1
2
1
2
1
2
1
1
0
1
0
0
1
0
n
nn
n
nn
n
c
cbb
cba
当n 时,0
2
1

n,所以从( 4.7)式得到
0,0,1 nnn cba
即在极限的情况下,培育的植物都 是 AA型。
若在上述问题中,不选用基 因 AA型的植物与每一植物结合,
而是将具有相同基因型植物相结合,那么后代具有三种基因型的概率如 表所示。
412
11/40aa
01/20Aa
01/41AA后代基因型
aa- aaAa- AaAA-AA
父体 —— 母体的基因型并且 )0()( xMx nn?,其中
1
4
1
0
0
2
1
0
0
4
1
1
M
M的特征值为
2
1,1,1
321
通过计算,可以解出与,相对应的两个线性无关的特征向量 e1和 e2,及与相对应的特征内 量 e3:1? 2?

1
2
1
,
1
0
0
,
1
0
1
321 eee
因此

0
2
1
0
111
0
2
1
1
,
111
200
101
1PP
)0(1)( xPPDx nn


0
0
0
0
2
1
0
111
0
2
1
1
2
1
00
010
001
111
200
101
c
b
a
n
解得:


0
1
0
0
0
1
0
2
1
2
1
2
1
2
1
2
1
bcc
bb
baa
n
n
n
n
n
n
当n 时,0
2
1

n,所以
0000 2
1,0,
2
1 bccbbaa
nnn
因此,如果用基因型相同的植物培育后代,在极限情况下,后代仅具有基因 AA和 aa。
例 4.9 常染体隐性疾病模型现在世界上已经发现的遗传病有将 近 4000种。在一般情况下,遗传疾病和特殊的种族、部落及群体有关。例如,遗传病库利氏贫血症的患者以居住在地中海沿岸为多,镰状网性贫血症一般流行在黑人中,
家族黑蒙性白痴症则流行在东欧犹太人中间。 患者经常未到成年就痛苦地死去,而他们的父母则 是疾病的病源。假若我们能识别这些疾病的隐性患 者,
并且规定两个隐性患者不能结合(因为两个隐 性病患者结合,他们的后代就可能成为显性患者),那么未来的儿童,虽然有可能是隐性患者,但绝不 会出现显性特征,不会受到疾病的折磨。
现在,我们考虑在控制结合的情况下,如何确定后代中隐性患者的概率。
( a)假设
( i) 常染色体遗传的正常基因记 为 A,不正常基因记 为 a,并以 AA,Aa,aa
分别表示正常人,隐性患者,显性患者的基因型
( ii) 设 an,bn分别表示第 n代中基因型为
AA,Aa的人占总人数的百分比,
记,n=1,2,… (这里不考 虑 aa型是因为这些人不可能成年并结婚)
( iii) 为使每个儿童至少有一个正常的父亲或母亲,因此隐性患者必须与正常人结合,其后代的基因型概率由 下表给出:



n
nn
b
ax )(
1/20Aa
1/21AA
后代基因型
AA- AaAA- AA
父母的基因型
( b)建模由 假设( iii),从第 n- 1代到第 n代基因型分布的变化取决于方程
11 2
1
nnn baa 11 2
10
nnn bab
所以?,2,1,)1()( nMxx nn,其中
2
1
0
2
1
1
M
如果初始分 布 x(0)已知,那么 第 n代基因型分布为
,2,1,0)( nxMx nn解 将 M对角化,即求出特征值及其所对应的特征向量,得
pPPD
nn

1,
10
11
,
2
10
01
计算?




0
0)0(1)(
10
11
2
10
01
10
11
b
a
xPPDx
nnn
=


0
000
0
0
2
1
2
1
2
1
0
2
1
11
b
bba
b
a
n
n
n
n


,2,1
2
1
2
1
1
0
0
nbb
ba
n
n
n
n
(4.8)
因为 100 ba,所以当n 时,1?na,0?nb
隐性患者逐渐消失。 从 (4.8)式中可知
12
1
nn bb
每代隐性患者的概率是前一代隐性患者概率的 1/2。
(4.9)
( c)模型讨论研究在随机结合的情况下,隐性患者的变化是很有意思的,
但随机结合导致了非线性化问题,超出了本章范围,然而用其它技巧,在随机结合的情况下可以 把 ( 4.9) 式改写为
2,1,
2
11
1
1?
n
b
bb
n
n
n
(4.10)
下面给会出数值例子:
某地区有 10%的黑人是镰状网性盆血症隐性患者,如果控制结合,根据 ( 4.9) 式可知下一代 (大约 27年)的隐性患者将减少到 5%; 如果随机结合,根据 ( 4.10)式,可以预言下一代人中 有 9.5%是隐性患者,并且可计算出大约每出生
400个黑人孩子,其中有一个是显性患者。
(近亲繁殖)
近亲繁殖是指父母双方有一个或两个共同的祖先,一般追踪到四代,即至少有相同的曾祖父(母)或外曾祖父(母)。
为简单起见,我们来考察一对表兄妹(或堂兄妹)结婚的情况,其中 □ 代表男性,○ 代表女性。
设曾祖父有某基因 对 A1A2,曾祖母有某基因 对 A3A4,容易求得:祖父母取 得 A1的概率为 1/2,故祖父母同 有 A1基因的概率为 1/4;父母同有 A1基因的概率为 1/16,而子女从父母那里获得基因对 A1A1的概率为 1/64,而获得相同基因对(称为基因纯合子) A1A1,A2A2,A3A3或 A4A4之一的概率为 1/16,此概率被称为表兄 妹 (或堂兄妹 )结婚 (表亲 )的 近交系数 。
类似可求得半堂亲(只有一个共同祖先)的近交系数 为 1/32,
从表亲(父母为表亲)的近交系数 为 1/64;非近亲结婚不可能发生重复取某祖先的一对基因对中的某一基因作为自己的基因对的情况,故近交系数 为 0。
(群体的近交系数)
设某群体中存在近亲婚配现象,称各种近交系数的数学期望为该群体的近交系数。例如,某村镇共有 2000对婚配关系,
其中有 59对表亲,22对半堂亲 和 28对从表亲,则该村镇的近亲系数为
0024.06412000 283212000 221612000 59F
现在,我们来研究近亲结婚会产生什么结果。
设某基因对由 A,a两种基因组成,出 现 A的概率为 p,出现
a的概率为 q=1-p。在随机交配群体中,其子女 为 AA,Aa及
aa型的概率分别 为 p2,2pq及 q2。
对近交系数 为 F的群体,根据条件概率公式,后代出 现 aa型基因对的概率为
F p qqqFqqFqqF 222 )1()1(
比较存在近亲交配的群体与不允许近亲交配 (F=0)的群体,

F
q
p
q
F p qqR


1
2
2
若 a为某种隐性疾病的基因,易见,在近交群体中,后代产生遗传病( aa型)的概率增大了,且 F越大,后代患遗传病的概率也越大。
同样,后代出现 AA型基因对的概率 为 p2+Fpq。 Aa型不可能是共同祖先同一基因的重复,故其出现的概率为 2pq(1-F)。
例如,苯丙酮尿症 是一种隐性基因纯合子 aa型疾病( a为隐性疾病基因),隐性基因出现的频率,求表兄妹结婚及非近亲结婚的子女中患有苯丙酮尿症的概率。
由前,表兄妹结婚的近交系数为 1/16,故其子女发生该疾病的概率为而对禁止近亲结婚的群体,子女发生该疾病的概率为
q2=10-4。表兄妹(或堂兄妹)结婚使子女发生该疾病的概率增大了大 约 7.19倍,由此可见,为了提高全民族的身体素质,近亲结婚是应当 禁止 的。
100
1?q
4
2
2 1019.7
100
1
100
99
16
1
100
1





F p qq
例 4.10 X— 链遗传模型的一个实例
X— 链遗传 是指另一种遗传方式:雄性具有一个基 因 A或 a,
雌性具有两个基 因 AA,或 Aa,或 aa。其遗传规律是雄性后代以相等概率得到母体两个基因中的一个,雌性后代从父体中得到一个基因,并从母体的两个基因中等可能地得到一个。
下面,研究 与 X— 链遗传有关的近亲繁殖过程。
( a)假设
( i) 从一对雌雄结合开始,在它们的后代 中,任选雌雄各一个成配偶,然后在它们产生的后代中任选两个结成配偶,如此继续下去,(在家畜、家禽饲养中常见这种现 象 )
( ii) 父体与母体的基因型组成同胞对,同胞对的形式有
(A,AA),(A,Aa),(A,aa),(a,AA),(a,Aa),(a,aa) 6种。初始一对雌雄的同胞对,是这六种类型中的任一种,其后代的基因型如下表所示。
( iii) 在每一代中,配偶的同胞对也是六种类型之一,并有确定的概率。为计算这些概率,设 an,bn,cn,dn,en,fn
分别是第 n代中配偶的同胞对 为 (A,AA),(A,Aa),
(A,aa),(a,AA),(a,Aa),(a,aa)型的概率,n=0,1,… 。 令
( iv) 如果第 n- 1代配偶的同胞对是 ( A,Aa)型,那么它们的雄性后代将等可能地得到基 因 A和 a,它们的雌性后代的基因型将等可能地 是 AA或 Aa。又由于 第 n
代雌雄结合是随机的,那么 第 n代配偶的同胞对将等可能地为四种类型 (A,AA),(A,Aa),(a,AA),(a,Aa)之一,
对于其它类型的同胞对,我们可以进行同样分析,
因此有
,1,0,),,,,,()( nfedcbax Tnnnnnnn
,2,1,)1()( nMxx nn
11/20000aa
01/2111/20Aa
00001/21AA
11/2011/20a
01/2101/21AA后代基因型
(a,aa)(a,Aa)(a,AA)(A,aa)(A,Aa)(A,AA)
父体 —— 母体的基因型
(4.11)
其中
1
4
1
0000
0
4
1
01
4
1
0
0000
4
1
0
0
4
1
0000
0
4
1
10
4
1
0
0000
4
1
1
M
从( 4.11)式中易得
,2,1,0)( nxMx nn
经过计算,矩阵 M的特征值和特征向量为
11,12,
2
1
3

2
1
4
,)51(
4
1
5,)51(4
1
6
1
6
3
3
6
1
,
1
2
1
1
2
1
,
1
0
0
0
0
0
,
0
0
0
0
0
1
4321
eeee




)53(
4
1
1
)51(
4
1
)51(
4
1
1
)53(
4
1
5
e
,?




)53(
4
1
1
)51(
4
1
)51(
4
1
1
)53(
4
1
6
e
M对角化,则有
,2,1
,)0(1)(

n
xPPDx nn (4.12)
其中:




)53(
4
1
)53(
4
1
1110
116200
)51(
4
1
)51(
4
1
3100
)51(
4
1
)51(
4
1
3100
116200
)53(
4
1
)53(
4
1
1101
P
n
n
n
n
n
D
)51(
4
1
00000
0)51(
4
1
0000
00
2
1
000
000
2
1
00
000010
000001




0
20
5
20
5
5
5
5
5
20
5
20
5
0
0
20
5
20
5
5
5
5
5
20
5
20
5
0
0
24
1
12
1
12
1
24
1
0
0
8
1
4
1
4
1
8
1
0
1
3
2
3
1
3
2
3
1
0
0
3
1
3
2
3
1
3
2
1
1
P
当n 时
000000
000000
000000
000000
000010
000001
n
D
因此,当n 时,( 4.12)式中
)0(1)(
000000
000000
000000
000000
000010
000001
xPPx
n




00000
00000
)(
3
2
3
1
3
2
3
1
0
0
0
0
3
1
3
2
3
1
3
2
fedcb
edcba
x
n
因此,在极限情况下所有同胞对或者是 ( A,AA)型,或者是
( a,aa)型。如果初始的父母体同胞对 是( A,Aa)型,即
b0=1,而 a0=c0= d0= e0= f0=0,于是,当n 时
T
nx?


3
1,0,0,0,0,
3
2)(
即同胞对是 (A,AA)型的概率是 2/3,是 (a,aa)型的概率为 1/3。
(正则链与吸收链)
根据转移矩阵的不同结构,马氏链可以分为多个不同的类型,
这里,我们只简单介绍其中常见而又较为重要的两类,正则链 与 吸收链 。
定义 2 对于马氏链,若存在一正整 数 K,使其转移矩阵 的 K
次幂 MK>0(每一分量均大 于 0),则称此马尔链为一正则
( regular)链。
定理 2 若 A为正则链的转移矩阵,则必有:
( 1) 当 时,,其中 W为一分量均大于零的随机矩阵。
( 2) W的所有行向量均相同。
t WA t?
定理 3 记 定理 2中的随机矩阵 W的行向量为 V=(v1,…,vn),则:
( 1)对任意随机向 量 x,有
( 2) V是 A的不动点向量,即 VA=V,A的不动点向量是唯一的。
VxA tt
定义 3 状态 Si 称为马氏链的吸收状态,若转移矩阵的 第 i 行满足,Pii=1,Pij=0( j≠i)
定义 4 马氏链被称为 吸收链,若其满足以下两个条件:
( 1)至少存在一个吸收状态 。
( 2)从任一状态出发,经 有限步 转移总可到达某一吸收 状态根据 定义 3,例 4.7中状态 S4即为一吸收链具有 r个吸收状态,n- r个非吸收状态的吸收链,它的 n× n转移矩阵的标准形式为
SR
OI
T
r

(注:非标准形式可经对状态重新编号 )
其中 Ir为 r 阶单位阵,O为 r× s零阵,R为 s× r 矩阵,S为 s× s
矩阵。令
SR
OI
T
r
n

上式中的子阵 Sn表达了以任何非吸收状态作为初始状态,经过 n步转移后,处于 s个非吸收状态的概率。
在吸收链中,令 F=(I- S) -1,称 F为 基矩阵 。
定理 4 吸收链的基矩 阵 F中的每个元素,表示从一个非吸收状态出发,过程到达每个非吸收状态的平均转移次数 。
定理 5 设 N=FC,F为吸收链的基矩阵,C=(1,1,…,1)T,则 N
的每个元素表示从非吸收状态出发,到达某个吸收状态被吸收之前的平均转移次数 。
定理 6 设 B=FR=( bij),其中 F为吸收链的基矩阵,R为 T中的子阵,则 bij表示从非吸收状 态 i出发,被吸收状态 j
吸收的概率 。
例 4.12( 竞赛问题 )
甲乙两队进行一场抢答竞赛,竞赛规则规定:开始时每队各记 2分,抢答题开始后,如甲取胜则甲 加 1分而乙减 1分,反之则乙加 1分甲减 1分,(每题必需决出胜负 )。规则还规定,当其中一方的得分达 到 4分时,竞赛结束。现希望知道,( 1)
甲队获胜的概率有多大?
( 2) 竞赛从开始到结束,平均转移的次数为多少?
( 3) 甲获得 1,2,3分的平均次数是多少?
设甲胜一题的概率 为 p,( 0<p<1),p与两队的实力有关。
甲队得分有 5种可能,即 0,1,2,3,4。我们分别记为状态
S0,S1,S2,S3,S4,其中 S0和 S4是吸收状态,a1,a2和
a3是非吸收状态。过程 以 S2作为初始状态。根据甲队赢 得
1分的概率为 p,建立转移矩阵:
10000
0100
0010
0001
00001
4
3
2
1
0
pp
pp
pp
S
S
S
S
S
A
S 0 S 1 S 2 S 3 S 4
将上式改记为标准形 式 T:
SR
I
T

02
其中


010
01
00
,
0
00
01
p
pp
p
S
p
p
R
计算 F:
11
110
11
01
010
01
00
100
010
001



p
pp
p
p
pp
p
F
令 q=1-p,则
pqqq
pq
pppq
pq
F
1
1
1
21
1
2
2
因为 a2是初始状态,根 据 定理 4,甲队获分为 1,2,3分的平均次数为
)21/( pqq?,)21/(1 pq?,)21/( pqp? 。又

1
1
1
1
1
1
21
1
2
2
pqqq
pq
pppq
pq
CFN
= )1,1,1(
21
1 22 pqqqpqpppq
pq
= )21,2,21(
21
1 22 qp
pq
根据 定理 5,以 a2为初始状态,甲队最终获胜的平均转 移欠数为 )21/(2 pq? 。又因为,


p
p
pqqq
pq
pppq
pq
RFB
0
00
01
1
1
1
21
1
2
2
)1(
)1(
21
1
3
22
3
ppqq
pq
pppq
pq
根据 定理 6,甲队最后获胜的概率 )21/(2
24 pqpb