马尔科夫链模型及其在基因遗传分析中的应用研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
马尔科夫链模型及其在基因遗传分析中的应用研究
内容提要 文中简述了马尔科夫链模型的基本原理,介绍了利用马尔科夫链对农作物基因遗传过程进行的分析研究,从而得出了基因类型的分布情况和农作物种植最适宜的换种代数间隔,使得可以更好的种植农作物。
关键词 马尔可夫链模型 基因遗传 换种间隔
一、引言
对基因遗传的分析一直是人们较为关心的话题。在研究出某物种基因的遗传分布后,对人们今后的对该物种进行的各种改良提供了良好的依据,尤其是对农作物基因类型的研究。在研究出农作物的各代之间基因类型的关系和分布情况之后,我们可以据此改善农作物的种植方法,从而提高产量。本文依据马尔科夫链的两种重要类型对农作物的基因遗传进行了分析研究,同时,分析研究马尔科夫链在一对父母的大量后代中,雌雄随机的配对繁殖,一系列后代的基因类型的演变过程中的应用。
二、马尔科夫链
1.马尔可夫链的基本概念
定义 ①.设{(),0,1,2,}n X X w n ==⋅⋅⋅是定义在概率空间(,,)F P Ω上,取值在非负整数上的随机变量序列,其表示对每个n 系统的状态。当状态1,2,,(1,2,)n X k n =⋅⋅⋅=⋅⋅⋅时表示共有k 个状态;n 时刻由状态n X i =,下一个时刻n+1变到状态1n X j +=的概率记作ij p ,则1(|)ij n n p P X j X i +===表示在事件n X i =出现的条件下,事件1n X j +=出现的条件概率,又称它为系统状态X 的一步转移概率。如果对任意的非负整数121,,,,,n i i i i j -⋅⋅⋅及一切0n ≥有1(|,,1,2,,1)n n k k P X j X i X i k n +====⋅⋅⋅-=1(|)()n n ij ij P X j X i p n p +====,则称X 是马尔科夫链。
②.矩阵(ij p )称为马尔科夫链X 的一步转移概率矩阵。称10()(|)(|)ij n n m m p n P X j X i P X j X i ++======为马尔科夫链X 的n 步转移概率,而(()ij p n )为X 的n 步转移矩阵。
③. 系统状态n X i =的概率记作称()i a n 称为状态概率,1()1k
i i a n ==∑;对状态
概率计算的基本方程为1(1)(),1,2,,k
i i ij i a n a n p i k =+==⋅⋅⋅∑,从而可得状态概率向量
12(){(),(),,()}i k a n a n a n a n =⋅⋅⋅。
2.马尔科夫链的两个重要类型
①.正则链 一个有k 个状态的马尔科夫链,如果存在整数N 从任一状态出发经N 次状态转移能以正概率到达另外任意状态。正则链存在位移的极限状态w ,()()a n w n →→∞,w 称作稳态概率,w 满足wP w =,且11k
i i w ==∑。
②.吸收链 存在吸收态(一旦到达就不会离开的状态i ,1ii p =),且从任一非吸收态出发经有限次转移能以正概率到达吸收状态。有r 个吸收状态的吸收
链的转移概率矩阵标准形式0r r I P R
Q ⨯⎡⎤=⎢⎥⎣⎦
,其中R 有非零元素。 计算10
()s s M I Q Q ∞-==-=∑,12(,,,)k r y y y y Me -=⋅⋅⋅=,其中e 为单位矩阵,1y 表
示从第i 个非吸收态出发,被某个吸收态吸收前的平均转移次数。
三、马尔科夫链的应用
马尔可夫过程的一个最大特点就是其所具有的无后效性, 即系统在将来的状态只和现在有关, 而与以前的状态无关, 其基本的思想就是通过对系统当前数据信息的分析, 得到系统在当前状态的初始分布, 同时通过对系统在下一状态的数据信息的分析得出系统在两个状态之间发生各种转移的概率大小, 并具体求出基于初始状态的转移概率。
在对农作物基因遗传的分析研究中,首先需要明确:生物的外部特征由内部相应的基因决定,基因分为优势基因R 和劣势基因r 两种。每种外部特征由这两个基因决定,每个基因都可以是R 、 r 中的任一个,从而形成了3种基因类型:RR (优种D ),Rr (混种H ),rr (劣种F )。当基因类型为优种和混种时,外部表征呈优势;基因类型为劣种时,外部表征成劣势。同时,生物繁殖时后代随即且等概率的继承父、母的各一个基因,形成它的两个基因。父母的基因类型决定后代基因类型的概率。
1.模型假设:
①设群体中雄性、雌性的比例相等,基因类型的分布相同(记作D:H:F )
②.每个雄性个体以D:R:F 的概率与一雌性个体交配,其后代随机地继承它们的各一个基因。
③.设初始一代基因类型比例D:H:F=a:2b:c(a+2b+c=1),记p=a+b,q=b+c ,则群体中优势基因和劣势基因的比例R:r=p:q(p+q=1)。
2.符号说明
①.状态1,2,3,n X =⋅⋅⋅表示第n 代得一个个体属于D 、H 、F 。
②.状态概率()i a n 表示第n 代得一个个体属于状态i (i=1,2,3)的概率。 ③.ij p 表示在确定雄性个体基因为i 的情况下,让其与所有雌性个体随机交配繁殖,所得后代的基因类型为j 的条件概率,即1((|(ij n n p P X j X i +===后代基因类型)父基因类型))。从而我们可以计算出: 111(1(RR |1(RR =p n n p P X X +===后代为)父基因为))
121(2(Rr |1(RR =q n n p P X X +===后代为)父基因为))
131(3(|1(RR =0n n p P X X +===后代为rr )父基因为))
321(2(|3(r =p n n p P X X +===后代为Rr )父基因为r ))
221(2(|2(Rr =p/2+q/2=1/2n n p P X X +===后代为Rr )父基因为))
311(1(|3(r =0n n p P X X +===后代为RR )父基因为r ))
321(2(|3(r =p n n p P X X +===后代为Rr )父基因为r ))
331(3(|3(r =q n n p P X X +===后代为rr )父基因为r ))
则其状态转移概率矩阵为0/21/2/20p q P p q p q ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦
,因(1)(),0,1,2,a n a n P n +==⋅⋅⋅ 故而可求得(0)(,2,)a a b c =,22(1)(0)(,2,)a a P p pq q ==,22(2)(1)(,2,)a a P p pq q ==,22(3)(2)(,2,)a a P p pq q ==,…
由此可以看出该模型属于正则链,其稳态分布22(,2,)w wP p pq q ==,自然界中优势基因和劣势基因所占的比例通常是相等的,即都为1/2,从而D:H:F=1/4:1/2:1/4,得(D+H ):F=3:1。这很好的验证了孟德尔利用数学统计对