数学建模线性代数方法建模31常染色体基因遗传

合集下载

线性代数在数学建模中的应用举例

线性代数在数学建模中的应用举例

线性代数在数学建模中的应用举例1 基因间“距离”的表示在ABO 血型的人们中,对各种群体的基因的频率进行了研究。

如果我们把四种等位基因A 1,A 2,B ,O 区别开,有人报道了如下的相对频率,见表1.1。

表1.1基因的相对频率问题 一个群体与另一群体的接近程度如何?换句话说,就是要一个表示基因的“距离”的合宜的量度。

解 有人提出一种利用向量代数的方法。

首先,我们用单位向量来表示每一个群体。

为此目的,我们取每一种频率的平方根,记ki ki f x =.由于对这四种群体的每一种有141=∑=i ki f ,所以我们得到∑==4121i kix .这意味着下列四个向量的每个都是单位向量.记.44434241,34333231,24232221,141312114321⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=x x x x a x x x x a x x x x a x x x x a在四维空间中,这些向量的顶端都位于一个半径为1的球面上. 现在用两个向量间的夹角来表示两个对应的群体间的“距离”似乎是合理的.如果我们把a 1和a 2之间的夹角记为θ,则由于| a 1|=| a 2|=1,再由内只公式,得21cos a a ⋅=θ而.8307.03464.02943.03216.0,8228.01778.00000.05398.021⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=a a 故 9187.0cos 21=⋅=a a θ 得 2.23=θ°. 按同样的方式,我们可以得到表1.2.表1.2基因间的“距离”爱斯基摩人班图人 英国人 朝鲜人 爱斯基摩人 0° 23.2° 16.4° 16.8° 班图人 23.2° 0° 9.8° 20.4° 英国人 16.4° 9.8° 0° 19.6° 朝鲜人16.8°20.4°19.6°0°由表1.2可见,最小的基因“距离”是班图人和英国人之间的“距离”,而爱斯基摩人和班图人之间的基因“距离”最大.2 Euler 的四面体问题问题 如何用四面体的六条棱长去表示它的体积?这个问题是由Euler (欧拉)提出的.解 建立如图2.1所示坐标系,设A ,B ,C 三点的坐标分别为(a 1,b 1,c 1),( a 2,b 2,c 2)和(a 3,b 3,c 3),并设四面体O-ABC 的六条棱长分别为.,,,,,r q p n m l 由立体几何知道,该四面体的体积V 等于以向量→→→OC OB OA ,,组成右手系时,以它们为棱的平行六面体的体积V 6的16.而)(.3332221116c b a c b a c b a OC OB OA V =⋅⨯= 于是得 .6333222111c b a c b a c b a V = 将上式平方,得.362323233232323231313232322222221212131313121212121212133322211133322211122c b a c c b b a a c c b b a a c c b b a a c b a c c b b a a c c b b a a c c b b a a cb ac b a c b a c b a c b a c b a c b a V ++++++++++++++++++=⋅=根据向量的数量积的坐标表示,有.,,,,232323323232222222313131212121212121c b a OC OC c c b b a a OC OB c b a OB OB c c b b a a OC OA c c b b a a OB OA c b a OA OA ++=⋅++=⋅++=⋅++=⋅++=⋅++=⋅ 于是362OC OC OB OC OB OBOB OBOA OB OA OAV ⋅⋅⋅= (2.1)由余弦定理,可行.2cos 222n q p q p OB OA -+=⋅⋅=⋅θ同理.2,2222222l r q OC OB m r p OC OA -+=⋅-+=⋅将以上各式代入(2.1)式,得.222222362222222222222222222222r l r p m r p l r p p n q p m r p n q p pV -+-+-+-+-+-+=(2.2)这就是Euler 的四面体体积公式.例 一块形状为四面体的花岗岩巨石,量得六条棱长分别为l =10m, m =15m, n =12m, p =14m, q =13m, r =11m.则.952222,462222,5.1102222=-+=-+=-+l r p m r p n q p代入(2.1)式,得.75.13698291219546951695.110465.110196236==V 于是.)195(82639.38050223m V ≈≈即花岗岩巨石的体积约为195m 3.古埃及的金字塔形状为四面体,因而可通过测量其六条棱长去计算金字塔的体积.3 动物数量的按年龄段预测问题问题 某农场饲养的某种动物所能达到的最大年龄为15岁,将其分成三个年龄组:第一组,0~5岁;第二组,6~10岁;第三组,11~15岁.动物从第二年龄组起开始繁殖后代,经过长期统计,第二组和第三组的繁殖率分别为4和3.第一年龄和第二年龄组的动物能顺利进入下一个年龄组的存活率分别为12 和14 .假设农场现有三个年龄段的动物各100头,问15年后农场三个年龄段的动物各有多少头?问题分析与建模 因年龄分组为5岁一段,故将时间周期也取为5年.15年后就经过了3个时间周期.设)(k i x 表示第k 个时间周期的第i 组年龄阶段动物的数量(k =1,2,3;i =1,2,3).因为某一时间周期第二年龄组和第三年龄组动物的数量是由上一时间周期上一年龄组存活下来动物的数量,所以有).3,2,1(41,21)1(2)(3)1(1)(2===--k x x x x k k k k又因为某一时间周期,第一年龄组动物的数量是由于一时间周期各年龄组出生的动物的数量,所以有).3,2,1(34)1(3)1(2)(1=+=--k x x x k k k于是我们得到递推关系式:⎪⎪⎪⎩⎪⎪⎪⎨⎧==+=----.41,21,34)1(2)(3)1(1213)1(2)(1k k k k k k k x x x x x x x 用矩阵表示).3,2,1(0410021340)1(3)1(2)1(1)(3)(2)(1=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡---k x x x x x x k k k k k k则).3,2,1()1()(==-k Lx x k k其中.100010001000,04100021340)0(⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=x L 则有),3,2,1()(3)(2)(1)(=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=k x x x x k k k k,250500700010001000100004100021340)0()1(⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡==Lx x,12535002750250500700004100021340)1()2(⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡==Lx x .8751375143751253500275004100021340)2()3(⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡==Lx x 结果分析 15年后,农场饲养的动物总数将达到16625头,其中0~5岁的有14375头,占86.47%,6~10岁的有1375头,占8.27%,11~15岁的有875头,占 5.226%.15年间,动物总增长16625-3000=13625头,总增长率为13625/3000=454.16%.注 要知道很多年以后的情况,可通过研究式)0()1()(x L Lx x k k k ==-中当趋于无穷大时的极限状况得到.关于年龄分布的人口预测模型 我们将人口按相同的年限(比如5年)分成若干年龄组,同时假设各年龄段的田、女人口分布相同,这样就可以通过只考虑女性人口来简化模型.人口发展随时间变化,一个时间周期的幅度使之对应于基本年龄组间距(如先例的5年),令)(k i x 是在时间周期k 时第i 个年龄组的(女性)人口,i =1,2,…,n .用1表示最低年龄组,用n 表示最高年龄组,这意味着不考虑更大年龄组人口的变化.假如排除死亡的情形,则在一个周期内第i 个年龄组的成员将全部转移到i +1个年龄组.但是,实际上必须考虑到死亡率,因此这一转移过程可由一存活系数所衰减. 于是,这一转移过程可由下述议程简单地描述:),1,,2,1()1()(1-==-+n i x b x k ii k i其中i b 是在第i 个年龄组在一个周期的存活率,因子i b 可由统计资料确定.惟一不能由上述议程确定的年龄组是,)(1k x 其中的成员是在后面的周期内出生的,他们是后面的周期内成员的后代,因此这个年龄组的成员取决于后面的周期内各组的出生率及其人数.于是有方程,)1(122)1(11)(1---+++=k n n k k k x a x a x a x (3.1)这里),,2,1(n i a i =是第i 个年龄组的出生率,它是由每时间周期内,第i 个年龄组的每一个成员的女性后代的人数来表示的,通常可由统计资料来确定.于是我们得到了单性别分组的人口模型,用矩阵表示便是,00000000000)1()1(3)1(2)1(11211321)()(3)(2)(1⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡------k n k k k n n n k n k k k x x x x b b b a a a a a x x x x 或者简写成.)1()(-=k k Lx x (3.2)矩阵⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡--000000000001211321n n n b b b a a a a a L称为Leslie 矩阵.由(3.2)式递推可得)0()1()(x L Lx x k k k ==-这就是Leslie 模型.4 企业投入产生分析模型问题 某地区有三个重要产业,一个煤矿、一个发电厂和一条地方铁路.开采一元钱的煤,煤矿要支付0.25元的电费及0.25元的运输费.生产一元钱的电力,发电厂要支付0.65元的煤费,0.05元的电费及0.05元的运输费.创收一元钱的运输费,铁路要支付0.55元的煤费及0.10元的电费.在某一周内,煤矿接到外地金额为50000元的定货,发电厂接到外地金额为25000元的定货,外界对地方铁路没有需求.问三个企业在这一周内总产值多少才能满足自身及外界的需求?数学模型 设x 1为煤矿本周内的总产值,x 2为电厂本周的总产值,x 3为铁路本周内的总产值,则⎪⎩⎪⎨⎧=⨯++-=++-=++⨯-,0)005.025.0(,25000)10.005.025.0(,50000)55.065.00(321332123211x x x x x x x x x x x x (4.1) 即.02500050000005.025.010.005.025.055.065.00321321⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡x x x x x x 即.025********,005.025.010.005.025.055.065.00,321⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=Y A x x x X 矩阵A 称为直接消耗矩阵,X 称为产出向量,Y 称为需求向量,则方程组(4.1)为,Y AX X =-即Y X A E =-)(, (4.2)其中矩阵E 为单位矩阵,(E-A )称为列昂杰夫矩阵,列昂杰夫矩阵为非奇异矩阵.投入产出分析表 设,00000,)(3211⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=--=-x x x A C E A E B D=(1,1,1)C.矩阵B 称为完全消耗矩阵,它与矩阵A 一起在各个部门之间的投入产生中起平衡作用.矩阵C 可以称为投入产出矩阵,它的元素表示煤矿、电厂、铁路之间的投入产出关系.向量D 称为总投入向量,它的元素是矩阵C 的对应列元素之和,分别表示煤矿、电厂、铁路得到的总投入.由矩阵C ,向量Y ,X 和D ,可得投入产出分析表4.1.表4.1 投入产出分析表 单位:元 煤矿电厂铁路外界需求总产出煤矿 11c 12c 13c 1y 1x电厂 21c 22c 23c 2y 2x 铁路 31c32c33c 3y3x总投入1d 2d 3d计算求解 按(4.2)式解方程组可得产出向量X ,于是可计算矩阵C 和向量D ,计算结果如表4.2.表4.2 投入产出计算结果 单位:元 煤矿 电厂 铁路 外界需求 总产出 煤矿 0 36505.96 15581.51 50000 102087.48 电厂 25521.87 2808.15 2833.00 25000 56163.02 铁路 25521.87 2808.15 0 0 28330.02总投入51043.7442122.2718414.525 交通流量的计算模型问题 图5.1给出了某城市部分单行街道的交通流量(每小时过车数).假设:(1)全部流入网络的流量等于全部流出网络的流量;(2)全部流入一个节点的流量等于全部流出此节点的流量.试建立数学模型确定该交通网络未知部分的具体流量.建模与计算 由网络流量假设,所给问题满足如下线方程组:234457612157891091083630050020080080010004002006001000x x x x x x x x x x x x x x x x x x x x -+=⎧⎪+=⎪⎪-=⎪+=⎪⎪+=⎪⎨+=⎪⎪=⎪-=⎪⎪=⎪++=⎪⎩ 系数矩阵为11100000000011000000000011000110000000010001000000000001100000000001000000000110000000001010010100A -⎡⎤⎢⎥⎢⎥⎢⎥-⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥-⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦ 增广矩阵阶梯形最简形式为1000100000800010010000000010000000200000110000050000000101008000000001100100000000000104000000000001600000000000000000000000B ⎡⎤⎢⎥-⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦其对应的齐次方程组为1525345687891000000000x x x x x x x x x x x x x +=⎧⎪-=⎪⎪=⎪+=⎪⎨+=⎪⎪+=⎪=⎪⎪=⎩取(x 5,x 8)为自由取值未知量,分别赋两组值为(1,0),(0,1),得齐次方程组基础解系中两个解向量()11,1,0,1,1,0,0,0,0,0,'η=--()20,0,0,0,0,1,1,1,0,0'η=--其对应的非齐次方程组为1525345687891080002005008001000400600x x x x x x x x x x x x x +=⎧⎪-=⎪⎪=⎪+=⎪⎨+=⎪⎪+=⎪=⎪⎪=⎩赋值给自由未知量(x 5,x 8)为(0,0)得非齐次方程组的特解()800,0,200,500,0,800,1000,0,400,600'x *=于是方程组的通解,*2211x k k x ++=ηη其中k 1,k 2为任意常数,x 的每一个分量即为交通网络未知部分的具体流量,它有无穷多解.6 小行星的轨道模型问题 一天文学家要确定一颗小行星绕太阳运行的轨道,他在轨道平面内建立以太阳为原点的直角坐标系,在两坐标轴上取天文测量单位(一天文单位为地球到太阳的平均距离:1.4959787×1011m ).在5个不同的时间对小行星作了5次观察,测得轨道上5个点的坐标数据如表6.1.表6.1 坐标数据由Kepler (开普勒)第一定律知,小行星轨道为一椭圆.现需要建立椭圆的方程以供研究(注:椭圆的一般方程可表示为012225423221=+++++y a x a y a xy a x a .问题分析与建立模型 天文学家确定小行星运动的轨道时,他的依据是轨道上五个点的坐标数据:(x 1, y 1), (x 2, y 2), (x 3, y 3), (x 4, y 4), (x 5, y 5).由Kepler 第一定律知,小行星轨道为一椭圆.而椭圆属于二次曲线,二次曲线的一般方程为012225423221=+++++y a x a y a xy a x a .为了确定方程中的五个待定系数,将五个点的坐标分别代入上面的方程,得2211211314151221222232425222132333343532214244344454221525535455522212221222122212221a x a x y a y a x a y a x a x y a y a x a y a x a x y a y a x a y a x a x y a y a x a y a x a x y a y a x a y ⎧++++=-⎪++++=-⎪⎪++++=-⎨⎪++++=-⎪⎪++++=-⎩这是一个包含五个未知数的线性方程组,写成矩阵⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡-----=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡11111222222222222222543215525552544244424332333232222222211211121a a a a a y x y y x x y x y y x x y x y y x x y x y y x x y x y y x x 求解这一线性方程组,所得的是一个二次曲线方程.为了知道小行星轨道的一些参数,还必须将二次曲线方程化为椭圆的标准方程形式:12222=+bY a X 由于太阳的位置是小行星轨道的一个焦点,这时可以根据椭圆的长半轴a 和短半轴b 计算出小行星的近日点和远日点距离,以及椭圆周长L .根据二次曲线理论,可得椭圆经过旋转和平移两种变换后的方程如下:[]22120D X Y C λλ++=所以,椭圆长半轴:C D a 1λ=;椭圆短半轴: CDb 2λ=;椭圆半焦矩:22b ac -=.计算求解 首先由五个点的坐标数据形成线性方程组的系数矩阵⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=7200.69600.142896.112656.509504.550520.53360.143807.62127.363802.516460.35180.133233.36433.246841.454040.25720.124448.11115.155138.39292.1528.114199.04701.72237.33A使用计算机可求得12345(,,,,)(0.6143,0.3440,0.6942, 1.6351,0.2165)a a a a a =---从而⎪⎪⎭⎫⎝⎛--=⎥⎦⎤⎢⎣⎡=6942.03440.03440.06143.03221a a a a C C C ,3081.0=的特征值120.3080, 1.0005λλ==123235450.61430.3440 1.63510.34400.69420.21651 1.63510.21651a a a D a a a a a ---⎡⎤⎡⎤⎢⎥⎢⎥==--⎢⎥⎢⎥⎢⎥⎢⎥--⎣⎦⎣⎦.8203.1-=D于是,椭圆长半轴a=19.1834,短半轴b=5.9045,半焦距c=18.2521.小行星近日点距和远日点距为039313,37.4355h a c H a c =-==+=最后,椭圆的周长的准确计算要用到椭圆积分,可以考虑用数值积分解决问题,其近似值为84.7887.7 人口迁移的动态分析问题 对城乡人口流动作年度调查,发现有一个稳定的朝向城镇流动的趋势:每年农村居民的2.5%移居城镇,而城镇居民的1%迁出.现在总人口的60%位于城镇.假如城乡总人口保持不变,并且人口流动的这种趋势继续下去,则一年以后住在城镇人口所占比例是多少两年以后呢十年以后呢最终呢解 设开始时,令乡村人口为,0y 城镇人口为,0z 一年以后有乡村人口,10011000975100y z y =+ 城镇人口 ,10099100025100z z y =+或写成矩阵形式⎥⎦⎤⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎦⎤⎢⎣⎡00111009910002510011000975z y z y . 两年以后,有.100991000251001100097510099100025100110009750021122⎥⎦⎤⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎦⎤⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎦⎤⎢⎣⎡z y z y z y . 十年以后,有.100991000251001100097500101010⎥⎦⎤⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎦⎤⎢⎣⎡z y z y 事实上,它给出了一个差分方程:k k Au u =+1.我们现在来解这个差分方程.首先,1009910002510011000975⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=Ak 年之后的分布(将A 对角化):.75757275100200193115210000⎥⎦⎤⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎪⎭⎫ ⎝⎛⎥⎥⎦⎤⎢⎢⎣⎡-=⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡z y z y A z y k k k k 这就是我们所要的解,而且容易看出经过很长一个时期以后这个解会达到一个极限状态.7572)(00⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡+=⎥⎦⎤⎢⎣⎡∞∞z y z y 总人口仍是00z y +,与开始时一样,但在此极限中人口的75在城镇,而72在乡村.无论初始分布是什么样,这总是成立的.值得注意这个稳定状态正是A 的属于特征值1的特征向量.上述例子有一些很好的性质:人口总数保持不变,而且乡村和城镇的人口数决不能为负.前一性质反映在下面事实中:矩阵每一列加起来为1;每个人都被计算在内,而没有人被重复或丢失.后一性质则反映在下面事实中:矩阵没有负元素;同样地0y 和0z 也是非负的,从而1y 和21,y z 和2z 等等也是这样.8 常染色体遗传模型为了揭示生命的奥秘,遗传学的研究已引起了人们的广泛兴趣.动植物在产生下一代的过程中,总是将自己的特征遗传给下一代,从而完成一种“生命的延续”.在常染色体遗传中,后代从每个亲体的基因对中各继承一个基因,形成自己的基因对.人类眼睛颜色即是通过常染色体控制的,其特征遗传由两个基因A 和a 控制.基因对是AA 和Aa 的人,眼睛是棕色,基因对是aa 的人,眼睛为蓝色.由于AA 和Aa 都表示了同一外部特征,或认为基因A 支配a ,也可认为基因a 对于基因A 来说是隐性的(或称A 为显性基因,a 为隐性基因).下面我们选取一个常染色体遗传——植物后代问题进行讨论.某植物园中植物的基因型为AA ,Aa ,aa .人们计划用AA 型植物与每种基因型植物相结合的方案培育植物后代.经过若干年后,这种植物后代的三种基因型分布将出现什么情形我们假设),2,2,0(,, =n c b a n n n 分别代表第n 代植物中,基因型为AA ,Aa 和aa 的植物占植物总数的百分率,令),,()('=n n n n c b a x为第n 代植物的基因分布, ),,(000)0('=c b a x 表示植物基因型的初始分布,显然,我们有.1000=++c b a (8.1)先考虑第n 代中的AA 型,第1-n 代AA 型与AA 型相结合,后代全部是AA 型;第1-n 代的Aa 型与和与AA 相结合,后代是AA 型的可能性为21;1-n 代的aa 型与AA 型相结合,后代不可能是AA 型。

4遗传模型

4遗传模型

遗传模型随着人类的进化,人们为了揭示生命的奥妙,越来越注重遗传学的研究,特别是遗传特征的逐代传播,引起人们更多的注意。

无论是人,还是动、植物都会将本身的特征遗传给下一代,这主要是因为后代继承了双亲的基因,形成自己的基因对,基因对确定了后代所表现的特征。

下面,我们将研究两种类型的遗传:常染色体遗传和x一链遗传。

根据亲体基因遗传给后代的方式,建立矩阵模型,利用这些模型可以逐代研究一个总体的基因型的分布。

1.常染色体遗传模型在常染色体遗传中,后代是从每个亲体的基因对中各继承一个基因,形成自己的基因对,基因对也称为基因型。

如果我们所考虑的遗传特征是由两个基因A和a控制的,那么就有三种基因对,记为AA,Aa,aa。

例如,金鱼草是由两个遗传基因决定它的花的颜色,基因型是AA的金鱼草开红花,Aa型的开粉红色花,而aa型的开白花。

又如人类眼睛的颜色也是通过常染色体遗传控制的。

基因型是AA 或Aa的人,眼睛为棕色,基因型是aa的人,眼睛为蓝色。

这里因为Aa和AA都表示了同一外部特征,我们认为基因A支配基因a,也可认为基因a对于A来说是隐性的。

当一个亲体的基因型为Aa,而另一个亲体的基因型是aa,那么后代可以从aa型中得到基因a,从Aa型中得到基因A,或得到基因a。

这样,后代基因型为Aa或aa的可能性相等,下面给出双亲体基因型的所有可能的结合,使其后代形成每种基因型的概率:例农场的植物园中某种植物的基因型为AA,Aa和aa。

农场计划采用AA型的植物与每种基因型植物相结合的方案培育植物后代。

那么经过若干年后,这种植物的任一代的三种基因型分布如何?假设:(1)设a n,b n和c n。

分别表示第n代植物中,基因型为AA,Aa和aa的植物占植物总数的百分率。

令x(n)为第n代植物的基因型分布:()n n n n a x b c ⎛⎫ ⎪= ⎪ ⎪⎝⎭x (0)表示植物基因型的初始分布(即培育开始时的分布),显然有 a n +b n +c n =1(ii)第n-1代的分布与第n 代的分布关系是通过表3一l 确定的: 建模: 根据假设(ii),先考虑第n 代中的AA 型。

第五讲 线性代数模型魔方 植物基因分布

第五讲 线性代数模型魔方 植物基因分布

B=
b21 b22 b23 b24 b31 b32 b33 b34 b41 b42 b43 b44
类似于矩阵的加法和数乘,定义魔方的加法和数乘。
易验证,D 对加法和数乘封闭,且构成一线性空间。 记 M ={所有的4×4数字方} ,则其维数为16。 而D是M的子集,则D是有限维的线性空间。 根据线性空间的性质,如果能得到D的一组基, 则任一个Durer方均可由这组基线性表示。
《易经》是一本几乎影响国内外各种哲学思想的经典书
籍,易经来源于河图洛书,而洛书就是三阶幻方。幻方
的布局规律、构造原理蕴含着一种概括天地万物的生存 结构,是一种宇宙产生和发展的数学模型。 《四阶完美幻方的易理思想》 《五阶幻方的易数系统》
2)用于美术设计
西方建筑学家勃拉东利用幻方的对称原理设计了许多丰富多彩
AA-AA AA-Aa AA-aa 后 AA 代 基 Aa 因 对 aa
1 an an1 bn1 2 1 bn bn1 cn1 2
cn 0
1
1/2
0
0 0
1/2 0
1 0
an bn cn 1
1 an an1 bn1 2 1 bn bn1 cn1 2
的,那末就有三种基因对,记为AA、Aa 和 aa 。
金鱼草花的颜色是由两 个遗传因 子决定的,基 因型为AA的金鱼草开 红花,Aa 型的开粉红花, 而 aa型的开白花。
金鱼草花
人类眼睛的颜色也是通过常 染色体来控制的。基因型为 AA ,或Aa 型的人眼睛颜色 为棕色,而 aa型的人眼睛颜 色为蓝色。 这里AA ,Aa表示同一外部 特征,我们认为基因A支配 基因a,即基因a对A来说是 隐性的。
求D的维数 第一步: 行和、列和及两条对角线数字和相等的 数字方,记为Q,它构成八维的线性空间。 R=C=D

常染色体遗传规律

常染色体遗传规律

常染色体遗传规律
常染色体遗传规律是遗传学中的一个重要概念,它描述了基因在常染色体上的遗传方式。

常染色体是除性染色体之外的其他染色体。

以下是常染色体遗传的一些基本规律:
1. 基因的分离定律:这一定律指出,在形成生殖细胞(配子)时,每个个体的基因会随机分离到不同的配子中。

例如,一个个体有两个基因(A 和a),那么在形成配子时,可能会有一个含有A 的配子和一个含有a 的配子。

2. 基因的自由组合定律:该定律说明,在形成生殖细胞时,不同基因座上的基因会独立地进行分离和组合。

这意味着个体的基因组合是随机的,每个基因座上的基因与其他基因座上的基因无关。

3. 显隐性关系:基因有显性和隐性之分。

显性基因通常会在表型上表现出来,而隐性基因只有在个体同时拥有两个隐性基因时才会表现出来。

4. 概率计算:根据上述规律,我们可以通过概率计算来预测子代中各种基因型和表型的出现频率。

线性代数数学建模案例教学研究

线性代数数学建模案例教学研究

学术研讨123线性代数数学建模案例教学研究◊宿迁学院文理学院周克元赵士银本文对线性代数融入数学建模进行分析研究,列举相关数学建模案例,使抽象的线性代数具体化、形象化,训练和培养学生数学建模、分析问题、解决问题的能力。

线性代数主要以线性方程组求解为基础,研究线性空间中线性关系和线性映射,具有较强的抽象性,对于普通应用型院校学生来说理解难度比较大。

很多学生认为线性代数没有任何用处,不想学也不愿学,教师往往感觉是在唱独角戏,久而久之,容易造成恶性循环。

造成这样困境的原因是多方面的,数学知识本身严谨性和逻辑性的特点是一个原因,但更重要的原因是长期以来割裂了数学和其他学科的联系,对线性代数进行孤立的教学,使学生很难认识到它的重要应用价值%线性代数难学的主要原因在于线性代数中有许多从天而降许多抽象的概念,抽象的各种概念和知识点有什么意义什么应用基本没有介绍%传统的线性代数教材偏重于理论推导,而轻实践应用,导致教学内容过于抽象,难于理解,且学生感受不到线性代数理论体系存在%学生难以理解学习各种概念的目的意义,学习线性方程组求解、线性空间、线性映射等知识点有什么作用。

目前一个比较好的解决方法是将数学建模融入线性代数中问,线性代数广泛应用在经济、管理、运筹学、社会学、人口学、遗传学、生物学等领域,在教学中补充讲解线性代数知识在生活工程中的各种应用,让学生理解线性代数各个知识的背景来源,理解学习线性代数在生活工程中的巨大应用,激发学生的学习兴趣,培养学生使用线性代数解决实际问题的能力。

本文介绍一些在实际教学过程中使用的一些数学建模案例。

1行列式应用案例各类线性代数教材旳中,对于行列式的介绍主要为,对于二元三元线性方程组,其解用二阶三阶行列式表示更方便,进而给出n阶行列式的概念、行列式性质、求解方法以及Crammer法则,对于行列式其他应用基本没有介绍。

学生在学习过线性代数后面知识后,认为用逆矩阵或初等变换方法求解线性方程组更方便,对于学习行列式有什么作用产生怀疑。

常染色体遗传比例算法

常染色体遗传比例算法

常染色体遗传比例算法
常染色体遗传比例算法是一种模拟生物遗传过程的算法,用于计算常染色体遗传疾病的遗传概率。

这种算法通常采用二进制编码方式,模拟染色体的交叉和变异过程,并通过适应度函数评估染色体的优劣。

在常染色体遗传比例算法中,首先需要确定种群规模、染色体长度等参数,然后根据适应度函数评估染色体的优劣。

在交配阶段,每个染色体都有一定的交配概率,如果随机数小于交配概率,则进行交配操作。

在变异阶段,每个基因都有一定的变异概率,如果随机数小于变异概率,则进行变异操作。

常染色体遗传比例算法的优点在于能够模拟生物遗传过程,考虑多种因素的影响,计算结果较为准确。

但是,由于算法复杂度高,计算量大,需要较长的计算时间和较大的计算资源。

因此,在实际应用中需要根据具体情况选择合适的算法和参数设置。

数学建模之遗传模型

数学建模之遗传模型
• x(n)=(an,bn,cn,dn,en,fn)T,n=0, 1,…
.
X—链遗传模型
• (iv)如果第n-1代配偶的同胞对是(A, Aa)型,那么它们的雄性后代将等可能 地得到基因A或a,它们的雌性后代的基 因型将等可能地是AA或A。又由于第n 代雌雄结合是随机的,那么第n代配偶 的同胞对将等可能地为四种类型 (A, AA) , (A , Aa) , , (a , AA) , (a,Aa) 之 一。其他类似可分析
.
常染色体隐性病模型
• 假若我们能识别这些疾病的隐性患者, 并且规定隐性患者不能结合(因为两个隐 性病患者结合,他们的后代就可能成为 显性患者),那么未来的儿童,虽然有可 能是隐性患者,但绝不会出现显性特征, 不会受到疾病的折磨。现在,我们考虑 在控制结合的情况下,如何确定后代中 隐性患者的概率。
X—链遗传模型
父体一母体的基因型
(A,AA) (A,Aa) (A,aa) (a,AA) (a,Aa) (a,aa)
A
1
1/2
0
1
1/2
0
a
0
1/2
1
0
1/2
1


基 AA
1
1/2
0
0
0
0


Aa
0
1/2
1
1
1/2
0
aa
0
0
0
0
1/2
1
.
X—链遗传模型
• (iii)在每一代中,配偶的同胞对也是六 种类型之一,并有确定的概率。为计算 这些概率,设an,bn,cn,dn,en和fn分 别是第n代中,配偶的同胞对为(A,AA), (A,Aa),(A,aa),(a,AA),(a,Aa), (a,aa)型的概率,n=0,1,…。令

浙江大学数学建模第四章基于线性代数与差分方程方法的模型

浙江大学数学建模第四章基于线性代数与差分方程方法的模型
(i,i)为可取状态,这是因为总可以适当安排而使他 们是 i对夫妻。 (ii)可取运算: 过河方式可以是一对夫妻、两个男人或两个女人, 这一问题的状态和运算与 当然也可以是一人过河。转移向量可取成 ((- 前一问题有所不同,根据 im,(-1)in),其中m、n可取0、1、2,但必须 1) 题意,状态应能反映出两 满足1≤m+n≤2。当j为奇数时表示过河。 当j为偶 岸的男女人数,过河也同 数时表示由对岸回来,运算规则同普通向量的加 样要反映出性别 法。
2.移位密码体制
移位密码采用移位法进行加密,明文中的字母重新排列,本 身不变,只是位置改变了。 另一种移位 法采用将字母表中的字母平移若干位的方法来构造 早在4000多年前,古希腊人就用一种名 叫“天书”的器械 密文字母表,传说这类方法是由古罗马皇帝凯撒最早使用的, 来加密消息。该密码器械是用一条窄长的草纸缠绕在一个 故这种密文字母表被称为凯撒字母表。例如,如用将字母表向 直径确定的圆筒上,明文逐行横写在纸带上,当取下纸带 右平移3位的方法来构造密文字母表,可 得: 时,字母的次序就被打乱了,消息得以隐蔽。收方阅读消 明文字母表: ABCDEFGHIJKLMNOPQRSTUVWXYZ 息时,要将纸带重新绕在直径与原来相同的圆筒上,才能 密文字母表: DEFGHIJKLMNOPQRTSUVWXYZABC 看到正确的消息。在这里圆筒的直径起到了密钥的作用。 “WKDQN BRX” 因此 “THANK YOU” 以上两种移位较易被人破译,为打破字母表中原有的顺序还可 采用所谓路线加密法,即把明文字母表按某种既定的顺序安排 在一个矩阵中,然后用另一种顺序选出矩阵中的字母来产生密 文表。
§4.2 密码的设计,解码与破译
密码的设计和使用至少可从追溯到四千多年前的埃及 ,巴 比伦、罗马和希腊,历史极为久远 。古代隐藏信息的方法 主要有两大类: 其一为隐藏信息载体,采用隐写术 等; 其二为变换信息载体,使之无法为一般人所理解 。

10:马尔可夫链-数学建模

10:马尔可夫链-数学建模
称为无后效性,由此,更椐全概率公式容易得到
a1 (n 1) a1 (n) p11 a2 (n) p12 a2 (n 1) a1 (n) p12 a2 (n) p22 因为知道p11 0.5, p21 0.4 , 所以显然有 p12 1 p11 0.5 p22 1 p12 0.6 当商店开始销路好,即 a1 (0) 1, a2 (0) 0时,用式(1)立即可算出 a1 (n), a2 (n), n 1,2,.....第.5.页.,共.5.5页.。.
(2) Pig 1 (i=1,…具,是n)线性代数中有关矩阵的理论。
j 1
这样的矩阵被称为 随机矩阵。
第20页,共55页。
常染色体遗传模型
在常染色体遗传中,后代从每个亲体的基因对中各继承一 个基因,形成自己的基因父时体,—基—因母对体也的称基为因基型因型。如果
我们所考虑的遗传特A征A是由AA两个AA基 因AaA和Aaa控制aa的,(A、
满足
wp w
(10)a(n 1) a(n) p两边同时取极限及
k
wi 1
i 1
(11)
第10页,共55页。
引入状态概率向量和转移概率矩阵
a(n) {a1(n), a2 (n), a2 (n)..............ak (n)}
P { pij }kk
(7)
则基本方程(3)可表为
a(n 1) a(n)P (8) 由此还可以得到
模型推广:生物基因遗传等方面的应用。
第16页,共55页。
§4.3 马氏链模型
随着人类的进化,为了揭示生命的奥秘,人们越来越注重遗传 学的研究,特别是遗传特征的逐代传播,已引起人们广泛的注 意。无论是人,还是动、植物都会将本身的特征遗传给下一代, 这主要是因为后代继承了双亲的基因,形成自己的基因对,由 基因又确定了后代所表现的特征。本节将利用数学的 马氏链 方法来建立相应的遗传模型等,并讨论几个简单而又有趣的实例。 马氏链(马尔柯夫链)研究的是一类重要的随机过程,研究对象的 状 态s(t)是不确定的,它可能 取K种 状态si(i=1,…,k)之一,有时甚 至可取无穷多种状态。在建模时,时间变量也被离散化,我们希 望通过建立两个相邻时刻研究对象取各种状态的概率之间的联系 来研究其变化规律,故马氏链研究的也是一类状态转移问题。

数学建模学习数学建模的基本原理与方法

数学建模学习数学建模的基本原理与方法

数学建模学习数学建模的基本原理与方法数学建模是一门应用数学学科,它将数学方法与实际问题相结合,通过建立数学模型来解决各种实际问题。

数学建模在现代科学、工程技术以及社会经济各个领域中都有广泛的应用。

本文将介绍数学建模学习的基本原理与方法。

一、数学建模的基本原理数学建模的基本原理是将实际问题抽象为数学模型,并通过数学方法对模型进行求解,进而得到解决问题的方法和结论。

数学建模的核心思想是用数学语言和工具描述实际问题,通过运用数学原理和方法对问题进行分析和求解。

数学建模的基本原理包括以下几个方面:1. 抽象问题:将实际问题转化为数学问题。

通过对问题的分析和理解,找出问题的关键因素和变量,建立数学模型。

2. 建立模型:选择适当的数学模型来描述实际问题,如线性模型、非线性模型、随机模型等。

3. 建立假设:在建立数学模型时,需要进行一定的假设和简化,以降低问题的复杂性。

4. 求解模型:运用适当的数学方法对建立的模型进行求解,如解析解、数值解、优化方法等。

5. 模型评价:对求解得到的结果进行评价,分析结果的合理性和可行性。

如果结果不符合实际需求,需要对模型进行修正和改进。

二、数学建模的学习方法学习数学建模需要掌握一定的数学知识和方法,并能熟练运用这些知识和方法解决实际问题。

以下是学习数学建模的一般方法与步骤:1. 学习数学知识:数学建模需要运用到多个数学学科的知识,包括数学分析、线性代数、概率论与数理统计等。

因此,首先要通过系统学习数学基础知识,掌握数学的基本概念、定理和方法。

2. 学习建模方法:了解数学建模的基本方法和步骤,学会如何对实际问题进行抽象和建模。

这包括问题分析、模型建立、模型求解和结果评价等方面的内容。

3. 实践运用:通过实际问题的练习和应用,提升建模能力。

可以选择一些典型的数学建模问题进行实践,如交通流量预测、股票价格预测等。

4. 深入研究与拓展:在掌握基础知识和基本方法的基础上,进一步深入研究和探索数学建模的领域和技术。

代数模型

代数模型

AA-AA 1 0
0
AA-Aa 1/2 1/2
0
AA-aa 0 1
0
cn 0
anabncn1
6
an an1 12bn1 1
bn 2bn1 cn1 cn 0 anbncn1
x(n) M(nx1)
an 1 1/ 2 0an1 bn 0 1/ 2 1bn1 cn 0 0 0cn1
1 1 / 2 0 M 0 1/2 1
分布。在一个生长期内,树木的高度均有不同
程度的增加,用gi表示第i级树木一年后变成i+1
级的比例。
5)设这片森林的树木总数为s,fi表示每次砍 伐后第i级中留下的树木数比例,yi 表示每次 砍伐后收获的i级树木数。Pi表示第i级树木的 价值。
6)假设两次砍伐之间是森林的生长期,每个
生长期内,树木至多只能生长一个高度级,不
g2 1 g3 OO
x(k) 3
M
O 1 gn1
M
gn1
1
x(k) n
因此上述关系可以写成: x(k1)G x(k)
a
18
1 g1
1 1 1 1 1
g1
1 g2
0
0
0
0
0
G
g2
1 g3 OO
0 0 0
x (n ) M (n 1 ) x M 2 x (n 2 )M3x(n3) Mnx0
于是有: x(n) Mnxa 0
7
4 求解模型
问题转化为求解 M n,为求 M n ,将M对角化, 即求可逆矩阵P,使 P1MP
亦即:MPP1 为对角矩阵
由于
1 1
2
EM 0 1
2
0

数学建模-遗传基因

数学建模-遗传基因

数学模型—遗传模型引言:遗传是我们一直关心的一个话题,所谓常染色体遗传,是指后代从每个亲体的基因中各继承一个基因从而形成自己的基因型.如果所考虑的遗传特征是由一对基因A和a控制的,那么就有三种可能的基因型:AA,Aa和aa.例如,豌豆的高颈与矮颈是由一对遗传基因决定它的遗传症状,AA型是高颈,Aa型是高颈,而aa型是矮颈.这里的AA型和Aa 型表示了同一外部特征(高颈),则人们说基因a对于A是隐性的.当一个亲体的基因型为Aa,另一个亲体的基因型为aa,那么后代便可从aa型中得到基因a,从AB型中得到A或a,且是等可能性地得到。

1.问题提出豌豆植物的基因型有AA,Aa和aa.现计划采用AA型植物与每种基因型植物相结合的方案培育植物后代,试预测,若干年后,这种植物的任一代的三种基因型分布情况.2.模型假设(1)按问题分析,后代从上一代亲体中继承基因A或a是等可能的,即有双亲体基因型的所有可能结合使其后代形成每种基因型的概率分布情况如表5-1.AA 1 1/2 0 1/4 0 0Aa 0 1/2 1 1/2 1/2 0aa 0 0 0 1/4 1/2 1 (2) 以和分别表示第n代植物中基因型为AA,Aa和aa的植物总数的百分率,表示第n代植物的基因型分布,即有(5 .1)就是当n=0时,表示植物基因型的初始分布,所以有3.模型建立因为原问题是采用AA型与每种基因型相结合,因此这里只考虑遗传分布表的前三列.首先考虑第n代中的AA型,按上表所给数据,第n代AA型所占百分率为即第n-1代的AA与AA型结合全部进入第n 代的AA型,第n-1代的Aa型与AA型结合只有一半进入第n代AA型,第n-1代的aa型与AA型结合没有一个成为AA型而进入第n代AA型,故有(5 .2)同理,第n代的Aa型和aa型所占有比率分别为(5 .3)(5 .4)将(5.2)、(5.3)、(5.4) 式联立,并用矩阵形式表示,得到(5.5)其中利用(5 .5)进行递推,便可获得第n代基因型分布的数学模型(5 .6)(5.6)式明确表示了历代基因型分布均可由初始分布与矩阵M确定.4.模型求解这里的关键是计算.为计算简便,将M对角化,即求出可逆阵P,使,即有从而可计算其中为对角阵,其对角元素为M的特征值,P为M的特征值所对应的特征向量.分别为,故有即得于是即是由上式可见,当时,有即当繁殖代数很大时,所培育出的植物基本上呈现的是AA型,Aa型的极少,aa型不存在.5.模型分析(1)完全类似地,可以选用Aa型和aa型植物与每一个其它基因型植物相结合从而给出类似的结果.特别是将具有相同基因植物相结合,并利用前表的第1、4、6列数据使用类似模型及解法而得到以下结果:这就是说,如果用基因型相同的植物培育后代,在极限情形下,后代仅具有基因AA与aa,而Aa消失了.。

数学建模例题及解析

数学建模例题及解析

例 1 差分方程——资本的时间价值问题 1: 抵押贷款买房——从一则广告谈起每家人家都希望有一套 ( 甚至一栋 ) 属于自己的住宅,但又没有足够的资本一次买下,这就产生了贷款买房的问题。

先看一下下边的广告 ( 这是 1991 年 1 月 1 日某大城市晚报上登的一则广告 ) ,任何人看了这则广告都会产生很多疑问,且不谈广告中没有谈住宅面积、设备等等,人们关怀的是:假如一次付款买这栋房要多少钱呢银行贷款的利息是多少呢为何每个月要付 1200 元呢是如何算出来的因为人们都知道,若知道了房价 ( 一次付款买房的价钱 ) ,假如自己只好支付一部分款,那就要把其余的款项经过借贷方式来解决,只需知道利息,就应当能够算出五年还清每个月要付多少钱才能准时还清贷款了,进而也就能够对能否要去买该广告中所说的房屋作出决议了。

此刻我们来进行数学建模。

因为本问题比较简单无需太多的抽象和简化。

a.明确变量、参数,明显下边的量是要考虑的:需要借多少钱,用记;月利率 ( 贷款往常按复利计 ) 用 R 记;每个月还多少钱用x 记;借期记为N 个月。

b.成立变量之间的明确的数学关系。

若用个月后 ( 加上利息后 ) 欠款记第k ,个月时髦欠的款数,则一可是我们又还了 x 元所以总的欠款为k=0,1,2,3,而一开始的借钱为。

所以我们的数学模型可表述以下(1)c. (1)的求解。

由(2)这就是之间的显式关系。

d.针对广告中的情况我们来看(1) 和(2) 中哪些量是已知的。

N=5年= 60 个月,已知;每个月还款 x= 1200 元,已知 A。

即一次性付款购置价减去 70000 元后剩下的要此外去借的款,并无告诉你,别的银行贷款利率 R 也没告诉你,这造成了我们决议的困难。

但是,由 (2) 可知 60 个月后还清,即,从而得(3)(3) 表示N=60,x= 1200 给准时A0和x 之间的关系式,假如我们已经知道银行的贷款利息 R,就能够算出A0。

线性代数模型魔方植物基因分布

线性代数模型魔方植物基因分布

练习1 完成下面的Durer方
6798 5 9 7
6
14
9
48
87
11
R=C=D习2 构造你自己认为有意义的Durer方。
练习2 构造你自己认为有意义的Durer方。
6798 12 5 5 8 6 11 9 4 6 7 7 10
2 植物基因的分布
设一农业研究所植物园中某 植物的基因型为AA、Aa 和 aa 。 研究所计划采用AA型的植物与 每一种基因型植物相结合的方 案培育植物后代。问经过若干 年后,这种植物的任意一代的 三种基因型分布如何?
同年曾铸造了一枚 名为“Melen cotia I” 的铜币。
《忧郁》
2 Durer 魔方特点
特点
每行之和、每列之和、对 角线之和、四个小方块之 和、中心方块之和都相等, 为确定的数34。
16 3 2 13 5 10 11 8 9 6 7 12 4 15 14 1
四角之和、中间对边之和均为34。
线性代数模型
Durer 魔方 植物基因的分布 常染色体的隐性疾病 马尔科夫链模型
一 Durer 魔方
1 Durer 魔方
德国著名的艺术 家 Albrecht Durer (1471--1521)
德国著名的艺术 家 Albrecht Durer (1471--1521)于1514 年创作了一幅铜版 画《忧郁》
财产分配问题提示
案例2:遗产分配 100元,则均分(100/3,100/3,100/3)。 200元,第一步,大、二绑在一起,跟三太太均分100 元,第二步,剩余150均分(50,75,75)。
300元,第一步,二,三绑在一起,跟三太太均分300 元,第二步,剩余150元,二先得50元,剩余100元, 二,三均分,则分配结果为(50,100,150) 。

数学建模“基因重组问题”

数学建模“基因重组问题”

基因组组装摘要快速和准确地获取生物体的遗传信息获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,是生命科学领域的重要研究内容。

本文主要研究的是利用一定的方法将测序得到的短片段序列组装成更长的序列。

本文根据目前的测序新策略,首先按照策略的思想,确定主要算法,再根据所确定的算法编写对应的程序,最后导入数据,得出最长的组装序列。

对于问题一:本文采取分部解决问题的方法,具体步骤如下:步骤一:我们运用Matlab软件,对数据进行了预处理,将读长序列完整的提取出来;步骤二:我们采取了基因组组装算法优化模型,使得碱基数目尽可能大及组装序列的总长度的比例尽可能大;步骤三:在步骤二的基础上,我们建立了de Bruijn图方法的模型,该模型能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况,形象地描述了我们前面所建立的模型。

对于问题二:这个问题刚好成为问题一我们所建立的模型与编写的程序的检验,根据问题一所建立的模型和编写的程序,我们将数据导入程序之中,利用matlab软件运行并得出结果,最后在所得结果进行连续性、完整性、准确性的检验。

关键词:基因组组装,Matlab编程,de Bruijn图,读长(read)序列一、问题重述快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。

获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。

确定基因组碱基对序列的过程称为测序(sequencing)。

当然,由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。

对组装效果的评价主要依据组装序列的连续性、完整性和准确性。

连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由于后代是各从父代和母体的基因对中等可能 地得到一个基因而形成自己的基因对,故父代母的基 因对和子代各基因对之间的转移概率如下表:
父母
AA-AA AA-Aa AA-aa Aa-Aa Aa-aa aa-aa 子代
AA
1 1/2 0 1/4 0
0
Aa
0
1/2 1 1/2 1/2 0
aa
0
0
0 1/4 1/2 1
0
0 1/ 2
0
0 0 0
n
P
1
1
0 0
1 (1)n 2
(1)n 2 0
1
(1)n1 2
( 1 ) n1
2
0
(4)
将(4)代入(3)得
x1
x2 x3
(n)
(n) (n)
x1 (0)
(
1 2
)
n
x2
0
[1 ( (0)
1 2
)
n
]x2
( 1 )n1
2
(0) x3 (0)
若在开始时一代人口中 AA,Aa,aa 型基因的人 所占百分比为a0 ,b0 , c0 ; x1(n), x2 (n), x3(n)为第n代人口 中所占的百分比。
控制结合 显性患者不能生育后代,隐性患者必须与
一个正常人结合才能生育后代。
从n 1开始就有 x3(n) 0 ,即不再有显性患者, 且
x3
(n)
x12
(n
1)
x1
(n
1) x2
(n
1)
1 4
x2
2
(n
1)
x1(n 1)x2 (n 1) 2x1(n 1)x3 (n 1) x2 (n
x3 2
(n
1)
x2
(n
1) x3
(n
1)
1 4
x2
2
(n
1)
1) x3
(n
1)
1 2
x2
2
(n
1)
(7)
从n
1开始递推得(记
p
a0
b0 2
x1
(n)
x2
(n)
x1 1 2
(n x2
1) 1 2
(n 1)
x2
(n
1)
(n 1,2, )
(1)

递推得
x1
(n)
1
x2 (n) 0
1
2 1
x1 x2
(n (n
1) 1)
2
x1(n) C n a0
x2 (n)
b0
(2) (3)
由于
1
1 n
1 1 (1)n
x(n) Lx(n 1) ,(n 1,2, )
由(2)得
x(n) Ln x(0),(n 1,2, )
(2) (3)
下面把L 对角化,求出L 的特征值 1、1/2、0,对
应的特征向量构成矩阵
1 P 0
0
1 1
1 2

0 1
1
求出
P 1
0
0
1 1 1 2 0 1
1
Ln
P 0
,
q
c0
b0 2

x1 (1) x2 (1) x3 (1)
a0 2
a0b0
1 4
b0
2
a0b0 2a0c0 b0c0
c0 2
b0c0
1 4
b0
2
p2 1
2 q2
b0
2
2 pq
(8)
x1 x2
(2) (2)
p2(p2 2 pq( p
2 pq q2 ) 2 2 pq q2
0
2 1
0
2 (1)n
2
2

(4)
x1 (n) x2 (n)
a0 (1 2
[1 )n b0
(
1 2
)n
]b0
(n 1,2, )
(5)
可见在控制结合的方案下,隐性患将逐渐消失,这正
是我们所希望的结果。
自由结合 这三种基因的人任意结合生育后代(设性
别比为 1)

A1—父代为 AA A2 —父代为 Aa A3 —父代为 aa
B1—母代为 AA B2 —母代为 Aa B3 —母代为 aa
C1—子代为 AA C2 —子代为 Aa C3 —子代为 aa
记 xi (n 1)x j (n 1) p( Ai B j ) p( Ai ) p(B j ) (i, j 1,2,3) 则由全概率公式,有
33
p(Ck ) xk (n)
p2 )2
pq
x3
(2)
q2(p2
2 pq
q2)
q2
(9)
说明以后各代中基因的分布永远是 p2 ,2 pq, q2 ,这
三种人比例不变。
x2 (n x2 (n
1)) 1)ຫໍສະໝຸດ 1 2x2(n1)
x3
(n
1))x2
(n
1)
( x1
(n
1)
1 2
x2
(n
1))x3
(n
1)
x3 (n)
1 2
(1 2
x2
(n
1)
x3 (n
1))x2
(n
1)
(x3
(n
1)
1 2
x2
(n
1))x3 (n
1)
(6)
化简得
x1
(n)
x2 (n)
[1
(
1 2
)
n1
]x3
(0)
当n ,有 x1(n) 1, x2 (n) 0, x3(n) 0。
即培育的植物 AA 型基因所占的比例在不断增加,极
限状态下所有植物的基因都是 AA 型。
模型二 常染色体遗传疾病 现在世界上发现的遗传病有几千种,这些都是由
于父母或家族遗传基因所造成的。常染色体遗传疾病 对应的基因型将人口分成三类。记 AA 型——正常人, Aa 型——隐性患者,aa——显性患者。
p( Ai B j ) p(Ck Ai B j )
i1 j 1
代入后得
(k 1,2,3)
x1 x2
(n) (n)
( x1 (1 2
(n x2
1) (n
1 2
1)
x2 (n x3 (n
1))x1 (n 1))x1 (n
1) 1)
(x1 (n 1)
1 2
(
x1
(n
1)
1 2
第三章 线性代数方法建模
线性代数是以向量和矩阵为对 象,以实向量空间为背景的一种抽 象数学工具,它的应用遍及科学技 术的国民经济各个领域。本篇通过 基因遗传学、投入产出模型等几个 例子阐述以线性代数为主要工具建 立数学模型的一般方法和步骤。
§1 常染色体基因遗传
常染色体基因遗传中,后代是从每个亲本的基因 对中各继承一个基因,形成自己的基因对。 模型一 植物基因的分布
植物的基因对为 AA,Aa,aa 这三种。 记 x1(n)—第n代植物中基因 AA 所占的比例
x2 (n) —第n代植物中基因 Aa 所占的比例 x3(n) —第n代植物中基因 aa 所占的比例
x(n) (x1(n), x2(n), x3(n))T , n 0,1,2, 显然
x1(n) x2 (n) x3(n) 1
现在研究采用 AA 型植物与其它基因植物相结合 的方法培养后代,故有
x1
x2 x3
(n)
(n) (n)
x1
1
2 0
(n x2
1) (n
1)
1 2
x2 (n x3 (n
1) 1)
(1)
1 1/ 2 0

L 0 1/ 2 1
0 0 0
则第n代与第n 1代植物基因型分布的关系为
相关文档
最新文档