MATLAB软件课程设计(DNA序列)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
装订线
装订线
(威海)
《数学软件实践》
课程设计报告
题目:MATLAB实现DNA序列的分类识别
学号:
姓名:
教师
日期:
论文题目
论文题目 (2)
摘要 (3)
1 问题重述 (4)
2 问题分析 (4)
3 模型假设 (4)
4 符号说明 (5)
5 模型的建立与求解 (5)
5.1 问题一的模型 (5)
5.1.1 模型建立 (5)
模型I (6)
5.1.2 模型求解 (6)
5.2 问题二的模型 (7)
5.2.1 模型建立 (7)
模型II (8)
5.2.2 模型求解 (9)
5.3 问题三的模型 (10)
5.3.1 模型建立 (10)
模型III (10)
5.3.2 模型求解 (11)
6 模型的评价与改进 (12)
附录 (13)
A.1 附录描述1 (13)
A.2 附录描述2 (20)
A.3 附录描述3 (23)
摘 要
1) DNA 序列矩阵
a) 首先调用函数_I importdata ,将txt 文档中的字符读入到workspace 中,将
其中不是ATGC 的字符用A 来替换,存到矩阵DNA 中。
b) 给定DNA 序列12N S s s s =, {}i s A C G T ∈,,,,,,,A T G C 分别表示序列S 的
前i (12i N =,,...,)个元素中A C G T ,,,出现的次数.编写函数_I calculate 计算出DNA 序列每一行的,,,A T G C 。
c) 根据定义的欧几里得距离矩阵,为了求解ED 方便,写编写一个函数
_1I ED ,求出四个矩阵,,,Aij Tij Gij Cij ,然后编写函数_I ED ,便可以求出AG CT AC GT AT GC ,,,,,对应的ED 。
d) 根据定义的路径距离矩阵,编写函数_I PD ,根据不同的ED ,求出不同的
PD 。
e) 根据定义的商矩阵,编写函数_I EP ,由(b)和(c)求出的ED 和PD 计算出对
应的EP 。
f) 根据定义的商矩阵,编写函数_I EG ,由(b)求出的ED 计算出对应的EG 。 2) 最大特征矩阵
对于给定的DNA 序列, 令123456()μμμμμμμ=,,,,,,其中123456μμμμμμ,,,,,分
别表示矩阵,,ED EP EG 的标准化(i N μλ=/)的最大特征根。将求得的结果放于矩阵123EGa EGa EGa ,,中。
3) 调用给定程序作出DNA 序列的聚类树图
可以根据给定的程序_I dendrogram ,对于123EGa EGa EGa ,,分别作图。 4) MATLAB 的一些基础知识
关键字:DNA 序列、最大特征根、聚类树图、MATLAB 基础知识
1 问题重述
题目给的是关于DNA 序列的问题,首先给出一个txt 文档,是构成DNA 序列的ATGC 字符,但其中有不是ATGC 的字符,要求将txt 文档中的所有字符序列读入到矩阵DNA 中,并将其中不是ATGC 的字符用ATGC 中的任意一个换掉,得到正确的DNA 矩阵。然后分别计算矩阵,,,A T G C (例如i T 表示前i 个字符中含有的T 的个数)。再根据
,,,A T G C 四个矩阵不同的输入顺序求出6个不同的ED 矩阵,对每个ED 矩阵,可以求出对应的PD ,再由,ED PD 求出对应的EP 。对每个ED 矩阵,也可以求出对应的EG 矩阵。
假设输入DNA 序列的第一行,求出6个不同的,,ED EP EG 后,每个矩阵可以求得一个最大特征根,这样6个ED 有6个最大特征根,放于矩阵1EGa (1EGa 为24*6的矩阵)的第一行中,6个EP 有6个最大特征根,放于矩阵2EGa (2EGa 为24*6的矩阵)的第一行中,6个EG 有6个最大特征根,放于矩阵3EGa (3EGa 为24*6的矩阵)的第一行中。当把DNA 序列的24行遍历完,1,2,3EGa EGa EGa 三个矩阵便赋值完成。
提示中给了画DNA 序列的聚类树图的程序,调用此程序,便可完成3个图的绘制。
2 问题分析
首先调用函数_I importdata ,将txt 文档中的字符读入到矩阵DNA 中,将其中不是ATGC 的字符用A 来替换。编写函数_I calculate 计算出DNA 序列每一行的,,,A T G C 。根据定义的欧几里得距离矩阵,为了求解ED 方便,先由函数_1I ED ,求出四个矩阵,,,Aij Tij Gij Cij ,然后由函数_I ED ,便可以求出,,,,,AG CT AC GT AT GC 对应的ED 。根据定义的路径距离矩阵,由函数_I PD ,根据不同的ED ,求出不同的PD 。根据定义的商矩阵,由函数_I EP 和求出的ED 和PD 计算出对应的EP 。根据定义的商矩阵,由函数_I EG 求出的ED 计算出对应的EG 。
编写函数_1I EGa ,假设输入DNA 序列的第一行,求出6个不同的,,ED EP EG 后,每个矩阵对应一个最大特征根,6个ED 的6个最大特征根放于矩阵1EGa 的第一行中,6个EP 的6个最大特征根放于矩阵2EGa 的第一行中,6个EG 的6个最大特征根放于矩阵3EGa 的第一行中。遍历完DNA 序列的24行,得到1,2,3EGa EGa EGa 三个最大特征根矩阵。
由提示中给定的画DNA 序列聚类树图的程序画出对应的聚类树图。
3 模型假设
1) 假设实验数据足够准确。
2) 假设实验过程中不存在仪器误差。 3) 假设提示中给的程序完整且正确。