不同条件下基因表达的双聚类分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中山大学

硕士学位论文

不同条件下基因表达的双聚类分析

姓名:贺凝馨

申请学位级别:硕士

专业:软件工程

指导教师:戴宪华

20070602

中山大学硕十学位论文

型向量比较,距离(比如说欧氏距离或泊松相关系数)最近的模型向量胜出。根据学习原理,组织图上该模型向量的节点和它相邻的节点向输入向量移动。学习过程的基本思想就是对于每个输入向量胜出的模型向量节点和它的相邻节点都向输入向量移动,在学习过程中,个别变化可能互相矛盾,但当网络输出后,有序的模型向量就出现在组织图上。如果输入向量有限的话,就必须重复输入学习。学习过程就是对于每个属于Nc(t)节点的模型向量厢。(t+1)=m.(t)+a(t)[x(t)一m.(t)],否则m,(t+1)=m。(t)。其中0<=a(t)<=1,是学习尺度。N。(t)定义了相邻范围。在学习开始的时候相邻半径很大,随着学习的进行,相邻半径和学习尺度逐渐降低。

(a)(b)

图2。3自组织图的表示

图2.3(a)中黑色点代表模型向量,x为其中一个输入向量,BMU代表胜出的模型向量,BMU和它相邻的模型向量都向输入向量移动,紫色点表示移动后的模型向量位置。图2-3(b)中黑色点代表输入向量,蓝色点代表初始时的模型向量,紫色点代表经过多次迭代后,模型向量的位置。

优点:可以很图形化的表示一个类的质量好坏,并且计算资源的耗费较小。

缺点:必须设簧很多参数,比如组织图的X维Y维大小(类的大小)、迭代次数、初始学习率、相邻半径、相邻函数、训练前的初始化向量类型、图的拓扑结构。由于算法中存在随机化的过程,可能需要重复计算多次寻找最佳结果。

中山大学硕士学位论文

(a)彩色盒图和树状图(b)点线图

图2.5表达数据及聚类结果的可视化

可视化方法对于基因表达谱聚类结果的理解非常重要,对于生物学家分析和理解生物学意义具有不可替代的作用。应用可视化技术显示这些数据及其关系,有助于深入理解基因表达调控,认识基因之间的相互作用,发现新的生物学知识。

18

第4章算法的改进与实现

我们可以清楚地看出矩阵Mt中的数据具有明显的波动一致性,其中列具有逐列增一,行具有逐行增四。根据公式(3-1)、公式(3-2)、公式(3.3)逐项计算如下.

GIj=6.5

alI25.5.q2=6.5,a1327.5

dIJ=2,azi=5,(73j=8,口4J=11

Rs(1.1)=1—2·5.5+6.5=0.0

P,s(1,2)=2—2-6.5+6.5=0.0

Rs(4,3)=12·11—7.5+6.5=0.0

H(M1)=(0.0)2x12/12:0

这里在Excel表格中用vba编码实现了公式(孓3),用于验证此函数其是否能真实的反映当H值越小时,矩阵数据的波动越一致.

例如,我们随机地两两交换矩阵的行,并没有破坏矩阵的波动一致性,对变化后的矩阵计算得到偏移量H(M2)仍然为0,如图4-1(a)所示计算结果;如果我们破坏该矩阵中的数据波动的一致性,用数据“3”来替换矩阵中的数据“5”,计算得到矩阵的偏移量为:H(M3)=0.16667,如图4.1(b)所示。

31

(a)

中山又学硕士学位论文

(b)

图4.1CC算法得分函数分析

经过多组数据包括随机数的测试,发现公式(3-3)的确能很好的度量矩阵数掘的波动一致性,用于基因表达数据能很好的度量条件集合下基因表达谱的相似性。

4.1.2原算法存在的缺点

对CC算法质量评价函数(得分函数)的分析,得出该部分为算法的最大优点,无需在这上面再做修改。而通过对算法的实现和测试证实了原算法中存在的以下缺点:

1.缺失值和算法中引入的随机数对聚类结果有一定影响

2.参数不易确定

3.发现最大双聚类簇使用了局部最优算法,不一定是全局最优解

本文主要实现了对前面两点的改进。

4.2对算法的改进

为了使得到的双聚类结果质量更好,使用机器学习方法,选取了大量基因表达数据进行测试,修改算法和程序实现,再测试。通过这样的过程,发现在原Cheng

andChurch算法的基础上进行一些扩展后,使算法得到了明显的改进。改进的算

法主要进行了如下两处扩充:

第4章算法的改进与实现

(a)盒图

(b)曲线图

图4.5双聚类分析工具聚类结果显示界面

第5章实验与测试

4).导出结果

对于两个算法中都需要输入的参数of,、5和n,分别输入相同的参数值。设嚣的参数如下:

6=0.2,

。c=1.2,

名=0.6,

目标聚类数目n=6。

●结果

首先用程序实现的聚类结果的可视化束评价双聚类效果。出于对硬件资

源和时问消耗的考虑,程序在实现可视化时,对每个bicluster中表示基因表

达谱的曲线最多只显示25条。通过这些曲线已经能观察到基因表达谱的波

动一致性,对聚类效果作出评价。

使用同样的数据集,同样的参数,运行CC算法得到的结果如图5.1所

示,运行改进的算法得到的结果如图5.2所示。

cc.-biclusterl(525,14)cc-bicluster2(410,19)

中山大学硕士学位论文

cc-bicluster3(320,18)co-bicluster4(290。11)

cc-bicluster5(283,12)cc-bicluster6(210,12)

图5—1原ChengandChurch算法的测试结果

图中括号内的数字表示簇的大小。下面是改进后的算法得到的结果:

bidusterl(527,15)

bicluster4(298,13)

Bicluster5(300,13)bicluster6(248。10)

图5.2改进后算法的测试结果

相关文档
最新文档