基于代表熵的基因表达数据聚类分析方法

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2008,44(27)

1前言

基因表达数据具有很高的基因维数和相对较少的样本数,通常是几千甚至上万个基因而只有几十个样本。在对组织样本聚类时,如果不对基因数据进行降维处理,而直接进行样本聚类,将不会得到有意义的结果。这是因为大多数的无关基因数据淹没了数量很小的对疾病分型有用的基因数据,所以在对组织样本聚类之前先要进行降维处理。目前对高维数据进行降维处理的方法较多,其中有主元分析,粗糙集属性约减,小波变换及特征提取[1]等。较为常用的主元分析法是一种无导师型线性分析方法,它将原始特征空间投影到新的特征空间,但新的特征只是原特征的线性组合,不再具有生物学意义。而特征提取是在原始的特征空间中挑选有助于样本分型的代表基因,因而保留了特征的生物学意义。

一般的特征提取都要有先验知识作指导,即在已知一定的样本分类情况下,挑选对分类贡献较大的特征,这对于临床医学中癌症的诊断有一定的局限性。由于大多数未知类型的疾病缺少相关知识,所以需要一种方法能够在无指导情况下挑选代表基因对组织样本进行判别。根据生物学知识可知,具有相同调控功能的基因可能有相似的表达模式,因此对基因聚类,将功能相关的基因按表达模式的相似性归类[2],有助于对未知功能的基因进行研究。

本文采用双向聚类算法模型即先从特征/基因方向聚类,挑选出特征基因后再对样本聚类。根据代表熵的大小判断基因聚类质量的好坏,引入波动系数挑选类内代表基因。将该算法应用于基因表达数据集,实验结果表明,在缺乏先验知识的情况下本文的算法提高了样本分型的准确度。

2双向聚类算法模型

本文采用的双向聚类算法是分别从基因和样本两个方向聚类。基因聚类可以挑选出特征基因,样本聚类用来对疾病分型。其算法流程如图1所示。首先是对基因数据集进行预处理,包括滤去在样本中无变化的基因及表达值的规一化处理。接着是采用SOM网络从基因方向上聚类,将表达模式相近的基因归为一类。再从每一个簇中挑选该类的代表基因,构成总特征

基于代表熵的基因表达数据聚类分析方法

陆媛,杨慧中

LUYuan,YANGHui-zhong

江南大学通信与控制工程学院,江苏无锡214122

SchoolofCommunication&ControlEngineering,JiangnanUniversity,Wuxi,Jiangsu214122,China

E-mail:ly1983.cn@163.com

LUYuan,YANGHui-zhong.Clusteringanalysismethodsofgeneexpressiondatabasedonrepresentativeentropy.ComputerEngineeringandApplications,2008,44(27):151-153.

Abstract:Becausegeneexpressiondataishighdimensionsandsmallsamples,especiallythelessprioriknowledge,atwo-wayclusteringalgorithmbasedontherepresentativeentropyisproposed,whichiscombinedwiththeadvantagesofSelfOrganizingfeatureMap(SOM)neuralnetwork.First,theclusteringofgenesisrealizedthroughtheSOMnetwork,andcharacteristicgenesareselectedaccordingtothefluctuationcoefficient.Thenthequalityofgeneclusteringisdecidedbythevalueofrepresentativeen-tropy.Finally,SelfOrganizingFeatureMapalgorithmisemployedtoclassificationofsamples.Thisprocessisappliedtotwopub-lisheddatasetsofgeneexpression.Theexperimentresultsshowthatthealgorithmcanreducethefeaturespacedimensionsandimprovetheaccuracyofclustering.

Keywords:representativeentropy;fluctuationcoefficient;SelfOrganizingfeatureMap(SOM)algorithm;geneexpressiondata

摘要:针对基因表达数据样本少,维数高的特点,尤其是在样本分型缺乏先验知识的情况下,结合自组织特征映射的优点提出了基于代表熵的双向聚类算法。该算法首先通过自组织特征映射网络(SOM)对基因聚类,根据波动系数挑选特征基因。然后根据代表熵的大小判断基因聚类的好坏,并确定网络的神经元个数。最后采用FCM(FuzzyCMeans)聚类算法对挑选出的特征基因集进行样本分型。将该算法用于两组公开的基因表达数据集,实验结果表明该算法在降低特征维数的同时,得出了较高的聚类准确率。关键词:代表熵;波动系数;自组织特征映射网络算法;基因表达数据

DOI:10.3778/j.issn.1002-8331.2008.27.048文章编号:1002-8331(2008)27-0151-03文献标识码:A中图分类号:TP311

基金项目:国家自然科学基金(theNationalNaturalScienceFoundationofChinaunderGrantNo.60674029)。

作者简介:陆媛(1983-),硕士生,主要研究方向:数据挖掘、聚类算法;杨慧中(1955-),教授,博士生导师,主要研究方向:工业过程建模与优化控制及相关理论与技术的研究。

收稿日期:2007-11-13修回日期:2008-02-29

ComputerEngineeringandApplications计算机工程与应用151

相关文档
最新文档