样本类型无关的多类特征基因选择方法_杨俊丽
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Computer Engineering and Applications 计算机工程与应用
基金项目:山西省实验动物专项资金(the Special Foundation for Laboratory Animals of Shanxi Province, China under Grant No.2010K12);山西医科大学青年基金(Shanxi Medical University Foundation for Young Scientists under Grant No.02201023)。
作者简介: 杨俊丽(1978-),女,硕士研究生,讲师,主要研究领域为生物信息学,医学数据整合;刘田福(1954-),男, 教授;李祥生(1961-),
男, 教授。
E-mail: hplkyjl@
样本类型无关的多类特征基因选择方法
杨俊丽1, 刘田福2, 李祥生1
YANG Junli 1, LIU Tianfu 2, LI Xiang-sheng 1
1.山西医科大学 计算机教学部,山西 太原 030001
2.山西医科大学 实验动物中心,山西 太原 030001
1. Department of Computer Teaching, Shanxi Medical University, Taiyuan 030001, China
2. Laboratory Animal Center, Shanxi Medical University, Taiyuan 030001, China
Feature selection rules for classifying any multi-class samples
Abstract :Feature gene for classification is one of important problems in gene expression data analysis. Current methods ignored that gene expression were unbalanced in different classes. The paper introduces a new feature selection method for any sample. The method presents a new heuristic algorithm that was composed of a improved difference between classes and a original undulation inside the class. The experimental results showed that the method was effective on selecting feature genes for unbalanced multi-class sample and advancing classification capability of classifiers.
Key words :feature selection; multi-class; classifier; gene expression profile
摘 要:分类特征基因是基因表达谱数据分析中的重点,目前的特征基因选择方法均没有考虑到基因在不同类别中分布失衡给特征基因选择算法带来的影响。
提出一种样本无关的特征基因选择方法,该方法利用改进地类间差异函数和类内波动函数,并根据两个函数的一致性选择每个类别的鉴别基因。
该方法不仅适用于多类样本,对于各类样本数量不均衡以及基因在各类中分布失调的样本同样有效。
实验结果表明,该方法确保了特征矢量的均衡性,提高了分类器的分类性能。
关键词:特征选择; 多类; 分类器; 基因表达谱 文献标识码: A 中图分类号: TP391.4
1 引言
基因表达水平是衡量基因功能发挥作用的重要指标,通过基因表达水平的高低,可以揭示生物体的状态和基因在生物体内的活性[1]
,对医学基础研究以及疾病的临床诊断和治疗具有重要的意义。
基因表达谱就是描述基因在某一特定状态下表达水平的数据。
通过对基因表达谱数据的分析可以获得基因功能和基因表达的潜在信息,为生物学和医学研究提供准确有力的科学依据。
然而,基因表达谱数据集中的每个
样本的可测基因数一般达到几千甚至上万个,而实际上只有
几十个甚至几个基因才真正与样本类别相关,包含了样本分类信息,大部分基因与样本类别无关。
因此,如何发现对样本分类起决定性作用的一组分类特征基因,即分类特征基因提取与选择的方法至关重要。
它不仅是建立有效地分类模型的关键,也是发现疾病分类与分型的基因标记物以及药物治疗潜在靶点的重要手段[2]。
目前科研工作者已从不同角度提出多种特征基因选择方法。
其中大多数特征基因选择方法都是针对两类分类问题
网络出版时间:2012-04-25 17:21
网络出版地址:/kcms/detail/11.2127.TP.20120425.1721.060.html
2 Computer Engineering and Applications计算工程与应用
设计的。
而在实际应用中,多类分类问题更为常见。
Dudoit[3]等人提出将类间和类内的差平方和之比排序来选择特征基因,Cho[4]等人用类质心距离的均值和标准差来选择特征基因,这些方法都是针对解决多类分类问题而设计的,但没有考虑到样本中类别样本数目不平衡的现象。
李建中等针对类别样本数不平衡问题,提出一种模型无关特征选择方法,该方法克服了样本数目不平衡现象,然而忽视了基因在多类样本的各类别中分布不均衡给特征基因选择算法带来的影响。
本文提出一种适于任意样本集的特征基因选择方法。
该方法利用新的类间差异函数和新的类内波动函数,将每个类别的鉴别基因分别排序,然后选择相同数量的最优鉴别基因组成特征基因集。
该方法不仅与样本类别数量无关,与各类中样本数量是否均衡无关,而且与基因在各类中分布失调也无关,同时避免了大部分特征矢量集中在其中某一类或某几类中。
2 基因表达谱的数学模型
设有来自m个类别的n个样本,G i={g i1, g i2,……, g ik}表示样本i(1≤i≤n)中所有基因组成的集合,其中g ij(1≤j≤k)为样本i中基因j的表达值,k为基因的个数。
所有样本所组成的基因集合可表示成基因表达矩阵G=[G1T, G2T, ……, G n T]T,其中样本i中的所有基因集合G i为一个k 维向量,是k维空间的一个点,基因表达矩阵G则构成一个k维向量空间,其一行表示某一样本中的所有基因的表达情况,而其一列表示某个基因在不同样本中的表达情况。
分类特征基因选择方法的基本任务就是研究如何从原始数据集中选择出对样本分类识别最有效的数量最少的特征基因子集,从而降低特征空间的维数。
因此,特征选择的实质就是在G中找到一个子空间E,E的维数就是特征基因的个数。
令E是p维子空间,则E=[E1T, E2T, ……, E n T]T,其中E i={e i1, e i2,……, e ip}(p<k)。
3 特征基因选择方法
在设计特征基因选择策略时,首先需要制定特征提取和选择的准则。
从理论上讲,应该选择分类信息含量最大的特征矢量,即特征矢量应该在不同类别间的表达水平值差异较大,而在类内则具有近似一致的表达水平值[5]。
对于基因的特征矢量值常采用基因特征计分准则来确定。
根据基因特征计分准则对基因集合中的每一个基因进行计分,然后按分值从大到小排列基因,并选择排在前面的一定数量的基因作为候选特征基因的初选结果。
常用的基因特征计分准则主要有:方差不等的t检验统计量、特征计分准则(feature score criterion, FSC)、信噪比方法(signal to noise, S-N)、Fisher 判别(Fisher discriminant ratio, FDR)和Bhattacharyya特征计分准则(Bhattacharyya feature score criterion, BFSC)等[6]。
这些特征计分准则虽然从不同角度都体现了基因在两个类中分布均值或分布方差的差异,但是只适用于正负两类的二分类问题。
另外,这些计分准则还可能导致大部分特征矢量集中在其中的某一个类中,这会严重影响分类器的分类性能。
如果某个基因在类别分布不均衡的多类样本中只是其中一个或几个类别的特征基因,而在其他各类中均没有明显鉴别特征,那么这个基因就是这个类别或这几个类别的特征基因。
基于此思想,本文对样本集中的各个类别分别进行特征基因的选择。
某个类别的特征基因应在此类与非此类间表达水平差异较大,而在此类类内具有近似一致的表达值。
本文利用基因的类与非类间差异和类内波动的一致性来衡量基因在各类中的特征分值,然后,按照此特征分值的大小对各类中的基因分别进行排序,并选择前面相同数量的基因构成特征基因集,以确保特征矢量的均衡性。
3.1类间差异选择
若基因g是C类的特征基因,那么基因g在C类与非C类样本之间的表达水平差异较大。
设基因表达谱样本集分为m个类别,那么基因g在C类中的类间差异函数(between classes difference,BCD)可表示为
()
c c c
BCD gµµ
=−(1) 其中μc与μc- 分别为基因g在C类和非C类中表达水平的均值。
BCD(g c)值越大说明基因g在C类和非C类间的差异越大。
然而BCD(g c)并不能很好的体现基因g在C类和非C类间表达水平均值的差异。
如果基因g的BCD(g c)很大,但其在非C类的某个类中的表达水平均值与其在C类中的表达水平均值差异较小,那么基因g对于C类的鉴别能力就会受到很大的影响。
因此,在衡量基因对于某一类别的类间鉴别能力时,还应考虑基因在此类与其他各类间的最小距离对基因类间鉴别能力的影响。
由此,得到一个修订地类间差异函数为
1
'()min,()
2
c c c c j
BCD g c j
µµµµ
=−+−≠(2) 其中μj是基因g在不同于C类的某一其他类别中表达水平的均值。
由式(2)可知,修订后的类间差异函数由两部分组成:第一部分体现了基因在某一类别中分布均值与其他类别中分布均值的差异,第二部分体现了基因在此类别分布均值与其他各类间分布均值的最小差异。
本文按照此类间差异函数在训练集的各类中对每个基因分别进行计算,值越大说明基因对该类别的鉴别能力越强。
3.2类内波动选择
一个理想的特征基因,除了在不同类别之间表达水平值
杨俊丽,刘田福,李祥生:样本类型无关的多类特征基因选择方法 3
差别较大,还应在类内具有相似的表达水平值。
通常利用类内方差来衡量基因在类内基因表达值的波动情况。
设基因表达谱样本集分为m 个类别,那么基因g 的类内变化(inside class difference ,ICD )函数可表示为
2
1
()(())m
i c c i c
ICD g g µ=∈=−∑∑ (3)
其中μc 是基因g 在C 类中的表达水平均值,g i 是基因g 在C 类的第i 个样本中的表达水平值。
由式(3)可知,基因
在类内的表达水平相似度越大,即类内方差越小,其对类别的鉴别能力越强。
但在实际中,式(3)常常会受到特征基因在非特征类类内相关性差的影响,导致ICD (g )偏大。
以三类问题为例,设样本集中包含15个样本,分为A 、B 和C 三类,其中A 类含5个样本,B 类含6个样本,C 类含4个样本。
图1给出了样本集中4个基因a 、b 、c 和d 分别在A 、B 和C 三个类内的变化谱。
由图1类和C从而认为基因a 不是一个很好的特征基因。
然而,基因a 在A 类中具有高度的一致性。
因此,基因a 是A 类的特征基因。
同理,虽然基因b 的ICD 值也较大,但其在B 类中却有高度的一致性。
因此,基因b 是B 类的特征基因。
基因c 与基因a 相比,基因c 具有更小的ICD 值,说明基因c 的鉴别能力比基因a 强。
然而,对于A 类基因a 的特征性远胜于基因c ,因此实际上对于A 类基因a 具有更强的鉴别能力。
基因d 在A 、B 和C 三个类中都具有一定的相关性,因此其ICD 值在4个基因a 、b 、c 和d 中也最小,但基因d 对每个类的鉴别能力却都不是最强。
因此,本文在衡量基因的类内变化情况时,对基因在各类中的相关性分别进行计算,将类内变化函数修订为
'()c ICD g =
(4)
其中μc 是基因g 在C 类的表达水平的均值,g i 是基因g 在C 类中的第i 个样本的表达水平值,n c 是C 类中样本的个数。
在衡量类内变化分布不均衡的多类样本的类内变化时,式(4)比式(3)更加准确,且复杂度也更低。
因此本文利用修订地类内变化函数ICD’来衡量基因的类内变化情况。
4
Computer Engineering and Applications 计算工程与应用
3.3 特征基因选择算法
若基因g 是C 类的特征基因,那么基因g 在C 类与非C 类样本之间的表达水平差异较大,而在C 类中的表达水平波动较小。
因此在衡量基因对某类的鉴别能力时,将基因在类与非类间的差异和基因在类内波动情况结合起来,构成基因对某一类别鉴别能力的特征度量(Feature measure )函数,可表示为
1
()'()'()
c c c FM g BCD g ICD g =+ (5)
将式(2)和式(4)分别代入式(5),可进一步得到特征度量
函数因g 非线性及高维模式识别问题中表现出特有的优势,且分类精度高,抗噪能力强。
因此,它在基因功能预测和基因分类方面得到了广泛的应用。
本文采用了基于Matlab 的
LS-SVMlab [8](Least Squares Support Vector Machines Mat-lab ,LS-SVMlab)工具箱,此工具箱降低了SVM 计算的复杂性,编程简单,可扩展性强。
在构建LS-SVM 模型时,核函数采用了径向基核函数(Radial Basis Function ,RBF)[9]
,
2
2
(,)exp()
i
i x x K x x σ
−=−
(7)
LS-SVM 算法中的正则参数gam 和RBF 核函数参数Sig2
根据训练集的准确率选择最优参数值。
4.2 分类模型评估
分类模型的泛化能力体现了它对测试集的预测能力,因此分类器的泛化性能对于分类模型至关重要。
通常采用k -折交叉验证方法(k -fold Cross Validation ,k -fold CV)和留一法(leave-one-out cross validation ,LOOCV)来评估分类模型的泛化性能[10]。
k -折交叉验证方法就是将样本均分成k 份,轮流选择其中k -1份作为训练集,其余作为测试集,最后将k 次分类准确率的均值作为选择最优模型的依据。
当k 取样本数N 时,就是留一法。
实验证明,5-折或10-折交叉验证法优于SCLC 6 4 2 OA 12 8 4 NOR 17 12 5
总计
203 136 67 5.2 实验结果与分析
本实验将训练样本集的12600个基因的表达代入特征度量函数FM ,并按函数值的大小分别选择分值较大的前100个、50个、28个和27个基因在训练集中的表达值来训练分类器,并采用5-折交叉验证法来评估分类模型。
其实验结果如表2所示。
杨俊丽,刘田福,李祥生:样本类型无关的多类特征基因选择方法 5
表2 Lung Carcinomas 数据集结构
特征基因数
gam Sig2
交叉验证正确率(%)
50 2 40000 100% 30 5 40000 100% 28 100 30000 100% 27 100 30000
96.7%
由表2可知,选取的特征基因数越少,分类正确率越低。
为了选择对样本能够正确分类的最少基因数,根据实验结果选择gam=100,Sig2=30000时,分值较高的前28个基因作为特征基因集。
此时的分类准确率达到100%,说明选择的该28个特征基因已经具备了完整的分类信息。
实验又分别
量完成了对数据集的正确分类,且特征基因数量达到28个后,分类性能更加稳定。
因此,总得来说,对于Lung Carcinomas 数据集FM 方法要优于FSC 、FDR 和SVM-RFE 三种方法。
6 结束语
针对基因表达谱数据的复杂性与多样性,提出了一种与样本类别数、各类中样本数量不均衡以及基因在各类中分布失调均无关的特征基因选择方法。
该方法设计了新的类间差异函数和新的类内波动函数,并利用两个函数的一致性选择 −300.。