数据挖掘技术在DNA数据分析中的应用.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

156

数据挖掘技术在DNA 数据分析中的应用

戴银春

130022长春市口腔医院

摘要通过使用数据挖掘技术对已经被提取和记录的多个基因片段进行修整、比较、分析、寻找某个(多个突变位置,并确定该突变位置与其所有者身患的疾病之间的关系。

关键词数据挖掘基因序列生物信息学遗传疾病患病家族连锁分析do:i 10.3969/.j issn .1007-614x .2011.03.155

在生物信息学的成果的理论基础之上,通过统计的方法查找未知的生物化学功能的疾病基因的位置。这个方法预先通过患病家族连锁分析,再推断包含这些基因的染色体区域片段,然后检查该区域来寻找基因[1]。

数据挖掘在DNA 数据分析的发展状况

现今所采用的是分子生物学与微电子技术相结合的核酸分析检测技术[2]。DNA 芯片技术的基本原理是将c DNA 或寡核昔酸探针以105~106位点/c m 2的密度结合在固相支持物(即芯片上,每个位点上的cDNA 或寡核昔酸探针的顺序是已知的,将该探针与荧光标记的待测样品DNA,RNA 或cDNA 在芯片上进行杂交,然后用激光共聚焦显微镜对芯片进行扫描,并配合计算机系统对杂交信号做出比较和检测,从而迅速得出所需的信息。

基因数据挖掘常用的方法: 核酸与蛋白质比较的预测分析:蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和pro file ,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。针对核酸序列的预测方法:针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA 序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA 片段的假想产物与某个已知的蛋白质或其他基因的产物具有较高序列相似性的话,那么这个DNA 片段就非常可能属于外显子片段;在一段DNA 序列上出现统计上的规律性,即所谓的密码子偏好性 ,也是说明这段DNA 是蛋白质编码区的有力证据;其他的证据包括与模板序列的模式相匹配、简单序列模式如TATA Box 等相匹配等。

案例分析

疾病是由于基因的片段内的某个位置存在或发生改变而引起的,也就是发生突变。能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对基因的数据挖掘,就是对这些突变位置的寻找,并且找出该位置与所有者身患的疾病之间的关系。

方法的选择:笔者在设计中选用单纯的DNA 序列进行比较,基因在计算机的表示和存储时,可以使用一条很长的字符串来表示基因的某一条序列,使用文件的形式进行对基因工作者的提取成果创建一级数据库,使用文件修整的方法进行数据的清洗,以满足数据在二级数据库中的一致性。同时在文件比较过程中,生成某两个数据文件的差异状况,保存在二级数

据库库中,进一步的操作是对差异的位置的某个类型所占的比例。最后通过事先的对患者患病信息的统计得到的某种疾病在群中所占的比例,与其相比较,如果这两个比例相等,则可以认为这个位置的某个类型引起疾病的发生。从医学院得到一些基因片段文件信息和患者(所有者患病情况。

系统的实现:基因片段在计算机中以文件形式存储,用文件名标识其所有者(源体。片段起始地址和长度信息和所有患者患病情况保存在本机数据库中。在程序测试过程中,将片段复制成40份,对其中部分文件的序列进行稍作修改,对所有患者的患病状况进行稍作修改,以创造测试环境。显示在与基因数据挖掘软件同在一根目录下的序列文件的集合。

其中一个文件所存储的基因信息,见图1。

启动统计程序界面,单击清空数据库中的临时用表数据,将数据库中有可能的杂音信息去掉。并对其中的所有文件进行统计前片段剪切,使所有片段的起始地址和长度都相同,避免发生序列移位。

没有进行片段剪切之前,浏览文件所存的片段信息,片段剪切完成之后,设置进行比较操作的甲、乙组的文件添加,因为本次测试只检验片段中的一块区域(文件中片段的所有信息,所以在起始序号那里添加为0,终止序号那里添加为175。这样则可以保证统计文件的所有信息都被统计。

单击结果显示按钮,可以见到程序以表格和条形图标方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的条形段较高。说明在这些接受统

图1 文件内序列信息

157

结肠癌术前行CT 检查的价值

张巍

021000内蒙古呼伦贝尔市海拉尔区人民医院CT 室

摘要目的:探究结肠癌患者术前行CT 检查的临床价值。方法:从近3年术前行CT 检查的结肠癌患者中选取20例进行影像学分析及分期统计。结果:按照CT 分期, 期5例、期7例、 a 期3例、 b 期2例、期3例。结论:结肠癌患者术前行CT 检查对临床了解肿瘤肠管外浸润程度及有无淋巴结转移或肝、肾上腺等远处转移,从而制定适当的手术方案有着重要的价值。

关键词结肠癌术前 CT 检查do:i 10.3969/.j issn .1007-614x .2011.03.156

结肠癌是肠道常见恶性肿瘤之一,其发病率正呈逐年上升趋势。临床多采用手术切除治疗。近年来,随着CT 设备的完善及合理使用,肠壁软组织块影显示十分清楚,与周围结构关系一目了然,故临床于术前均行腹、盆部CT 扫描作术前评估。笔者从近3年我院结肠癌患者行术前CT 检查的影像资料中选取了具有代表性的20例进行分析,以探究术前行CT 扫描的必要性及临床价值,现报告如下。资料与方法

一般资料:选取结肠癌患者20例中,男12例,女8例;年龄46~68,平均57 6岁;均为经结肠镜活检病理证实后准备手术冶疗者。临床为作术前评估而行CT 扫描。

方法:患者于检查前1小时给水500m l 以使膀胱充盈。扫描前30~45分钟口服

1%造影剂复方泛影葡胺400~600m l 。病变部位位于降结肠及乙状结肠的患者于检查前1天晚上服用500m l 1%复方泛影葡胺,以使远端结肠充盈。扫描时常规采用仰卧位,扫描范围为膈顶至肛门。

相关文档
最新文档