人类SNP数据库系统的构建与应用研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人类SNP数据库系统的构建与应用研究
马彪;吴东月;高强
【摘要】Along with the development of the human genome sequencing technology, Single Nucleotide Polymorphism (SNP) has become a key aspect of genetics research. Research institutes have accumulated mass scientific data in these researches and implement of data sharing will promote the development of our researches in this area. The goal of the project is to construct a local SNP database HuSNP based on SQL Server. The main work includes SNP data collection, database design and data storage. The data were collected from GenBank and the downloaded data were shifted into local database for further research. SNP data can be retrieved quickly by the HuSNP database ,it provides a basic service platform for sharing human SNP data.%随着人类基因测序技术的快速发展,单核苷酸多态性(SNP)[1]在遗传学研究中发挥着重要作用。
研究机构在这一研究领域积累了大量的实验数据,如何从海量数据中获取有用信息并实现数据共享是目前亟待解决的问题。
本文的目标是构建一个基于SQL Server的二级生物信息学数据库[2]HuSNP,主要工作包括SNP数据收集、数据库设计和数据存储。
SNP 数据全部来源于NCBI的GenBank,下载的原始数据全部转存到本地数据库中。
通过本数据库能够快速检索SNP数据,为人类SNP数据的共享提供了基础的信息服务平台。
【期刊名称】《仪器仪表用户》
【年(卷),期】2016(023)006
【总页数】3页(P31-33)
【关键词】生物信息学;单核苷酸多态性;数据库;HuSNP
【作者】马彪;吴东月;高强
【作者单位】天津理工大学自动化学院,天津300384;天津理工大学自动化学院,天津 300384;天津理工大学自动化学院,天津 300384
【正文语种】中文
【中图分类】TP392
生物信息学数据库数量近年来呈爆炸式增长,数据结构日趋复杂,特定数据库系统的构建有利于自主软件的开发。
本系统在win7操作系统下,运用SQL Server 2008构建本地SNP数据库,并采用JSP技术开发了基于WEB的可视化操作界面,具有界面友好、操作简单的优点,有助于实验室及计算机经验欠缺的科研人员在该领域做进一步的研究。
随着近年来高通量技术和基因测序技术的快速发展,人类获得的基因数据呈爆炸式增长,用于管理和挖掘海量数据的生物学数据库也在飞速增加,如何管理、分析和处理海量生物数据并从中挖掘所需信息是当前面临的主要问题。
在互联网技术和计算机技术的大力推动下,生物信息学[3]作为一门新型的交叉学科由此产生。
生物信息学的研究是以生物数据为基础,因此生物数据库的建设是一切生物信息学研究工作的前提。
一级数据库是生物信息学最重要也是最基本的数据资源;二级数据库通常是对一级数据库的数据信息进行整理加工得到,满足特定领域的研究需求。
单核苷酸多态性(SNP)是基因水平上个体的染色体上单个碱基的转换、插入或
者缺失等情况引起的DNA序列多态性。
人类不同个体之间基因序列的差异很小,但在一些碱基上存在不同,这些碱基上的差异形成了人类性状的不同和患病的可能。
研究表明,SNP位点中所包含的遗传信息对一些遗传疾病的致病因子[4]起着关键
作用,因此SNP的研究对未来疾病的治疗、预防和诊断具有重要意义。
随着人类基因组计划的推进,海量生物数据呈现在世人面前,国内外在生物数据库上的研究正在飞速发展。
欧美等发达国家起步较早,在生物数据库建设领域一直走在世界前沿。
美国于20
世纪80年代初建立了GenBank[5]数据库,该数据库收集了公开获得的DNA序
列和注释,数据容量呈指数形式增长,基因碱基数每14个月翻一番。
欧洲分子生物学实验室于1982年创立EMBL并提供服务,该数据库是欧洲主要的核苷酸序
列收集单位,它所保存的数据信息量是已发表科学文献上数据量的两倍。
另外,日本也于1984年创建了DDBJ,是世界3大数据库之一。
GenBank、EMBL和DDBJ是目前国际上应用最为广泛的3大核酸数据库,3个数据中心通过每天进行数据交换来保持3个数据库的序列信息一致。
中国于1993年开始参与人类基因组计划,由于技术和人才相对匮乏,在基因测序方面研究水平远落后于发达国家。
虽然我国在生物信息学数据库建设领域起步较晚,但在基因组数据采集和信息共享方面也有了一定的成果。
近年来相继成立了北大生物信息学中心、华大基因信息研究中心、中国科学院上海生命科学院生物信息中心,且在各自领域取得了一定成绩。
我国生物数据库起步较晚,自主研发构建的数据库数量不多且大多数据不够完善。
因此,根据需求有针对地构建本地二级SNP数据库有助于数据存取方便,对未来
生物信息学算法和生物信息学软件的研发也具有重要意义。
本文前期重点是人类SNP数据库的构建,搜集并下载SNP数据,建立可在线访
问的SNP数据分析平台[6],为数据查询提供便利。
本课题的工作流程如图1所示。
本文主要介绍了工作流程的前3部分,其中本地二级数据库HuSNP的构建主要工作包括SNP数据采集[7]、数据库设计和数据存储[8],其中数据库设计即设计优
化的数据库的逻辑结构和物理结构,满足有效地存储、管理和利用数据的需求。
数据库的设计步骤如图2所示。
3.1 HuSNP的开发与运行环境
为更好地实现系统功能并结合实验室实际情况,数据库HuSNP开发与运行的软件环境如下。
操作系统:Windows 7。
数据库:SQL Server 2008在系统高可用性、稳定性和可靠性等方面都有了较好
地提高和改进,可以满足不同层次用户从基础数据管理到数据挖掘、数据分析等应用需求,鉴于以上优点,选择SQL Server2008作为本课题的数据库管理系统。
3.2 数据库设计
本地数据库名称为HuSNP,创建数据库可以使用SQL语句,也可以使用SQL Server管理工具。
根据人类SNP的特点及数据完整性、易于检索等方面考虑,HuSNP的数据表分
为SNP数据表、文献表、特性列表以及序列表,且每张表单位编号设为主关键字[10],其他常用字段设为关键字。
3.3 数据采集与数据存储
本地SNP数据库数据下载自NCBI下的数据库(http//
/snp/),图3显示的是dbsnp提供的部分人类SNP数据。
数据下载解压后,个别文件数据量太大,常规方法很难导入数据库,所以使用系统自带的命令行工具BCP实现数据的快速导入。
以导入数据文件batch.bcp进入数据库SNP_DATABASE中的batch数据表为例:
进入win7命令行,录入如下命令“bcp SNP_DATABASE.. batch in E:
/snpdata/batch.bcp”,
手动选择字段的文件存储类型、字段的前缀长度以及字段终止符,选用TAB键做
字段的终止符号。
3.4 HuSNP数据库系统的功能模块
本系统主要分为用户查询和数据库管理两大模块。
用户查询模块主要功能有SNP检索与网上资源查询;数据库管理模块主要功能有数据下载、数据上传与数据维护,其中数据维护包括数据修改、数据删除、数据备份与恢复等功能。
系统功能结构图如图4所示。
本平台为B/S架构,采用JSP技术,程序代码用JAVA编写,并且JSP使用JDBC 提供的API与数据库进行链接,支持SQL语句对数据库的各种操作。
前端页面主要介绍了HuSNP数据分析平台信息以及实验室团队情况,用户可以通过WEB浏览器在线访问数据库,查询SNP数据,同时可以浏览网上公共数据库资源。
数据库系统WEB界面如图5所示。
登录网站主页面,点击HuSNP数据库,下拉菜单包括数据字典和数据库表,数据库表有SNP数据表、文献表、特性列表以及序列表;点击SNP检索,进入数据查询界面,输入序列ID可得到所查询序列具体信息;网上资源涵盖了NCBI、Ensembl等主流生物数据库的资源链接,方便使用者查询使用。
本课题通过下载整合NCBI的SNP数据,基于SQL Server2008构建了本地SNP 数据库HuSNP,能够实现数据的增、删、改、查。
HuSNP数据库构建成本低,操作和维护简单,为研究SNP和分析生物数据提供便利,同时可视化的操作界面还有助于系统管理员方便地维护数据库,用户使用更加方便。
然而不足的是数据库系统响应时间较长,查询速度未能达到预期要求,因此对应用程序优化、内存优化、I/O优化等问题应做进一步的研究。
【相关文献】
[1]Han A, Kang HJ, Cho Y, Lee S, Kim YJ, Gong S: SNP@Domain:a web resource of single nucleotide polymorphisms (SNPs) within protein domain structures and sequences [J]. Nucleic Acids Res 2006:W642-644.
[2]Becker KG, Barnes KC, Bright TJ, Wang SA: The genetic association database [J]. Nat Genet 2004, 36(5):431-432.
[3]Young Uk Kim1,, Young Jin Kim Jong-Young Lee2 Kiejung Park: EvoSNP-DB: A database of genetic diversity in East Asian populations [J]. BMB Rep. 2013; 46(8): 416-421.
[4]Fernandez-Suarez XM, Rigden DJ, Galperin MY. The 2014 Nucleic Acids Research Database Issue and an updated NAR online Molecular Biology Database Collection [J]. Nucleic Acids Res 2014;42:D1–6.
[5]Sherry ST, Ward MH, Kholodov M, Baker J, Phan L, Smigielski EM, et al. DbSNP: the NCBI database of genetic variation [J].Nucleic Acids Res 2001;29:308–11.
[6]Mathelier A, Zhao X, Zhang AW, Parcy F, Worsley-Hunt R, Arenillas DJ, et al. JASPAR 2014: an extensively expanded and updated open-access database of transcription factor binding profiles [J].Nucleic Acids Res 2014;42:D142–7.
[7]Elizabeth M. Smigielski, Karl Sirotkin, Stephen T. Sherry. dbSNP:a database of single nucleotide polymorphisms [J]. Nucleic Acids Res.2000 Jan1;28(1):352-355.
[8]汪列.人类基因组SNP数据库的数据整合[D].上海:上海交通大学,2005.
[9]Duan Q1, Liu EY, Croteau-Chonka DC, Mohlke KL, Li Y. A comprehensive SNP and indel imputability database.Bioinformatics. 2013 Feb 15;29(4):528-31.
[10]Iida A1, Saito S, Sekine A, Takahashi A, Kamatani N, Nakamura Y.Japanese single nucleotide polymorphism database for 267 possible drug-related genes.Cancer Sci. 2006 Jan;97(1):16-24.。