史丹福微阵列数据库 (SMD) 存有来自微阵列实验的原始的正规
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
史丹福微阵列数据库
生命科学院2002级生物技术孙广雷 021402172
一、摘要
史丹福微阵列数据库(SMD)存有来自微阵列实验的原始的正规化数据,同时它也为研究员提供网络接口来取回数据,分析数据,使数据可视化。
史丹福微阵列数据库眼前有两个目标,一是作为斯坦福大学正在研究中得出的微阵列数据的一个储藏位置,第二就是来推动曾经被出版或被研究人员公开发布的数据的公开传播。
更为重要的是它有属于在微阵列上被存放的DNA的生物学的数据和微阵列数据的连接(基因,及其他复制)。
史丹福微阵列数据库(SMD)利用许多公众的资源连接来传达一些相关生物学的信息及资料。
二、介绍
微阵列实验通常被运行实施在基因组衡量尺度上的基因表达或DNA副本数字。
典型地数千DNA取样被放在载玻片上,同时在实验取样中的,被标记了的cDNA 和基因组DNA,被选择性的进行杂交编排。
然后载玻片上的图像被获得并且处理生成一个包含用数十个点来代表成千上万个数据点的数据文件。
虽然每个点突出的数据是那些实验的样品和控制样品之间的比,但是其他数值可能被用作滤除的标准来决定哪一些数据是可靠的。
因此,对每个点的全面分析需要用到对每个点所有数据的存取。
一个20000个点的单一微阵列可能在百万条数据的次序和实验的系列中产生,可能因此产生超过五千万个数据点。
史丹福微阵列数据库(SMD)的一个主要的目标要组织这笔巨大量的数据,使一个研究员能够过滤掉他们不需要的数据,而只取回那些他或她研究所需要的那部分数据, 然后在那一笔数据上进行分析和研究。
三、落实
史丹福微阵列数据库(SMD)中的数据在英特网上是通过一个网络浏览器来进行存取的,没有对特别的软件客户计算机上的装置的需要。
更新运行在服务器上的软件,数据就可以自动映射到所有的客户使用端。
几个特征要求比较新近,使浏览器的Java脚本能够低些,多站台能不费事的访问SMD。
虽然一些特征确实需要最快更新,但是JavaScript使浏览器能够实现这样的功能,多种操作系统平台(MacOS,UNIX和窗口95/98/2000)均能够没有困难的存取SMD中的数据。
SMD涉及到需要一个主服务器来运行Solaris操作系统,并且使用Oracle8作为数据库管理系统。
手写体可以运用Perl程序语言, 连同允许将手写体连接到数据库的DBI组,CGI组件和GD组件来加以实现。
对于改良的性能,一些复杂的对处理器的使用较多的任务(举例来说,高清图像的处理)在C语言的程序编排中被加以实现。
所有的被SMD使用的原始码都可以被理论研究员自由使用,因此他们可以利用SMD的模型来创建自己想要的数据库。
由于SMD使用Oracle来作为它的数据库管理系统,它可以作为一个表示关系的数据库被加以实现,关于这部分的制表说明书可以在下列地址中查看:
/MicroArray/SMD/doc/db_specifications. html.
四、数据载入
SMD的载入程序允许史丹福使用者将他们的实验数据通过网络的形式载入数据库内,叙述记载他们的实验数据和图像文件的位置。
使用者也可以自己装载实验或通过一个程序,将花费在数据载入中的时间减到最少。
数据库接受由GenePix 和Scanalyze产生的数据,其载入由一个存储系统来加以实现, 该系统允许使用者监测他们的实验载入的进程,并且提供先进的和健康的恢复程序以防某个突然问题在数据载入期间发生,所导致的数据丢失。
原先的16位TIFF图像被归档。
除此之外,在载入期间,一个GIF图像是由两个TIFF图像产生的。
这个GIF图像被储存在文件系统上,而且允许使用者可见并估定他们的最初数据。
数据标准化在载入期间被执行,同时被标准化了的数据和最初的数据都被储存了下来。
五、数据的处理及编辑
数据和一同被载入数据库的实验资料均不是静态的,但是稍后被实验的拥有者修正后的数据却可能是静态的。
实验拥有者可能会选择修正或增加任何一个描述所需问题类型的联合实验数据(如实验名字,频道描述,种类,次范畴和实验描述)。
除此之外,实验拥有者可能会通过代理GIF图像的形式,视觉上检查他们的数据,然后基于点是否看起来包含可靠信息,或者视觉上依据一些滤除标准来决定标记或者不标记他们的数据。
用户可能会用两种自动化方法中的一种或者输入他们自己的标准化要素来使他们的数据规范化。
标准化后的数据将会被再计算,并且新的结果被存储在数据库中。
如果有与微阵列输出一起的系统问题出现(例如一些克隆过程中出现的PCR失败,或者一些克隆实验发现被污染)。
用到微阵列输出的所有实验均被自动地更新,映射到现在的数据当中。
六、对基因协会的地点
SMD正面临着其中的一个更大但是更为重要的挑战,那就是研究个别的点在一个阵列上的知名生物学信息协会。
既然微阵列数据不能够在缺乏生物学背景的情况下被深刻地分析,我们的努力一大部分被用于把微阵列数据与可提供的最新的生物学的注释联系起来。
SMD目前包含来自8个生物体系列的DNA结果,因此使用几种资源获得关于每个DNA样点的生物学信息是必要的。
对于系统化排序了的塞里维辛酵母的ORFs,SMD存储了其基因的名字,生物学方法以及来自酵母基因数据库(SGD)的分子功能。
并且当SGD它本身被更新的时候,这些数据也将随之被自动地更新。
对于Caenorhabditis elegans ORFs,SMD使用由Proteome 提供,并作为他们的WormPD数据库的一部分的标题行,SMD使用由提供作为他们WormPD数据库的部分的Proteome的标题产品,那个是组织好的信息。
对人和老鼠的克隆来说,在EST和一种基因之间的结合经常被确定,也可能改变。
因此SMD把人和老鼠的单基因储存在数据库里一个表示关系的格式中,并且在单基因构造确立的时候更新这个数据。
通过储存增加许多已经被排列的克隆基因资料的编号,SMD能通过单基因把一个克隆和它最新的基因任务连结起来。
因此当用户恢复或者分析数据时,他们总是能在它的最新的生物学的上下文里看见它。
SMD 也给外部数据库提供超链路,在那里用户能查看他们所关心的基因或者克隆的额外信息。
七、SDM数据库的检索
使存储在SDM中的大量实验数据简单化是很必要的,通过直观界面可以使用户缩减他们正在处理的实验任务。
对于每次实验,SMD都会记录研究员的名字,一个种类,描述实验的生物学的性质和范畴,以及在微阵列上被视为生物DNA
来源的有机组织。
这些标准中的每一个都可能同时被质疑,这将会为随后的检查或者分析缩减实验的数量。
研究员也可以限制基于一组微阵列构造过程中的输出运行方面的兴趣实验。
在选择搜寻标准之后,一个研究人员可能选择是否分别看阵列,或者是否结合所选的阵列结果进行取回或者分析。
当分别检查阵列时,SMD给研究人员提供几种选择。
一个研究人员可以把个别的阵列的全部数据下载到一台本地计算机上,可以在线调查数据,也可以根据各种不同的标准来进行分类或者滤除。
另外,用户可以看到代理GIF图像以便评价在数据获得期间所用到的表格的布置安排,并且可以选择改变任何点的标记状况。
因为GIF是一张可点击的图像地图,用户可以浏览个别的点,观看在扫描期间获得的数据以及相关生物学的信息。
为了综合分析微阵列数据,很多微阵列的结果通常被结合起来。
当同时从多个阵列取回数据的时候,用户可以在取回过程中用几种滤除法则去掉一部分数据,并且选择在数据上连接什么生物学注释。
筛选滤除可能通过改变点的组成要素(例如,最小量信号强度,或者标记状态,或者按照球化原则。
例如只取回表示随一定数量而变化的基因的数据)应用在某一个点上。
被点筛选滤除后的点数据也能被结合起来用于布尔,加或者乘等运算,因此一个研究人员可能会请求数据,例如,从标准化比率>2的点那里查找数据(第1频道强度>150或者第2 频道强度>150)。
在数据取回之后,数据可能会是预处理过的,举例来说,数据可能是被改变的木材,或者一次数学运算,例如通过为基因数据做计算的中值表达式,来为每个基因或者实验确定核心数据。
一个文件然后被生成,用户可以下载到他们的本地计算机上进行分析,或者用户也可以继续在线的分析研究。
现在SMD提供在线的分级组件和自我组织地图。
它使用的是XCluster,将来SMD还会支持k-方法组件,和单一数值查找微阵列数据样式的使用。
此外,这些分析的比较工具的方法正在被改进,来让研究人员更好的理解用不同方法进行分析过程中的相同点和不同点。
经过数据分析以后,与TreeView相关的文件可能被下载,或者结果可能被在线观看。
在线的批量数据的浏览被可点击的地图,ORF名字检索,在基因或者实验之间的相互关系连接的展示,以及外部生物学的数据库的连接所简化。
因此,在运行中的典型分析期间,用户将首先选择他们感兴趣的实验,然后选择他们想要使用的过滤标准来取回那些实验的中的数据,以及他们预处理过程中的结果数据。
最后他们可以选择成批的结果文件,在他们的WEB浏览器中使大量的数据可视化,同时借由生物学的数据来帮助他们解释其中的表达式。
八、作为生物学社区的一种资源的SMD
由微阵列实验所产生的大量数据也为结果的公开发布造成了一种挑战。
为了向感兴趣的研究人员充分的发布数据,当前许多关于微阵列结果的出版物需要补充Web网页。
此外,可供人们利用的大多数详细数据和工具都是为了科学公社的利益。
因此SMD正在努力提供一个公众的接口向生物学社区释放数据。
目的是当出版时,或者根据实验拥有人的意见,数据将被作为公众可看的。
出版的数据将被组织进可以进行在线分析或者下载的curated数据集。
科学团体将能通过他们的所关心的标准,它是否是生物体,通过出版,或者通过实验的种类搜寻并且分
析实验。
除此之外,在与Arabidopsis Functional Genomics集团的合作方面,用于微阵列实验的设备将被提供。
然而,SMD是不会作为数据的公共储藏室的,而是将利用可用的资源代码使其他的协会通过SMD的模型,来建立他们自己的微阵列数据库。
只要微阵列社区在斯坦福大学支持并且使用它,SMD将会被支持。
九、SDM的未来
一旦SMD已经达到它的可供本地和公众研究人员使用、分析、恢复微阵列数据的当前目标,它将开始更多的长期的目标。
实验本身的注释是至关重要的。
目前只有极少量的信息被每个实验所储存。
将来我们希望允许研究人员可以储存和重做他们的实验所需的一样多的信息。
虽然这些数据的贮存对于除了实验者自己以外其他人来说毫无价值,但是它的录入不应该给研究人员带来太繁重的负担。
第二个目标就是实现一种灵活的方法,这种方法可以将分析的结果也储存在数据库内。
为了更为实用,这个系统将有必要捕获在数据分析过程中所用到的各种各样的标准及参数——本质上数据库将储存以电脑为基础的实验的结果,这些实验,不包括微阵列,并且在重复实验方面有充分的资料。
最后,和与前两个将来的目标密切相关的是,对于数据交换形式的支持,它将会允许研究员随意,轻松地交换微阵列数据。
SMD打算支持并且帮助确定被阵列XML工作组讨论的形式(/).。