lecturenotes-营养基因组学数据库及生物统计和复杂数据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
lecturenotes-营养基因组学数据库及生物统计和复杂数据Lecture Notes
营养基因组学数据库及生物统计和复杂数据分析
张咸宁(细胞生物学与医学遗传学系)
2014/04
一、营养基因组学数据库
1(生物数据库(biobank)指生物样本(特别是DNA样本)的储存库。
2(对营养基因组学而言,营养基因组学数据库可合理地为每一位参与者收集和注释疾病和营养信息,为发现性生物库设计知情同意和程序,指导以遗传学为基础的生物库处理伦理道德规范、经费、知识产权分歧问题,以及挖掘医疗记录的复杂性,确保患者的信心,提供强大的样本处理与追踪及强有力的表型挖掘工具,分析基因型与表型间关系。这对个性化医疗和个性化营养至关重要。
3(将某个个体的基因型与一系列临床及流行病学信息(包括饮食记录及营养相关内容)联系起来,能够为医疗的发现、预测和干预开辟新的道路。
4(典型生物数据库的特征:
• 知情同意与血液样本来自单一点源,尽管知情同意可能是一个多步骤过
程。
• 知情同意使电子病例自动化和持续开发成为可能,包括支付记录及实验室检查结果。
• 数据收集表格来源于样本采集现场,或通过与一部分受试者进一步的联系及辅助研究获得。
• 收集血液样本并提取基因组DNA,再进行存储。
• DNA样本将被用于产生遗传基因信息,这些信息将会以DNA序列、SNP
标记、单体型形式出现,这些信息是生物信息库的组成部分。
• DNA提取过程的质量可被监控。
• 所有的样本处理,调研表格及知情同意表格均给予独立编号,受试者身份要予以保密,可追踪工作流程。
• 所有的试管,包括血液样本管、DNA提取过程所用管、DNA样本管、样
本等分管、存储管都将被编码并进行位置跟踪以方便身份确认、审计跟踪及保证质量。
• 从医疗卫生附属机构电子病历中自动获取临床、饮食的及流行病学相关信息变动。
• 自报信息资料收集表格可能同时包含普及性及临床为基础的信息。
• 受试者的实验室数据的自动获取及整合。
1
• 所有的数据获取将会历经清理和重新确认过程。确认过程排除了健康隐私信息,但将临床、账单、饮食和流行病数据与DNA样本相结合关联。这
些信息将被保留,但已移除健康隐私信息。
• 对重新确认的信息进行关联性研究与分析。
• 依据临床、流行病以及遗传信息选择样本及注释。保留样本注释,如有证据表明某些样本不具备或可能不具备某种条件,这些样本可用作对照。这种样本和注释的选择,其本质是对缺失临床数据的可能性估计。即如果一个特定病例仅有几项临床数据,很难排除该病例未患有某种疾病。相反,倘若支付或电子病历资料显示该个体已接受过初步治疗,且这些资料是若干年前记录的,则缺少诊断资料,表明该对象未患病。
• 一个特定的样本可能会带有其他来自辅助或后续研究的相关信息,这些信息根源都将进行追踪和审核。
• 根据装载条形码或ID号,重新准确确认DNA样品与存储至生物库的基
因型信息的一一对应。为了重新确立对应性,甚至对在生物库内的基因分
型或测序同从工作流水线和审核处而来的样本作相同处理。
• 审查系统中任何数据的获取。
• 系统中任何数据的获取都需安全认证。
• 获取系统中任何数据都需经过注册,获取某一特定数据资料需该个体通过适当的身份认证。
• 系统中的变量都有详细的元数据;这些变量可能来源于公共数据元件、系统限定的标准词汇(如NCI公司词汇系统、NCI caDSR、ICD-10、SNOMED、
HL7)和其他信息或数据交换格式。
• 用疾病本体论注释疾病表现型,并进行相关证据的追踪、审核。
二、营养基因组学中的生物统计和复杂数据分析
1(“组学”技术(“omics”technologies):能同时分析不同种类大分子物质的高通量技术。例如,转录组学检测转录物,蛋白质组学检测各种蛋白,代谢组学检测各种代谢物。
2(系统生物学(systems biology):通过研究某生物系统各个不同部分之间的相互关系和相互作用(例如,与细胞信号传递、代谢通路、细胞器、细胞、生理系统与生物等相关的基因和蛋白网络),期望最终能够建立整个系统的可理解模型的学科。系统生物学是所有“组学”科学的超级数据集。
3(营养基因组学的长远目标是开发出一个高度相互衔接的数据库构成的网络模型。
4(营养基因组学的数据类型:
(1)基因型(SNP、肿瘤基因型)
2
(2)基因表达(组织、血液)
(3)蛋白质组学、SELDI-TOF、MALDI-TOF光谱元件(血液) (4)体液代谢物浓度(5)膳食营养浓度
(5)文本信息(科学文献、因特网、专利、临床研究报告和管理指南)。
5(营养基因组学数据集复杂性的来源:
• 食物多样性。
• 食物选择和食物内所含物质的季节变化。
• 广告、癖好、大众对食物与健康的新闻和研究的反应。
• 食物制备和烹调。
• 遗传背景。
• 疾病的复杂性。
• 社会经济地位、收入、地理环境。
• 文化和宗教背景。
• 年龄和健康状态。
• 运动和生活方式。
• 健康监护的途径。
3