第1讲 什么是生物信息学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学
什么是生物信息学?
什么是生物信息学
●生物信息学要做什么?
●生物信息学有什么用?
●生物信息学的研究方法与框架
图片来源/wiki/File:Hospital_newborn_by_Bonnie_Gruenberg2.jpg
图片来源
/dtmcms/live/
webmd/consumer_assets/site_imag es/media/medical/hw/n5551221.jpg 卵
精子
卵
基因组:“生命之书”
精子
线粒体/核外DNA
表观遗传
环境因素
随机性/“运气”
人类基因组包含30亿碱基对
其中约3%编码蛋白质
其余97%长期以来被当作“垃圾”(junk) 其实,它们包含有控制基因何时、何地、以何种方式表达指令的调控元件
引自/wiki/File:Simplified_tree.png
这本书要怎么读?
以每行100个碱基、每页50行的格式打印出来需要600 000页纸, 累计60米
每秒钟读一个碱基,需要100年
1015bp,165 000种测序物种!
累计需要30 000 000年!
Genbank 1982—2010: 数据量20个月翻一番
log 2(bp) = -1.2×103 + 0.59y R 2 = 0.97, p < 2.2×10-16
碱基对数量/109 年
碱基对数量/1012 年
新一代测序技术带来基因组数据的爆炸性指数增长
摩尔定律! 从量变到质变 log 2(bp) = -1.4×10-3 + 1.95 y R 2 = 0.91, p < 2.2×10-16
数据量每半年翻一番
(数据来源: NCBI SRA, ENCODE 及 TCGA)
遗传
变异
数据
错误
生物大数据:挑战与机遇 生物大数据……
•数据量大
•增长速度快
•异构性
•多尺度
•高噪声
(来源: NCBI) 序列数量/106
D N A 碱基对数量/109 碱基对数量 序列数量 ……需要新技术、新方法、新思路! •有效 存储
检索
分析
挖掘
•从数据→信息→知识
生物信息学 Bioinformatics 生命科学 计算与 信息科学
生物学
医学化学
化学信息学医学信息学
生物信息学
数学物理学
计算机科学统计学
✓开发新技术生物信息学
Bioinformatics
✓发现新现象
✓总结新规律探索、回答生命科学问题