基因组文章构成分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

GA IIx
Status of Se百度文库uenced Plant genome up to now
基因组从头测序线路图
待测序物种 生物学特征 遗传基础 进化地位
测序方 案制定
序列拼 接评价
文章价 值评估构 思和写作
延伸研究
序列分析
序列发布
基本运算流程的开发和固定
流程开发方式: 广泛调研,集思广益,以完成项目为先期目标(不完美但实用) 基础软件的选择: 最权威(引用)作者,横向比较文章,最经典文章,自行横向比较,公共论坛 固定流程要求: 尽量自动化,傻瓜也能用,包含精炼的输入输出样式; 基础软件版本信息,详细使用说明(使用流程的数据前提); 结果说明,可能出错的检查点是什么;内置评估脚本或策略说明 数据分析要求: 与统计检验和生物学问题紧密结合, 一站式解决问题,方便文章写作; 详尽动态可追溯数据库; 相关专业杂志浏览,相关文章或信息公开制度 常用数据库列表及其更新检测制度
新物种基因组测序策略 及基因组文章构成分析
中国科学院北京基因组研究所 胡松年
为什么要进行新物种的基因组测序?
物种重要性及其测序必要性
模式生物;病原性;经济性状;进化地位
1.基因组测序,需利用拼接,基因组注释(RNA,蛋白质和重复序列等); 2.关键性状的遗传因素 (功能基因组学确定性状决定的基因或基因群); 3.比较基因组学分析--------进化地位,性状产生和进化的基因组线索等 GC含量和组成 基 因 和 性 状 关 联 信 息 库 重复序列类型和分布 基因结构和染色体分布 基因有无和数目 结构域数目和组成 比 较 基 因 组 学 分 析
Species specific pathway and function
Species specific analysis, examples
• • • • • • Host-parasite interaction Drug target development Metabolism deficiency Nutrients intake complementation Digestive system features …
Zhang Xiaowei
All software for sequence assembly
Genome validation using BAC and fosmids
BAC Number Total length (bp) Matched (%) Unique aligned (%) Repeat aligned (%) Maximum Aligned in single scaffolds (%) 10 1,276,062 1,257,235 (98.52%) 1,007,504 (78.95%) 249,731 (19.57%) 1,190,835 (93.32%) Fosmid 6 217,445 209,809 (96.49%) 73,759 (33.92%) 136,050 (62.57%) 110,797 (50.95%)
90.50 9.64 256.7 26.69 5
LEA family
LEA_5 Dehydrin LEA_4 LEA_1 LEA_6 LEA_2 LEA_3
SMP
Gene expression of LEA
Expansion of LEA family
Overview of fruit transcriptomic data
Genome size estimation
• Flow cytometric analysis • Kmer-distribution
Rice genome assembly pipeline
Assembly strategy
Data acquired from hybrid sequencing technology
Next Generation Sequencing and Assembly
• Platforms and strategies: NGS -- SOLiD, Illumina and Roche; WGS – whole genome shotgun;
454 GS FLX
SOLiD 4.0
Recent de novo assemblies
LEA family Dehydri n LEA_1 P. Exo dactylifer n a 2.00 2.00 3 3 O.sati A.thalia va na 4 4 3 3 Size 171 MW(K Da) 18.86 Top4 AA(%) E(15.47)/G(14.78)/K(14.14.7 6)/H(9.37) A(17.55)/E(11.83)/K(11.38)/T (8.06) L(9.57)/V(9.03)/A(8.36)/S(8. 35) A(19.26)/S(12.12)/R(10.32)/L (7.24) E(19.03)/A(15.86)/K(15.43)/ G(8.46) G(16.54)/E(15.40)/R(10.82)/ A(8.60) G(13.81)/E(8.86)/T(8.85)/P(8. 30) A(17.36)/G(9.72)/V(9.54)/R(8 .31)
专业
常用软件列表及其更新检测制度
Outline
• • • • Species survey Sequencing platforms and strategies Assembly, error check and heterzygosity Basic genome organization (GC% and repeats) • Gene prediction and function annotation • Gene expansion and contraction • Species specific analysis
测序物种
近缘或性状 相关物种
基因家族数目和组成
代谢途径有无和冗余性 调控基因类型和复杂度
高通量测序时代全基因组测序发展方向
• 发展针对不同特征的基因组测序策略;
• 经济或病原物种,自成模式生物,基因组 数据作为研究基础,如利用功能基因组学 手段大规模发现基因-表型关联;
• 针对科学问题,假说优先,如直立人 基因组测序计划
Repetitive sequences
Gene function comparison
Orthologues evolution and conservation
Gene tree analysis of gene expansions
Comparison of orthologous protein families among nematodes that span the phylum.
Genome paper organization
• Species introduction: Importance; Evolutionary status; Life cycle and development; Harmfulness.
Pipeline for potato genome and comparative studies
CAS-KACST Roche/454 Date Palm assembled cDNAs: >100bp 67867 102,241,549 57899 >200bp 67642 102201947 57757 >500bp 62451 100112022 53676 >1000bp 41824 84967502 35871 Qatar Solexa Date Palm assembled cDNAs: >100bp 28889 30553282 24357 >200bp 28664 30512558 24177 >500bp 22344 28140076 19191 >1000bp 11730 20391890 10236 CNRS Date Palm cDNAs: >100bp 37048 37848924 28704 >200bp 37048 37845043 28691 >500bp 34615 36790333 26814 >1000bp 14039 21581452 10874
• Checking assembly results: Long and short reads confirmation
Gene prediction
MicroRNA and SnoRNA Prediction
• 102 date palm microRNAs (miRNAs) from 49 families, 580 genes targeted by 90 miRNAs were identified
BACs
Fosmids
Assembly Validation by cDNA Dataset
Dataset Number Total length (bp) >90% of sequence covered >50% of sequence covered by one scaffold by one scaffold Number Percent 85.3% 85.4% 85.9% 85.8% 84.3% 84.3% 85.9% 87.3% 77.5% 77.4% 77.5% 77.5% Number 65328 65141 60432 40741 26236 26047 20707 11012 35714 35690 33357 13545 Percent 96.3% 96.3% 96.8% 97.4% 90.8% 90.9% 92.7% 93.9% 96.4% 96.3% 96.4% 96.5%
heterozygosity : 454 contigs coverage
Unique coverage heterozygosity
Multiply coverage
104212972*0.5 + 438982154 + 171206668 = 662.30 Mb.
Genome heterozygosity
Tissue 0DPP 15DPP 45DPP 75DPP 105DPP Total reads 76,515,395 83,950,995 77,132,786 74,369,980 71,372,371 Mapped reads 53,825,507 59,009,944 53,999,668 55,665,445 52,916,490
• 44 box H/ACA snoRNA genes (Table S6) and 65 box C/D snoRNA genes
SSR identification
n=6-11 % GC Mononuclieotides Dinuclieotids Trinuclieotides Tetranulieotides All periods 7.88 33.25 35.67 21.30 % dataset 1.76 0.14 0.04 0.01 1.94 % GC 13.23 30.23 13.18 27.57 n>11 % dataset 0.09 0.11 0.01 0.00 0.21
LEA_2
LEA_3 LEA_4
1.62
2.00 3.00
59
5 1
5
6 2
4
18 2
155.3 16.66 3 237.3 26.06 8 96.6 10.12
473.0 51.63 0
LEA_5
LEA_6 SMP Total
1.00
1.00 2.75
2
2 4 79
0
8 5 34
0
10 6 51
87.50 9.46
Summary for the castor bean genome
Cocoa and Strawberry genome and comparing to others
Statics for Cucumis sativus genome
LEA familyFound in Date Palm Genome
相关文档
最新文档