重复序列分析文档
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 重复序列分析
重复序列广泛存在于真核生物基因组中,这些重复序列或集中成簇,或分散在基因之间,根据分布把重复序列分为分散重复序列和串联重复序列。
分散重复序列分为四种:LTR、LINE、SINE、和DNA转座子、
LTR,长末端重复转座子(long terminal repeat),是由RNA反转录而成的元件,它在两端有长大数百碱基对的LTR。Length: 1.5-10kbp Encode reverse transcriptase Flanked by 300-1000bps terminal repeats
LINE,长散在重复序列(long interspersed nuclear elements),意为散在分布的长细胞核因子,是散在分布在哺乳动物基因组中的一类重复,这种重复序列比较长,平均长度大于1000bp,平均间隔3500-5000bp,如:rRNA,tRNA基因,形成基因家族。
SINE 为短散在重复序列(short interspersed nuclear elements)。SINE是非自主转座的反转录转座子,来源于RNA聚合酶III的转录物,它的平均长度约为300bp,平均间隔1000bp,如:Alu家族,Hinf家族序列。
DNA 转座子: single intron-less open reading frame Encode transposase Two short inverted repeat sequences flanking the reading frame。
串联重复序列根据重复序列的重复单位的长度可分为卫星DNA、小卫星DNA 和微卫星DNA。微卫星DNA又称为串联重复序列(short Tandem Repeat. STR)
●Simple Sequence Repeats (SSR)+Satellites
GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG (G)
ATATATATATATATATATATATATATATATATATATAT (AT)n
●Lower complexity region(低复杂性区段)
TTTTTTATTTTTTGTTTTTTTTTT
(1)研究表明一些简单的重复序列与许多疾病有关。
(2)STR是存在人类基因DNA中的一类具有长度多态性的DNA序列,其多态性成为法医物证检验个人识别和亲子鉴定的丰富来源。
1.1 TRF
简介
Trf(Tandem Repeat Finder)是用来搜寻DNA序列中的串联重复序列(相临的重复两次或者多次特定核酸序列模式的重复序列)。重复单元可以从1bp到500bp,DNA查询序列大小可以超过5M。
GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGTA GAGTA GAGTA GAGTA
■使用
Path/trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options]
例如 trf sequence.fa 2 7 7 80 10 50 800 –f –d –m
■重要参数
File = 输入序列,fasta格式。
Match = 匹配的权重,默认为2。
Mismatch = 没有匹配的权重,默认为7。
Delta = 插入删除的匹配的权重,默认为7。
PM = 匹配上的概率,默认为80。
PI = 插入的概率,默认为10。
Minscore = 最小的匹配分值,默认为50。
MaxPeriod = 最大的重复单元bp数,默认为500bp。
[options]:
-m 产生一个将串联重复序列屏蔽为N的序列文件。
-f 输出每一个串联重复序列两侧200bp 的侧翼序列,输出到比对文件中。
-d 产生一个屏蔽文件记录了与列表文件一样的信息,及比对信息,可用于后续程序的处理。
Match ,Mismatch, Delta为匹配上、没匹配上、插入的权重值。低的权重值将允许更多的“没匹配上”、“插入”情况。匹配的权重值“2”已被证明对“没匹配上”、“插入”的罚分权重值在3-7 范围内是有效的。“没匹配上”、“插入”的罚分权重将被自动解释为负值。“3”就比较宽松,“7”就比较严格。对Match,Mismatch,Delta的推荐缺省值分别为2,7,7。
■实例
Path/trf SAC.fa 2 7 7 80 10 50 500 -f -d –m
■结果说明
程序运行完,会在目录下生成以下几个文件
*.dat -d 参数产生的屏蔽的的串联重复序列信息文件。
Tandem Repeats Finder Program writen by:
Gary Benson
Program in Bioinformatics 软件的信息
Boston University
Version 4.04
Sequence: Scaffold1
Parameters: 2 7 7 80 10 50 500 输出的参数
8891 8923 17 1.9 17 100 0 66 36 0 9 54 1.32 TTTTTAATGTTAATAAG TTTTTAATGTTAATAAG TTTTTAATGTTAATAA 串联重复
其中:8891 8923 是串联重复在输入序列里的起始、终止位置。
17 串联重复的大小bp。
1.9 重复的次数。
17 库里的重复序列得大小。
100 与邻近的重复匹配的百分比。
0 与邻近的重复匹配的插入删除百分比。
66 匹配的分值。
36 核苷酸“A”在串联重复单元里的百分比。
0 核苷酸“C”在串联重复单元里的百分比。
9 核苷酸“G”在串联重复单元里的百分比。
54 核苷酸“T”在串联重复单元里的百分比。
1.32 重复序列包含的信息量,即熵值。
*.mask -m 参数产生的串联重复序列被屏蔽为N的序列文件TTACATTCAATATTTTACATTTTACTCTACTTTTTCAC NNNNNNNNNNNNNNNNNNNNNN 重复序列处NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN N屏蔽NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN