重复序列分析文档

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 重复序列分析

重复序列广泛存在于真核生物基因组中,这些重复序列或集中成簇,或分散在基因之间,根据分布把重复序列分为分散重复序列和串联重复序列。

分散重复序列分为四种:LTR、LINE、SINE、和DNA转座子、

LTR,长末端重复转座子(long terminal repeat),是由RNA反转录而成的元件,它在两端有长大数百碱基对的LTR。Length: 1.5-10kbp Encode reverse transcriptase Flanked by 300-1000bps terminal repeats

LINE,长散在重复序列(long interspersed nuclear elements),意为散在分布的长细胞核因子,是散在分布在哺乳动物基因组中的一类重复,这种重复序列比较长,平均长度大于1000bp,平均间隔3500-5000bp,如:rRNA,tRNA基因,形成基因家族。

SINE 为短散在重复序列(short interspersed nuclear elements)。SINE是非自主转座的反转录转座子,来源于RNA聚合酶III的转录物,它的平均长度约为300bp,平均间隔1000bp,如:Alu家族,Hinf家族序列。

DNA 转座子: single intron-less open reading frame Encode transposase Two short inverted repeat sequences flanking the reading frame。

串联重复序列根据重复序列的重复单位的长度可分为卫星DNA、小卫星DNA 和微卫星DNA。微卫星DNA又称为串联重复序列(short Tandem Repeat. STR)

●Simple Sequence Repeats (SSR)+Satellites

GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG (G)

ATATATATATATATATATATATATATATATATATATAT (AT)n

●Lower complexity region(低复杂性区段)

TTTTTTATTTTTTGTTTTTTTTTT

(1)研究表明一些简单的重复序列与许多疾病有关。

(2)STR是存在人类基因DNA中的一类具有长度多态性的DNA序列,其多态性成为法医物证检验个人识别和亲子鉴定的丰富来源。

1.1 TRF

简介

Trf(Tandem Repeat Finder)是用来搜寻DNA序列中的串联重复序列(相临的重复两次或者多次特定核酸序列模式的重复序列)。重复单元可以从1bp到500bp,DNA查询序列大小可以超过5M。

GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGCA GAGTA GAGTA GAGTA GAGTA

■使用

Path/trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options]

例如 trf sequence.fa 2 7 7 80 10 50 800 –f –d –m

■重要参数

File = 输入序列,fasta格式。

Match = 匹配的权重,默认为2。

Mismatch = 没有匹配的权重,默认为7。

Delta = 插入删除的匹配的权重,默认为7。

PM = 匹配上的概率,默认为80。

PI = 插入的概率,默认为10。

Minscore = 最小的匹配分值,默认为50。

MaxPeriod = 最大的重复单元bp数,默认为500bp。

[options]:

-m 产生一个将串联重复序列屏蔽为N的序列文件。

-f 输出每一个串联重复序列两侧200bp 的侧翼序列,输出到比对文件中。

-d 产生一个屏蔽文件记录了与列表文件一样的信息,及比对信息,可用于后续程序的处理。

Match ,Mismatch, Delta为匹配上、没匹配上、插入的权重值。低的权重值将允许更多的“没匹配上”、“插入”情况。匹配的权重值“2”已被证明对“没匹配上”、“插入”的罚分权重值在3-7 范围内是有效的。“没匹配上”、“插入”的罚分权重将被自动解释为负值。“3”就比较宽松,“7”就比较严格。对Match,Mismatch,Delta的推荐缺省值分别为2,7,7。

■实例

Path/trf SAC.fa 2 7 7 80 10 50 500 -f -d –m

■结果说明

程序运行完,会在目录下生成以下几个文件

*.dat -d 参数产生的屏蔽的的串联重复序列信息文件。

Tandem Repeats Finder Program writen by:

Gary Benson

Program in Bioinformatics 软件的信息

Boston University

Version 4.04

Sequence: Scaffold1

Parameters: 2 7 7 80 10 50 500 输出的参数

8891 8923 17 1.9 17 100 0 66 36 0 9 54 1.32 TTTTTAATGTTAATAAG TTTTTAATGTTAATAAG TTTTTAATGTTAATAA 串联重复

其中:8891 8923 是串联重复在输入序列里的起始、终止位置。

17 串联重复的大小bp。

1.9 重复的次数。

17 库里的重复序列得大小。

100 与邻近的重复匹配的百分比。

0 与邻近的重复匹配的插入删除百分比。

66 匹配的分值。

36 核苷酸“A”在串联重复单元里的百分比。

0 核苷酸“C”在串联重复单元里的百分比。

9 核苷酸“G”在串联重复单元里的百分比。

54 核苷酸“T”在串联重复单元里的百分比。

1.32 重复序列包含的信息量,即熵值。

*.mask -m 参数产生的串联重复序列被屏蔽为N的序列文件TTACATTCAATATTTTACATTTTACTCTACTTTTTCAC NNNNNNNNNNNNNNNNNNNNNN 重复序列处NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN N屏蔽NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

相关文档
最新文档