cdhit参数
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
cdhit参数
CD-HIT是一种广泛应用的聚类工具,用于分析大规模的生物序列数据,例如蛋白质序列或核酸序列。
其参数设置对聚类结果的准确性和速度有重要影响。
以下是常用的CD-HIT参数及其含义。
1. -c:阈值(相似度阈值,0-1之间),表示两个序列之间的相似度必须大于该值才会被聚类到同一簇中。
2. -n:识别域长度,即在比对过程中用于计算相似度的最短匹配长度,可根据序列长度进行调整,一般设置为10。
3. -d:距离阈值,即两个聚类中心之间的距离必须小于该值才会合并。
4. -g:表示序列的全局比对模式,即在比对过程中考虑序列的全部长度,而非只考虑识别域的长度。
5. -s:表示序列的本地比对模式,即在比对过程中只考虑序列中的一个局部片段(例如,BLAST算法中的哈希表检索)。
6. -M:簇大小限制,即簇中序列的最大数量,超过该值的序列将被丢弃。
7. -T:线程数,即用于并行化处理的线程数量,可根据计算机性能进行调整。
8. -r:去除低复杂度序列,即去除由少数碱基组成的序列(例如,ATATATATAT)。
9. -aS:序列长度阈值,即短序列的长度限制,超过该值的序列才会被聚类。
以上CD-HIT参数的选取应根据实际研究设计和数据特征进行调整,以达到最佳的聚类结果。