全基因组CNS序列的HLA分型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于全基因组CNS数据的HLA分型项目计划
整体思路:首先将HLA 专业型别数据库中的型别进行转换并两两组合构建型别·差异位点·组合数据库。对于每个未知个体的全基因组重测序数据提取MHC区域差异位点信息,然后与之前建立好的型别·差异位点·组合数据库进行100%匹配搜索,最后直接确定二倍体对应的基因型别。
具体细则:
1、构建型别·差异位点·组合数据库(2周9.7-9.21)
首先确定一个统一的reference(hg19)然后将所有型别序列与reference进行比对得到单一型别的差异位点信息再将每2个型别基于差异位点信息进行组合从而得到型别·差异位点·组合数据库。具体处理过程如下:
数据中出现的符号及其含义:
“—”:与reference一致
“*”:信息缺失
reference是·,quarry是[ATCG] :insertion
reference是A/T/C/G ,quarry是·:deletion
A/T/C/G:mismatch(与reference相比)
处理:假设对应位点为100
“*”+“*”:100:N
Mismatch+Mismatch:一致:输出100:mismatch
不一致:输出100:mismatch杂合
Mismatch+“—”:输出100:mismatch与reference的杂合
Mismatch+“*”:输出100:N / mismatch与reference相组合的杂合
Insertion:对应位是相同mismatch,输出:100:mismatch/+insertion
对应位是不同mismatch,输出100:mismatch杂合/+insertion
对应位是mismatch+“—”,输出100:mismatch与reference杂合/+insertion
对应位是“—”,输出100:reference/+insertion
Deletion:deletion 前一位处理与insertion对应位做相同处理
输出99:—
注:对于insertion和deletion,若insertion/deletion为纯合,则“+”后跟2否则为1 2、得到cns数据(与数据库的组建同时进行)
将重测序数据(bam文件)在MHC区用soapsnp call snp