如何进行标签SNP(Tag SNP)的选择(haploview与hapmap)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A better description is needed that includes the tagging algorithm, the LD(r2) cut-off and the version of the HapMap CH
B reference data used.
用hapmap载入基因后,用Haploview来选Tag SNP的,但是发现和某些文献报道的Tag SNP不同,
这个很正常,在参数不改变的前提下,Haploview选择tagSNP存在一定的随机性。
例如,假设位点A,B,C,D处于同一个单倍域内,通过运行Haploview的tagger program,你会发现A被选为tagSNP,并且位点A可以capture位点B,C,D。
但是如果你再运行一次tagger program,可能位点B被选择为tagSNP。
在这种情况下,你其实可以选择A,B,C,D中任何一个位点作为tagSNP(理想状态下)。
在这里,如果位点A是一个导致氨基酸改变的SNP位点,或者有功能研究认为该位点存在一定的功能时,你最好选择该位点,这样有利于你文章的讨论部分的说明。
貌似在运行“run tagger”前将r2值设定为1,就可以了。
hapmap上的数据一直在更新,所以如果你根据hapmap上的数据来选择tagsnp,必须提供数据库的版本号码:具体查询版本号的方法如图所示.
tagging algorithm指的是什么?是什么公式啊?这是我投稿后审稿人给的我修稿意见。
他的意思是让我从这几方面描述如何选择tagging SNPs:
A better description is needed that includes the tagging algorithm, the LD(r2) cut-off and the version of the HapMap CH
B reference data used
你说我怎么说呢?还有,我是不是得用Hapmap phase II genotype data?
de Bakker PI, Yelensky R, Pe’er I, Gabriel SB, Daly MJ, et al. (2005) Efficiency
and power in genetic association studies. Nat Genet 37: 1217–1223.
文章链接如下:
http://good.gd/540445.htm
爱番茄/Category/study/page/2
挑选标签单核苷酸多态性(SNP tagging)是在疾病关联研究中节省费用的一个重要的策略,而且随着高密度HapMap计划的完成它变得更为重要。
tagging背后的基本原理是:在密集分布的SNPs通常有多余的信息,snp markers的一个子集往往就能保留住所有或大部分的信息。
tagging的概念最早由约翰逊等于2001年提出。
在他们的研究中,单倍型的信息用于选择所谓的haplotype-tag SNPs(htSNPs)。
自那时以来,许多不同的方法和算法相继被提出。
Haploview软件时遇到的几个问题,请大家帮忙解释一下:
1、定义block是有4种方法:Confidence Intervals、Four Gamete Rule、Solid Spine of LD、custom,这4种方法的分别在什么情况下选用。
2、筛选Tag SNP时,有3种模型:pairwise tagging only、aggressive tagging:use 2-marker haplotypes、aggressive tagging:use 2- and 3-marker haplotypes,这3种模型分别在什么情况下选择?附图一
3、Haploview软件运行后,haplotype运行结果显示:block2中显示09和11这两个位点均为Tag snp,但在tagger运行结果中这两个位点均未被选作tag snp,我们在选择tagsnp是应根据那个结果做选择?
看过之前的帖子上说的,该软件有两种选择tagsnp的方法,一种是挑选可以代替人群中常见单体型的位点,另一种是挑选可以代替常见SNP位点的位点,可以这样理解吗,haplotype运行结果挑选的是可以代替人群中常见单体型的位点,tagger运行结果挑选可以代替常见SNP位点的位点吗?tag snp 的挑选分两种,一个是代表人群常见单体型的位点,另一种是代表常见snp位点,那么在hapmap上有tagsnp data,这种选出的tag 属于那种呢,
还有经hapmap载SNP位点的基因型数据然后导入Haploview,然后run tagger,所选出的tag又是那种。
hapmap上的数据一直在更新,所以如果你根据hapmap上的数据来选择tagsnp,必须提供数据库的版本号码:具体查询版本号的方法如图所示.
当然你还需要提供选择tansnp时r2所设的阈值,一般会选择0.8。
以下是别人的文章用来说明你提到的问题,可以借鉴以下:
Haploview software was used to conduct linkage disequilibrium and haplotype block analyses, using the
Hapmap phase IV genotype data for chromosomal region *: 166***–166*** (CHB database, Hapmap release 24 ( 2008,November).The criteria for r2 was set at 0.8。
从网上查了一下,选择tSNP的软件和算法有好几种,不知那种接受的比较多,好像haploview整合的tagger似乎用的比较多。
有没有选择tSNP的几个原则?我做的主要是人的疾病相关基因的筛查
最近在查找一个基因的tap snp,学习了一下网上的攻略,多为使用HapMap和Haploview的组合。
自己摸索了一下,发现以下问题:
1、同一个基因,HapMap上显示的基因位置和NCBI、GeneCard等网站上的不一致,且相差有点大.....
2、同一个基因,NCBI等网站上有明确的基因位置,但是HapMap上却找不到......
3、NCBI和HapMap上显示的SNP很不一样。
现我有一个基因,HLA-DQB1(HUGO的官方基因名),想找它的tag SNP,但HapMap上找不到该基因,NCBI上能找到。
我怎样才能找到该基因在+/-100kb范围内的tap SNP呢??
第一个问题是因为NCBI和HAPMAP上的数据更新的时间不一致,HAPMAP上更新很慢,例如基因位置和S NP位点的位置表示的都不一样. 至于基因位置,在HAPMAP上是可以找到的.SNP的信息是NCBI上应该更全一些,但是更杂,有很多信息是错误的或者冗余的.
我在HAPMAP上搜索HLA-DQB1是搜索不出来东西的,换了ensembl号和ENTREZ号也不行。
不知道是不是我的设置问题呢?这个应该跟使用的数据库关系不大。
你可以用GVS: Genome Variation Server试试,网址/GVS/。
可以根据g ene name,geneID,rsID等寻找上下游范围的SNP或TagSNP,参数设置很简单,界面比较友好,应该是与Hapmap同步更新的。
我试着搜索了你要查的基因和范围,没有问题的。
这个网站确实不错,能自定义检索的基因上下游范围,比NCBI的要方便,而且还能提供一些SNP的基本信息。
我比较了一下NC BI提供的数据,来源是一样的。
比较一下HaploView和这个网站的结果,相似度还可以。
但又有了一个疑问,如果方法和数据来源一致,范围也很接近,为什么结果还会有出入呢?
我对一个基因,用haploview软件挑了几个tag SNPs,计划做疾病关联研究。
我想知道当我的数据完成后,作单体型分析之前是否必须作LD分析呢?在园子里看到有兄弟认为这是必须做的。
那么,我想知道:(1)作LD分析时多大的D'和r2才合适呢?需要D'〉0.8吗?r2呢?具体要多大的值以上才可以进一步作单体型分析呢?
2)既然当初挑的是tag SNPs,从haploview给出的图上可以看到这些tag SNPs它们之间的r2都很低,所以才可以分别代表一些彼此关联不紧密的组,它们作为这些组的tag共同说明这个基因的特性(不知这个词用得是否恰当?)
那么,试验前就知道它们r2低,连锁关系不强,试验完成后那些数据作LD分析又会有多强的关联呢?那么,是否就不能分析单体型了呢?或者,不管他们之间的LD程度,直接用软件就分析了呢?
LD分析一般要在你做关联分析之前,主要是看不同群体的LD是否存在差别,因为现在只有HapMap的数据,所以就只能用他们的数据来做LD了。
LD的大小和单体型的长短有密切的关系,但不是说LD的边界就一定是单体型的边界,所以如果数据出来了,不用去理会LD的情况,直接算单体型就行了,如果染色体重组将你所挑选的位点间的连锁不平衡给破坏掉,你从单体型的数据上就可以直接看得出来,而且PHASE也可以直接算染色体的重组情况。
但是有一点我们必须注意的就是LD和TagSNP之间的关系,因为它直接影响了我们的TagSNP数目的多少,以及我们的TagSNP的power。
你说的也很对,TagSNP之间的连锁值应该很低,这样才尽可能多的覆盖所研究区域的常见多态位点,覆盖所研究区域的所有的block,但是block交接的地方就需要我们注意了,因为TagSNP并不能很好的Tag到这些个区域的SNP,也就是TagSNP对高重组率的区域的覆盖并不是很好,需要提高R2的标准尽可能多地选择这些区域的SNP作为Tag,当然首先要弄清楚我们有没有必要这么做,因为这些个区域可能根本就没有潜在的致病位点。
至于如何弄清楚,因为看得文献少,也没有个明确的观点,当我想如果该区域保守,或者有exon的时候的话就需要增加Tag了。
LD如果要关心强连锁的区域的话,r2要在0.8,这个参数好像很严格,很保守也很保险。
但我想D'=1的话也可以说明问题。
the haplotype display shows each haplotype in a block with its population frequency and connections from one block to the next.
in the crossing areas,a value of multiallelic D' is shown .This represents the level of recombination between the two blocks.Note that the value of multiaalelic D' is compute-d for only the haplotypes("alleles")currently displayed. This usually does not have a s-trong effects, as the rare haplotypes contribute only slightly to the overall value. above the haplotypes are marker numbers along with a tick beneath haplotype tag SNPs(htSNPs)
Linkage Disequilibrium
Particular alleles at neighbouring loci tend to be co-inherited. For tightly linked loci, this might lead to associations between alleles in a population. The result is a non-random pattern of association between alleles at different genetic loci. This (statistical) association of sequence variants at different loci along the chromosome is called linkage disequilibrium (LD).
摘自haploview程序的说明书。
B里的LE是在SNP1中A,G 频率相等, SNP2中C,T频率相等的情况下。
C中的,LE是在SNP1中A,G频率相等,SNP2中,C,T频率不等的情况下,比如A频率50%,G频率50%,C频率75%,T频率25%的情况下,LE的结果就如图所示。
图的原文是Implementation of SNPs in pig genetics:
LD and QTL analysis
/bbs/viewfile/16096228/1536538
dis3646.pdf (1233.5k) 在线查看
See the example below:
把基因分成了4个单体域,每个单体域挑选了1个htSNP。
在做单体型分析前,拿不定主意,要不要分析这个LD。
如果分析了,是不是直接把D',r2摆出来就行了,不管其具体的值如何。
直接做下一步的单体型分析就可以了。
看了大家的帖子还有个问题没有提到,就是这个病例对照研究就注定是两组人群,大家讨论LD的分析的时候从来没讨论过是在什么范围内进行分析呢?是分别分析呢,还是总体分析LD?还有这个D'的参考标准我在几篇文献里看到都是选的0.7,这个值又是从何而来呢?因为统计教材上说的是要分析出P值来定是否LD的嘛
Haploview软件中提供的4种分析方法,一般选用哪一种定义block:confidence interval、four gamete rule、solid spain of LD、custom。
这4中定义block的方法在选择的时候各有什么适用范围吗?
目前广泛应用的标准基于这篇文章,haplowiew 也是在这篇文章上发展出来的
Sabeti, P. C., D. E. Reich, et al. (2002). "Detecting recent positive selection in the human geno me from haplotype structure." Nature 419(6909): 832-837.(见附件)
(Method I)Gabriel et al. (2002) defined strong LD or a haplotype block if D' is higher than 0.98 with 95% confidence bound .
(Method II)An alternative haplotype block definition suggested by Wang et al. (2002) was also a pplied to identify blocks. In this method, blocks were defined between two SNP loci where three gametes existed in a population or all four gametes were observed with the least frequent ga mete under 1% . If all four haplotypes were observed with a frequency of at least 0.01, it was assumed that a historical recombination occurred.
/bbs/thread/18237845?age=0&tpg=1&ppg=1#18237845
n in the human genome from haplotype structure.pdf (761.52k) 在线查看
其实,haplowview 说明书上写的很清楚
haplowview v 4.2 document Page5
说说我的看法,准确理解以下两个问题很重要:1). 为什么要挑选tagSNP?2).为什么要进行单体型分析?第一个问题比较简单。
一个基因上有很多个SNP位点,现有的技术不可能或者是没必要对所有的位点进行基因型分析,并且基因上位点间往往是有关联的,我们可以用一个位点(或多个位点的组合)代表另外的位点或单体型,所以我们可以挑选有代表性的位点来代表基因上其它的位点或人群中存在的常见单体型。
所选的有代表性的位点就是所谓的tagSNP。
haploview里的两种不同的挑选tagSNP的方法,一种是挑选可以代表人群中常见单体型的位点,另一种是挑选可以代表常见SNP位点的位点。
至于为什么要进行单体型分析,一个比较直观的理由是单体型是最基本的功能单位;另外从父代到子代,相邻位点也是以单体型为单位传递的(前提是位点间的LD很强);当然,单体型分析在统计学上的作用主要是减少多个位点组合分析时的自由度,从而增加研究的效能。
举个简单的例子:如果要分析四个二等位多态位点的组合和疾病的关系,理论上有16种不同的组合,但是因为这四个位点间不是独立的,在人群中可能只存在6种常见的单体型。
如果四个位点间独立,也就是连锁平衡,那么人群中的单体型就会有16种,这时候做单体型分析是没有意义的。
这也是为什么有的文章会强调进行单体型分析时最好以B lock为基础。
我个人的理解是如果单体型分析能增加研究的效能,就可以进行单体型分析。
D‘和r2是两个位点间LD的评价指标,不能借此评价能否进行单体型分析。
如果直接通过HapMap网站的Anotate tag SNP picker挑tagSNP的话用的是tagger(即根据位点间的LD情况挑选能代表常见SNP位点的位点)。
参考/gbrowse_help.html#tag_snps
我个人建议先下载SNP位点的基因型数据然后导入Haplo.view,你可以选择两种不同的挑选tagSNP的方法。
不过tagger要更常用一些。
我觉得单体型就是一种利用统计学上的方法来寻找某些与疾病有关的snp之间的关系,找出与疾病最相关的若干snp的组合方式,事实上可能这些snp并不具有连锁关系,但是它们在功能上都能够影响疾病,并且具有统计学上的交互作用,这样才能找到r2值最大的组合,并进一步研究这些snp所涉及的病理通路的关系,多层次多角度的来研究疾病本质。
至于要不要做LD分析,个人觉得目的在于发现紧密连锁的snp,从而在统计分析时从中选取一个tag s np就行了。
因为如果两个snp紧密连锁,做单体型分析时他们对疾病的关系用其中一个就能代表了。
1.只要全覆盖一个区域就好了".
您的"区域"意思是在haploview中-“analysis-define blocks" 定义出来的"block"吗?是否是指应该选一个"block"中标出的全部tagsnps?
2.如果是这样的话,我想问,“analysis-define blocks" 有4种定义方法:confidence intervals,four
gamete rule,solid spine of LD,custom。
应该选那种来定义呢?每种方法所定义出来的Block都是不一样的呀。
有的方法可能一个block 都没有(A),也有的方法运行后会出现好几个block(, 当然也有的方法一个基因就定义为一个block(C).
对于情况(,在多个Block 中选那一个block 中的tagsnps呢?如果只选了某个block中的tagsnps, 那么为什么要选它呢,有标准和理由吗?
当然这样选会有一个好处,那就是,因为他们来自于一个block,他们之间的D'和R2应该在数据完成后经得起LD的检验。
是吧?
3.用haploview中-“analysis-define blocks" ,定义block,再选tagsnps,tagsnps会因block的定义方
法不同而不同,而如果就用tagger运行的话,出来的tagsnps基本上是分成几组的。
一组总会有一个Tagsnp出来.不管这个Tagsnp是代表几个SNP的一组,还是只代表一个SNP的一组.
但用tagger运行的话,出来的Tagsnps必然会有我最初提到的问题,即他们之间的R2会比较低,那么数据完成后做LD分析时,会否因为他们连锁不平衡关联较弱而不宜进一步分析其单体型?所以我想知道这个R2的标准
LD block的定义在haploview里是3种,我看大家都常用的是four gamete rule。
custom是给客户自己定义的,自己设置参数。
但不管用哪种方法定义block,只要是做关联分析,我认为不应该是说我关心某个block,而不关心另外一个,因为你的致病位点不知道落在那个Block中,所以应该覆盖所有的block。
还有就是在一个block中,不止有一个TagSNP可以覆盖该区域得多态位点(也就是好多SNP做为Tag 时是等价的),所以会出现稍微的调整一下参数就会出现不用组合的TagSNP,这个不用担心,我觉得不同的组合的TagSNP都可以代表我们所关心的区域。
个人觉得最后一句解释不对。
应该是这几个tagSNP共同起作用才能覆盖该区域的多态位点,单个是不能覆盖该区域的多态位点吧,我并不是说一个点可以覆盖全部,而是可以覆盖部分或者全部。
问题的核心就是怎么挑选tagsnp这个其实是最难的,尤其是数据不够多的人种和区域,我建议就是按常规的方法,只要全覆盖一个区域就好了,不要苛求感觉单体型数据库对于我们这些对疾病关联研究挖掘不深,仅作病例对照关联研究的门外汉来说,可能其意义更大的地方是根据它所提供的LD图谱找到连锁关系较紧密的位点作为研究位点。
但正如有人说的那样,tag snp代表的snp越多,和疾病的阳性关联未必就越强。
如果只是看单位点与疾病的关联,似乎研究更应从SNP的功能研究着手。
看到一些文章显示其研究的单位点与疾病风险无关联,但多个位点的不同组合据统计学得出了与疾病风险有关联的结论,并没有看到其在多个位点进行组合研究之前对这几个位点的LD情况作出检验。
这合理吗?
单体型=还是不=“多个位点进行组合研究“呢?
不考虑参与组合的多个位点是否LD,就理解为“多个位点进行组合研究“这种思路是不恰当的还是本来就异于前者的两种思路呢?
其实有时候大家为了拿到阳性结果会用不同的方法不同的组合来做,只要拿到了阳性结果就万事OK了,
这是个碰运气的过程也是一个探索的过程,对于复杂疾病而言,一个突变就想挑起大梁是很难的事情,所以大家看得都是趋势,至于是什么样的趋势,还是自己因地制宜吧。
择tagging SNP的目的是对你的基因某区域的polymorphisms有一个概括作用。
靠他提高阳性率是不可能的。
如果你的基因报道过的polymorphism不多,你可以通过挑选taggingSNP来看这个基因的遗传规律,比如LD情况、haplotype等。
挑选taggingSNP的软件你可以选择Haploview,他可以分析LD map。
不要指望使用tagSNP就能一劳永逸,tagSNP如果做出阳性,只是提示附近(也包括本身)可能有阳性为点存在,和STR的道理一样
做关联分析。
在dbSNP数据库中查,我要做的基因12个外显子,共366个SNP,cSNP有6个,其中5个cSNP相距仅974bp,请问我选SNP的时候应遵循怎样的原则?除了启动子区和3’非编码区以外,是否每个内含子都要选1个?5个cSNP是都要做,还是选择杂合度最高的一个做就行了?
另外还有个问题始终不明白,对于处于同一haplotype block中的多个SNP,是只选1个做?还是每个都要做?
单倍型分析前,是否一定要先做连锁不平衡检验?如果没有连锁不平衡,做多个SNP位点的单倍型组合分析还有无意义?如果处于同一haplotype block中的多个SNP,只做一个就可以了,因为其他的结果一样没有必要浪费,这样的话,作那个杂合度最高的一般比较好
但有时单个SNP与疾病并不关联,而是多个相互间连锁不平衡的SNP构成的单倍型与疾病关联——所以要做多个SNP?一般而言,应该是一个基因的HAPLOTYPE与疾病关联度更大一些,做关联分析,其检验的POWER除与样本大小有关以外,我觉得与选择的SNP也有非常重要的关系,所以当然,多个SNP 构成的HAPLOTYPE其做关联分析的可信度和论文质量显著高于随机选择的SNP.
当然,怎么选择SNP,要做大量的基础工作,最直接的方法就是测序,虽然当前国内有人类基因组的HAPLOT YPE的部分结果,但是在精度上远远达不到选择SNP的要求。
而且还有人种的区别。
而且我认为处于同一haplotype block中的多个SNP,只做一个是不够的,显然其中各个SNP连锁,但是仅仅一个SNP并不能揭示所有的基因型,因此当前许多系统性的论文方法都是在HAPLOTYPE的基础上进一步的选择tagSNP,要做到这一步,直接的方法就是测序。
话说回来,还是看兄弟你要做课题的起点多高,有多少money,如果一般般的,优先选择几个高频的cSNP 的非同义突变,或者启动子SNP就可以做,。
至于你所说的单倍型分析前,是否一定要先做连锁不平衡检验?
这是一定的,HAPLOTYPE分析前最好先做LD分析,否则如果不LD,那么在遗传上根本就不构成HAPLOTYPE,而仅仅是一个随机组合的关系而已。
可以参考最新release的haplomap的中国和japanese人群是数据(如果你是作中国人的话,哈哈),然后可以选择那些tagSNP先作一些粗略的扫描,如果作了所有的tagsnp都没有好的结果,那就放弃这个基因,如果有好的结果,那就测序所有的外显子和promotor然后找有可能的功能snp,在作这些snp在你的样品中。
选择的基因确实与疾病相关,但是报道的突变不多,国内的更少。
大部分人做得是该基因的全基因筛查,或是选择部分外显子筛查。
因为米米的问题,只能选择几个位点来做。
园子里有讲选择标签SNP,这样做出的阳性率高吗?另外,想问一下,选择之后怎么反过来查询这些位点在文献中报道情况?再者,要查询几个标签SNP的LD情况,怎么看LD的图?
选择tagging SNP的目的是对你的基因某区域的polymorphisms有一个概括作用。
靠他提高阳性率是不可能的。
如果你的基因报道过的polymorphism不多,你可以通过挑选taggingSNP来看这个基因的遗传规律,比如LD情况、haplotype等。
挑选taggingSNP的软件你可以选择Haploview,他可以分析LD map。
可以去去看一下
启动子很长,如何选择SNP
从NCBI上找到的PA X2启动子有3000多bp,其中也有较多SNP,请问如何选择有意义的SNP可以选择转录因子结合区或其附近的SNP,或者一些调控序列附近, 因为这些区域可能影响转录的进行。
如:一些反向重复序列,顺式作用元件附近.
几个重要的SNP资讯网站:
1. TSC website /
TSC(The SNP Consortium Ltd.)是一个非营利性基金会,其组成目的是“发展在人类基因体中超过300万个以上的SNPs的资料、将数据收集成资料库,并且不以智慧财产权法律为限制(without intellectual property restrictions)、公开地向大众提供资讯”。
网站的主要功能如下:
(1) Allele Frequency/Genotype Project:提供三个世界主要人类族群的6万个SNPs frequency。
(2) The SNP Consortium Linkage Map Project:提供human chromosome的TSC-linkage map查询服务。
(3) All TSC protocols:提供所有SNP实验的相关protocols。
(4) Search the TSC database:提供由internal TSC IDs来搜寻SNPs的服务。
(5) News related to The SNP Consortium:持续提供SNP的相关研究讯息。
其网站内亦提供Glossary,以及其他资料查询,是个很丰富的网站。
重点是,其一切资讯都是免费的。
2. dbSNP Home Page /SNP/index.html
此网站是由NIH之下的NCBI所架设。
在网站具有非常庞大的资料库,提供许多不同项目的搜寻服务,且不局限于人类SNP资讯,也提供其他生物的SNP资讯。
值得一提的是,NCBI在网站中对SNP有简单的介绍,可帮助了解SNP的意义及在各种生物方面的应用。
是非常有用的资料库网站。
à其他的SNP资讯网站:
3. HGBASE-Human Genic Bi Allelic Sequences http://hgbase.interactiva.de/
HGBASE (human genic bi-allelic sequences) is a database of intra-genic (promoter to end of transcription) sequence polymorphism. Its primary purpose is to facilitate genotype-phenotype association studies based upon the rapidly growing number of known,gene related,single nucleotide polymorphisms (SNPs).
4. UDB,The Unified Database http://genecards.weizmann.ac.il/udb/
The Unified Database (UD presents an integrated map for each human chromosome,based on data integrated by the GeneLoc algorithm.
3. SVD - Sequence Variation Database project /mutations/
5. Human SNP Database /snp/human/
可由SNP名称或序列免费查询相关资料,并附有人类23条染色体的chromosome marker map(但没有Y染色体的)
6. JSPN Database http://snp.ims.u-tokyo.ac.jp/
日本人的SNP资料库,有SNP的chromosome map(22+X、Y),并可利用BLAST作序列比对。
à 怎么找SNP资讯网站:进入Google搜寻网,键入SNP database后按搜寻即可。
10
个人觉得,现在研究基因与性状之间的关联,主要是SNP多态性研究。
最后进行标记辅助选择,其实际意义应用还有待于进一步深入。
尤其是一个SNP作为选择某一个性状的MARKER,其可信度我不敢多说的。
因为在一个群体中此MARKER与性状有关联(很有可能是与真正的主效基因连锁),不一定在其他群体中管用。
就如现在研究得很多的繁殖性状相关基因ESR,很多人还不是常得到相反的结果。
我想原因可能就是此MARKER在这个群体中与真正的主效基因连锁,但在另一个群体中不一定连锁。
当然像IGF2那一个内含子突变就另当别论。
所以个人觉得现在加强QTL的精细定位,最后来锁定主效基因的方法,在现阶段更实用。
当然群体一定要大要好。
另一个面进行多SNP单倍型分析,在统计意义上也比单个SNP的结果分析可靠得多。
是根据hapmap把一个基因分成了3个block。
他只是说从每一个block里选择一个snp进行研究。
没有提到tagsnp的信息。
不过文章提到的是根据hapmap的release 19提供的数据。
可能当时作者做的时候haploview 里也还没有添加筛选tagsnp的功能。
我看园子里有人说,只要每个block里选择一个就可以,最好选杂合率高的那个。
我现在第一个block里是随便选的一个,主要是那几个tagsnp的序列比对不好做,blast效果很差。
所以我另选了一个非tagsnp。
我现在的做法合适不?就是block里选个
如何选择SNP位点进行多态性分析
该基因的snp位点很多的话,你可以进行筛选,提供一个参考步骤:
1 进入NCBI的snp数据库(/sites/entrez?db=Snp)或者/index.html这个网站,输入你的基因,找出频率>5%的多态性位点,文献上一般都是研究大于这个频率的snp。
同时,注意选择人种,因为不同的人种各snp的频率是不同的。
2 如果还是非常多的话,你可以去hapmap页面(/index.html.en)在这里你可以找到Tagging snp。
这样就会减少很多的snp位点,并且起到同样的研究效果,具体原因请参考Tagging snp的相关介绍。
3 另外,你可以去下载一个叫做Haploview的软件,这个软件是国际上普遍认可的一个软件,可以说是做这方面分析必备的。
通过这几个步骤,相信你可以快速的找到你需要的snp位点,通过Tagging snp还可以大大简化你的工作量。
1.选择minority allele 频率大于5%;
2.有多的钱可以在正式试验前选30人左右中国人群(如果是国内做的话)做该基因的测序,看看有
没有什么和数据库不一致的SNP;
3.还可以参考日本的SNP数据库http://snp.ims.u-tokyo.ac.jp/;
4.除了TagSNP外,还可选择进化保守区的SNP;
5.看看该区域内有没有其他人群相关功能或易感阳性SNP的报道;
6.改变氨基酸编码的SNP;。