hapmap如何寻找snp位点

如何进行标签SNP(Tag SNP)的选择(haploview与hapmap)

A better description is needed that includes the tagging algorithm, the LD(r2) cut-off and the version of the HapMap CHB reference data used.用hapmap载入基因后，用Haploview来选Tag SNP的，但是发现和某些文献报道的Tag SNP不同，这个很正常，在参数不改变的前提下，Haploview选择tagSNP存在一定的随机性。

例如，假设位点A，B，C，D处于同一个单倍域内，通过运行Haploview的tagger program，你会发现A被选为tagSNP，并且位点A可以capture位点B,C,D。

但是如果你再运行一次tagger program，可能位点B被选择为tagSNP。

在这种情况下，你其实可以选择A,B,C,D中任何一个位点作为tagSNP（理想状态下）。

在这里，如果位点A是一个导致氨基酸改变的SNP位点，或者有功能研究认为该位点存在一定的功能时，你最好选择该位点，这样有利于你文章的讨论部分的说明。

貌似在运行“run tagger”前将r2值设定为1，就可以了。

hapmap上的数据一直在更新，所以如果你根据hapmap上的数据来选择tagsnp，必须提供数据库的版本号码：具体查询版本号的方法如图所示.tagging algorithm指的是什么？是什么公式啊？这是我投稿后审稿人给的我修稿意见。

他的意思是让我从这几方面描述如何选择tagging SNPs：A better description is needed that includes the tagging algorithm, the LD(r2) cut-off and the version of the HapMap CHB reference data used你说我怎么说呢？还有，我是不是得用Hapmap phase II genotype data？de Bakker PI, Yelensky R, Pe’er I, Gabriel SB, Daly MJ, et al. (2005) Efficiencyand power in genetic association studies. Nat Genet 37: 1217–1223.文章链接如下：http://good.gd/540445.htm爱番茄/Category/study/page/2挑选标签单核苷酸多态性（SNP tagging）是在疾病关联研究中节省费用的一个重要的策略，而且随着高密度HapMap计划的完成它变得更为重要。

缺失SNP位点基因型推测

IMPUTE：假设每个个体之间的基因型是相互独立的。它把已知单体型对序列看作是HMM中的隐状态，同时定义一个以已知单体型(参照面板中的单体型信息)为条件的条件概率作为转移概率，用这些隐状态和转移概率建立HMM 模型，即根据已知单体型估计缺失基因型。 fastPhase：假设每一个单体型都从某一个聚类中产生。用EM算法估计模型参数，利用基于HMM中隐变量的条件分布计算缺失基因型在已观测基因型和估计的模型参数条件下的条件概率，使这个条件概率最大的基因型则成为该位点基因型的填补基因型。
该方法预测结果：
• 本人感想：基于互信息理论的基因型预测模型简单，但是该方法由于要计算任意两个位点与缺失位点的互信息，不适用于大规模SNP位点数据预测，可以结合聚类的算法对其进行改进，使其适用于大型数据预测。
各种预测方法的优劣处：Impute方法不需要进行参数估计，但计算复杂度高；FastPHASE灵活适用于大型数据集，在大量染色体情况下，计算复杂度只是线性增加，但要对模型的很多参数进行估计，这会减慢计算速度；MACH通过蒙特卡罗方法迭代更新单体型对，同时模型参数也在每次迭代中更新，这使其能更灵活地进行数据集的分析，但实际上，对有些参数的估计并不是很准确，从而降低了该方法的计算效率。BEAGKE适用于局部单倍型多样的情况，所占的内存较小，但精确度比不上MACH和Impute。
则构成一个马尔科夫链，初始状态的概率：
状态转移概率是：
其中dm为两位点间的物理距离，rm是一个跳跃率。
• 所以单倍体hi的概率是：
单倍体聚类模型到基因型数据的扩展：主要方法是认为由两个单
倍体组成的未分型的基因型数据是独立的（哈迪—温伯格平衡），并且服从相同的分布。
模型定义：n个二倍体个体未分型基因数据 gim 为个体i在m位点的基因型，gim的值是一对等位基因的和，为0,1,2. 为gim所属的两个类。构成一条马尔科夫链。初始状态概率：转移概率：

SNP及检测技术

SNP及检测技术1定义：单核苷酸多态性（single nucleotide polymorphism，SNP），主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。

它是人类可遗传的变异中最常见的一种。

占所有已知多态性的90%以上。

SNP在人类基因组中广泛存在，平均每500～1000个碱基对中就有1个，估计其总数可达300万个甚至更多。

SNP所表现的多态性只涉及到单个碱基的变异，这种变异可由单个碱基的转换（transition）或颠换（transversion）所引起，也可由碱基的插入或缺失所致。

但通常所说的SNP 并不包括后两种情况。

单核苷酸多态性（SNP）是指在基因组上单个核苷酸的变异，包括置换、颠换、缺失和插入。

所谓转换是指同型碱基之间的转换,如嘌呤与嘌呤( G2A) 、嘧啶与嘧啶( T2C) 间的替换;所谓颠换是指发生在嘌呤与嘧啶(A2T、A2C、C2G、G2T) 之间的替换。

从理论上来看每一个SNP 位点都可以有4 种不同的变异形式，但实际上发生的只有两种，即转换和颠换，二者之比为2：1。

SNP 在CG序列上出现最为频繁，而且多是C转换为T ，原因是CG中的C 常为甲基化的，自发地脱氨后即成为胸腺嘧啶。

一般而言，SNP 是指变异频率大于1 %的单核苷酸变异。

在人类基因组中大概每1000 个碱基就有一个SNP ，人类基因组上的SNP 总量大概是3 ×106个。

依据排列组合原理,SNP 一共可以有6种替换情况,即A/ G、A/ T、A/ C、C/ G、C/ T 和G/ T ,但事实上,转换的发生频率占多数,而且是C2T 转换为主,其原因是Cp G的C 是甲基化的,容易自发脱氨基形成胸腺嘧啶T , Cp G 也因此变为突变热点。

理论上讲，SNP既可能是二等位多态性，也可能是3个或4个等位多态性，但实际上，后两者非常少见，几乎可以忽略。

因此，通常所说的SNP都是二等位多态性的。

hapmap 查询 SNP

/index.html.en在IE浏览器中打开页面点解“中文”，刷新页面后，点击“通用基因组浏览器”，在标志或区域里输入“DNMT3A”在保存，查询及其他选择栏里选中“显示SNP genotype data ”后，点击配置，在population 选中CHB或JPT，strand选中rs，output format 选“open directly in haploview”，点击执行，保存文件格式为.hmp. 在haploview 中“hapmap format ”选项打开即可。

从选点开始，到酶切，tagman分型，到SPASS，SAS统计都是一个个的过程，为了学习+复习，分享一下学习到的选点的方法，进宫参考，高手勿笑。

1．需要的东西。

两个网站：PubMed 和hapmap，一个软件：haploview2．在PubMed上搜索目的基因上的所有SNP，（以VHL基因为例），这个我在做。

具体步骤：1）进入PubMed：/pubmed/2） Search栏里选择SNP，搜索框内输入想要的基因，比如VHL，点击Search。

3）如下图选择Human标签4）选择某个SNP示意图中的geneview：5）进入之后选择in gene region，然后点击refresh，就显示出了整个基因上所有的snp，从5’端到3’端。

如下图：1．这里显示的是所有人群中的SNP，而我们需要选择我们目标人群中的SNP，这个就要用的hapmap这个网站了：1）首先打开这个网站， or /2）选择左侧Project Data栏目下的第一个：HapMap Genome Browser ( Phase 3 –genotypes & frequencies )3）进入之后，在“標志或區域”中输入rs号，“數據來源”phaseII那个，“保存，查詢及其它選擇”选SNP genotype date, 如下图：点击执行，会得到该rs号在染色体上的位置，？记录下来。

Haploview软件使用方法图解

Haploview 软件使用方法图解Haploview 是一个进行单倍型分析的一个软件，该软件具有如下功能： 1.连锁不平衡与单倍型分析 2.单倍型人群频率估算 3.SNP 与单倍型关系分析 4.相互关系的排列测验 5.可以从 HapMap 上直接下载基因型信息网址：/haploview 下载：Windows 版： HapInstall.exe Mac / Unix / Linux Haploview.jar （安装：java -jar Haploview.jar） JAVA 下载在安装该软件之前，必须先安装一个“JAVA” ，Haploview 必须在 JAVA 环境下才能运行。

首先要选择要分析数据的类型，包括 Linkage format 、Haps format 、Hapmap format、 Phase format 等。

我们主要选 Hapmap format 这种类型。

这种类型的数据可以直接从 Hapmap 网站 ()中直接下载。

1，进入 Hapmap 网站。

依次：Data/Generic Genome Browser(数据/通用基因组浏览器)。

输入要查询的基因名称，如 xrcc1，在右面选择“显示 SNP genotype data”, 点击配置根据需要选择 CHB(中国汉族人群)。

Output format 打开格式）（选择 Open directly in HaploView （输出后的文件可直接导入 Haploview 软件）。

点击“执行” ，将文件保存到指定位置比如桌面。

打开 haploview 软件，选择 Hapmap format，点击 browse，选择刚刚下载下来的文件。

左边的 LD Plot 表示该基因所以 snp 的的连锁情况，各个方块的颜色由浅至深（白——红），表示连锁程度由低到高，深红色表示完全连锁。

haploview安装使用说明

可以从hapmap上直接下载基因型信息part1haploview必须在java环境下才能运行因此在安装该软件之前必须先安装一个java2java安装完之后需要改变环境变量javahome变量
Haploview 安装使用说明
131017
• Haploview是一个进行单倍型分析的一个软件，该软件具有如下功能： • 1.连锁不平衡与单倍型分析 • 2.单倍型人群频率估算 • 3.SNP与单倍型关系分析 • 4.相互关系的排列测验 • 5.可以从HapMap上直接下载基因型信息
• Data file需要输入的数据格式要求6列
• 1列：家系的ID，如果你分析的是无关个体，建议用自然序号1,2,3….来替代。 • 2列：个体的ID，做无关个体的研究则每个个体的编号不能重复 • 3列，4列：分别表示父亲的ID 、母亲的ID，做无关个体的研究，则第三列，第四列都赋值为0。 • 5列：个体的性别信息。1代表男性，2代表女性。 • 6列：个体的患病状态。0表示疾病状态未知；1 表示、软件： • 1） Haploview必须在JAVA环境下才能运行，因此在安装该软件之前，必须先安装一个 “JAVA”
• 2）java安装完之后需要改变环境变量
Java_home变量：C:\Program Files (x86)\Java\jre6
Classpath变量：C:\Program Files (x86)\Java\jre6\lib\dt.jar; C:\Program Files (x86)\Java\jre6\lib\tools.jar; C:\Program Files (x86)\Java\jre6\bin
整理myd88有关snp位点，以及snp位点的position 将其copy至txt文档，命名为

Hapmap用户指南

国际人类基因组单倍体图计划网站用户指南Gudmundur A. Thorisson1*, Albert V. Smith*, Lalitha Krishnan, and Lincoln D. Stein Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724翻译：Hejidong国际人类基因组单体型计划网（）是获取国际人类单体型图计划部分基因分型数据的主要门户网站(Gibbs et al. 2003)。

在计划的第一阶段，来自全世界4个人群的270个样本共检测出了110多万个SNP位点(Consortium 2005)。

该网站向研究者提供用于数据分析的工具以及允许其下载数据以便进行本地分析。

本文提供使用这些工具的详细指南，包括：检索基因分型和基因频率数据，关联性研究中标签SNP的选择，单体型作图，相互关系的排列测验。

国际人类单体型图计划的目标是对人类基因组中常见遗传多态性作图和推断，以推动针对人类疾病遗传因素的研究。

该计划第一个重要的里程碑是在2005年春天，完成了对4个人群超过110万个SNP的基因分型检测，第二阶段准备完成另外460万个SNP的检测，并计划于2005年秋完成。

该计划的数据可在HapMap（）网站无限制获取。

该网站提供数据集的批量下载，以及独有的交互数据浏览与分析工具。

自2003年9月向公众开放以来，来自100多个国家的研究者已经下载了HapMap数据集50万余次。

该网站目前每月处理超过3万余次的静态页面请求，其中1万4千次是批量下载请求，以及每月处理10万余次HapMap交互式浏览器登录。

本文介绍Hapmap网站及其用于查看、检索和分析数据的工具。

我们将展示如何进行一些有用和常见的任务，以及概述正在完善和开发中的新工具。

Hapmap网概述Hapmap网（）主要由三个部分组成，均可从网页顶部的横标题进入。

SNP位点数据分析和人类遗传学研究

SNP位点数据分析和人类遗传学研究SNP (Single Nucleotide Polymorphism) 位点数据分析和人类遗传学研究随着现代技术的快速发展，生物信息学领域的研究变得越来越重要。

其中，单核苷酸多态性（SNP）位点数据分析在人类遗传学研究中起着关键作用。

本文将讨论SNP位点的概念、分析方法以及其在人类遗传学研究中的应用。

首先，SNP位点是人类基因组中最常见的突变形式。

它是DNA序列中的单个核苷酸发生变异的地方，包括碱基的替换、插入和删除。

SNP位点通常在基因和表达调控区域中，对个体间的遗传差异和基因功能起着重要作用。

因此，研究SNP位点对于理解人类遗传学和疾病的发生机制至关重要。

在SNP位点数据的分析中，最常见的方法是基因型和等位基因频率分析。

基因型分析涉及确定每个个体的等位基因组合，包括纯合子（两个等位基因相同）和杂合子（两个等位基因不同）。

等位基因频率分析则是研究一个等位基因在某个群体中的频率。

通过这些分析方法，我们可以了解SNP位点的遗传多样性及其在人群间的分布情况。

此外，SNP位点数据还可以通过关联分析来研究基因与特定性状或疾病之间的联系。

关联分析（Association Analysis）是将SNP位点与某个性状或疾病之间的关联关系联系起来。

这种方法被广泛应用于复杂性疾病的研究，如肿瘤、心血管疾病和神经退行性疾病等。

通过关联分析，我们可以发现与某个特定性状或疾病相关的SNP位点，进一步了解其遗传机制，发现相关基因以及相关通路，为疾病的预测、诊断和治疗提供重要的线索。

SNP位点数据的分析离不开高通量测序技术的支持，如基因芯片和下一代测序。

这些技术的发展使得大规模SNP位点分析成为可能，相对应的数据处理和分析方法也在不断更新和改进。

然而，SNP位点数据分析中也存在一些挑战和限制，如缺乏样本数量和SNP位点的不均匀分布，这些问题需要继续研究和解决。

总结起来，SNP位点数据分析在人类遗传学研究中具有重要作用。

snp位点比对方法

snp位点比对方法在基因组学和生物信息学领域，SNP（单核苷酸多态性）位点的比对分析是研究基因变异和关联研究的重要步骤。

本文将详细介绍几种常见的snp位点比对方法，以供研究者参考。

一、基于序列比对的snp位点比对方法1.BLAST（Basic Local Alignment Search T ool）：BLAST是一种广泛应用于生物信息学领域的序列比对工具，通过将待查询的SNP序列与数据库中的序列进行比对，从而找到相似性较高的序列。

研究者可以根据比对结果判断SNP位点的保守性及其在基因组中的位置。

2.Clustal Omega：Clustal Omega是一种多序列比对工具，适用于对多个SNP序列进行全局比对。

该工具采用了一种高效的算法，可以在短时间内完成大规模序列比对，有助于分析SNP位点在不同物种或个体之间的变异情况。

二、基于变异位点的snp位点比对方法1.dbSNP：dbSNP（Single Nucleotide Polymorphism Database）是一个包含大量已知SNP位点的数据库。

研究者可以通过dbSNP查询特定SNP 位点的相关信息，如染色体位置、基因型频率等。

此外，dbSNP还提供了与其他数据库的链接，方便研究者进行更深入的研究。

2.SNPpy：SNPpy是一个基于Python的snp位点比对工具，可以快速识别和注释样本中的SNP位点。

该工具支持多种输入格式，如VCF（Variant Call Format）、CSV等，并提供了丰富的过滤和统计功能，以满足研究者的不同需求。

三、基于群体遗传学的snp位点比对方法1.PLINK：PLINK是一个用于群体遗传学研究的软件工具，可以处理大规模的SNP数据。

通过PLINK，研究者可以进行snp位点比对、关联分析、群体分层等研究。

此外，PLINK还支持多种遗传图谱和基因型填充方法，为研究者提供了强大的分析功能。

2.EIGENSTRAT：EIGENSTRAT是一种基于PCA（主成分分析）的群体分层校正方法，适用于snp位点比对和关联研究。

基于生物信息学的snp候选位点搜寻方法

［9］。近年来已发展了一些针 D!N）进行再测序
最常见的人类遗传变异是基因组中散在的单个碱基的不同（主要为单个碱基的置换，也包括单个碱基的缺失和插入）— 即单核苷酸多态性（ 7()*+, )-.+,/0(1, 5/+23/456(73，。作为一种遗传多态，数量众多、易 !"#） !"# 具有分布广泛、于批量检测等优点，并已用于人类 “第三代基因图” 的绘制。由于这些基因组序列变异可以导致个体间表型的差异以及不同个体对疾病，特别是复杂疾病的易感性和对环境因素、药物反应的差异。因此， !"# 作为一种重要的遗传学工具的
［B］重叠区域。
性结果。而为了解决后两个有关测序质量的问题，可以通过从 <!* 测序中心如英国的 !75A4G 中心（ !75A4G .45M4G）、美国的国立癌症研究所（"7M@F57H .75/4G (5PM@MKM4）以及华盛顿大学的基因组测序中心（345FD4 !4SK45/@5A .45M4G， U7PO@5MF5 ?5@V4GP@T 直接获得原始测序的曲线数据文件（ MG7/4 N@H4），然后应用 ML）
［:］点。这些侯选 !"# 位点可以用实验室方法加以验证。
%
基因组序列比较法
如前所述，公开数据库已累些信息正成为有效识别 !"# 的重要数据源。大规模基因组测序所采用的 6%.P （ W7/M4G@7H 7GM@N@/@7H /OGFDPFD4P）和（#2 ) W7P4J 7GM@N@/@7H /OGFDFPFD4P）平均可插入约 2018W 的 #%.P 外源序列，为了保证能够准确拼接，在这些间隔约 2118W 的相邻 6%.P 或 #%.P 之间有一段重叠区域，以保守的 21C 重叠率计算，每一个克隆都将与左右相邻克隆重叠约 2相当于扫描不同个体间的序列多态性。由于其染色体也有 :1C 的机会来源不同，即一条来自父方而另一条来自母方。当文库是以不同个体的这一机会则接近 211C 。比较重叠区域 $"% 混合而构建时，以搜寻侯选 !"# 位点并用实验室方法加以验证的流程如图 2 所示：比较两条序列的重叠区域发现 !"# 的几率等于此位点的杂合度，因此杂合度高于 ;1C 时， !"# 被发现的几率也大于 ;1C 。人们普遍认为这种杂合度高于 ;1C 的遗传标记以所以在相邻克隆 2 Z 2:11 [ 2 Z 0111 的频率出现于人类基因组，的每 =8W 重叠区域至少应该可以发现一个这样的 !"#。2>>Q 年华盛顿大学（U7PO@5AMF5 ?5@V4GP@ML）的 #K@ ) \75 ]XF8 等人在共 011 ^ =8W 的基因组序列重叠区内发现了 2:; 个侯选 !"# 位

如何进行标签SNP(Tag SNP)的选择(haploview与hapmap)

A better description is needed that includes the tagging algorithm, the LD(r2) cut-off and the version of the HapMap CHB reference data used.用hapmap载入基因后，用Haploview来选Tag SNP的，但是发现和某些文献报道的Tag SNP不同，这个很正常，在参数不改变的前提下，Haploview选择tagSNP存在一定的随机性。

例如，假设位点A，B，C，D处于同一个单倍域内，通过运行Haploview的tagger program，你会发现A被选为tagSNP，并且位点A可以capture位点B,C,D。

但是如果你再运行一次tagger program，可能位点B被选择为tagSNP。

在这种情况下，你其实可以选择A,B,C,D中任何一个位点作为tagSNP（理想状态下）。

在这里，如果位点A是一个导致氨基酸改变的SNP位点，或者有功能研究认为该位点存在一定的功能时，你最好选择该位点，这样有利于你文章的讨论部分的说明。

貌似在运行“run tagger”前将r2值设定为1，就可以了。

hapmap上的数据一直在更新，所以如果你根据hapmap上的数据来选择tagsnp，必须提供数据库的版本号码：具体查询版本号的方法如图所示.tagging algorithm指的是什么？是什么公式啊？这是我投稿后审稿人给的我修稿意见。

他的意思是让我从这几方面描述如何选择tagging SNPs：A better description is needed that includes the tagging algorithm, the LD(r2) cut-off and the version of the HapMap CHB reference data used你说我怎么说呢？还有，我是不是得用Hapmap phase II genotype data？de Bakker PI, Yelensky R, Pe’er I, Gabriel SB, Daly MJ, et al. (2005) Efficiencyand power in genetic association studies. Nat Genet 37: 1217–1223.文章链接如下：http://good.gd/540445.htm爱番茄/Category/study/page/2挑选标签单核苷酸多态性（SNP tagging）是在疾病关联研究中节省费用的一个重要的策略，而且随着高密度HapMap计划的完成它变得更为重要。

SNP检测方法

基于SNPs 研究的单倍型图谱计划

寻找标记SNPs 的国际遗传变异图谱计划，即国际单倍型图谱计划(Haplotype Map Project)已于2002 年10 月正式启动，2003 年中国承担了“国际单倍型图谱计划”10% 的任务。 HapMap 计划的目标在于，确定人类基因组中普通模式的DNA 序列变异，通过测定序列变异特征、变异频率、它们之间的关联，绘出人类基因组的单倍型块，以及不同单倍型块的标记SNPs 。
SNP检测技术
理想的检测SNPs的方法
——发现未知的SNPs，或检测已知的SNPs

必须具备以下优点: (1) 适合自动化操作,简便、迅速; (2) 分析费用低,特殊试剂用量少; (3) 反应要严紧,即使不纯的样品也可得到可靠的结果; (4) 数据分析简单,易于自动化分析; (5) 反应的通量要大而灵活,一天可以完成几百，甚至到上百万个样品的检测与分析。

SNP应用前景

1、人类学研究中的应用：人类进化、不同人群、民族之间的关系、人类的起源、人类的迁移等（例如Y染色体SNP分型）。 2、遗传病的诊断和疾病的关联分析。 3、疾病相关基因的定位和克隆。 4、法医学中的个体识别和亲权鉴定。 5、个体化疾病预防，真正进入预防医学时代。 6、药物基因组学的应用：新药设计与发明，个体化疾病治疗与用药。
单核苷酸多态性（SNP）
林壹明 2011/5/9
主要内容
一、SNP概念、分类与特点二、SNP检测技术三、SNP研究现状四、SNP应用前景

SNP概念

SNP(single nucleotide polymophism) 即单核苷酸多态性，是指群体中变异频率大于1 %的单个核苷酸改变而导致的核酸序列多态性，包括转换、颠换、缺失和插入。但是比较常见的是转换和颠换，大约占 80%。一般来说，一个 SNP 位点只有两种等位基因，因此又叫双等位基因。SNP在人基因组中的发生频率比较高，大约平均每1000个碱基中就有一个多态位点。

HapMap解释

HapMap国际人类基因组单体型图计划（The International HapMap Project）是继国际人类基因组计划（The Human Genome Project，HGP）之后人类基因组研究领域的又一个重大研究计划。

HapMap计划起始于2002年，由美、加、中、日、英、尼日利亚等国研究机构发起、参与及完成。

中国科学家们由中科院北京基因组所牵头，承担3号、21号和8号染色体短臂单体型图的构建，约占总计划的10％。

项目共取样270个正常个体，其中欧洲30个三联家系，亚洲45个中国人，45个日本人，非洲30个三联家系。

一期计划于2005年完成，共成功分型100多万个多态性位点，也称单核苷酸多态性（SNP）位点，全基因组平均3kb一个SNP位点。

由于染色体块状结构，也即连锁不平衡的存在，一期数据可以捕获大部分基因组上的遗传差异信息。

二期数据共成功分型300多万个SNP位点，密度约为一期数据的3倍，构建起一张精度更高信息更完整的多人种遗传多态图谱。

可以说正是这些遗传多态位点的存在，在遗传体质上，你我之间有了个体差异，不同人种之间有了种群差异。

HapMap计划建立了人类全基因组遗传多态图谱，依据这张图谱我们可以进一步研究基因组的结构特点以及SNP位点在人群间的分布情况，为群体遗传学的研究提供数据，为遗传性疾病致病基因在基因组上的定位提供高密度的SNP位点。

HapMap的构建分为三个步骤：（a）在多个个体的DNA样品中鉴定单核苷酸多态性（SNPs）；（b）将群体中频率大于1%的那些共同遗传的相邻SNPs组合成单体型；（c）在单体型中找出用于识别这些单体型的标签SNPs。

通过对图中的三个标签SNPs进行基因分型，可以确定每个个体拥有哪一个单体型。

二期数据的在密度上大大提高，给各种基因组精细研究提供了更大的支持。

结合群体遗传学的研究手段，我们可以更加深入地去观察和研究使我们之所以成为我们的基因组。

利用HapMap数据发现人类基因组中正选择的_候选区域_汪雁

中发挥了重要的作用。此研究将为后续的人类进化和自然选择研究提供新的线索。
关键词: 人类基因组国际单体型图计划; 正选择; 群体基因组学
中图分类号: Q 39
文献标志码: A
正选择 ( Posit ive Se lect ion ) 是人类历史中自然 ( 2)通过群体基因组学策略发现正选择 / 候选区
验分布的四分位区间 ( in ter - quartile rang e, IQR ):
Q = FU - FL
( 2)
其中 FU 和 FL 分别是上、下四分位值。则上、下
分界值为:
UL = FU + 1. 5Q
( 3)
LL = FL - 1. 5Q
( 4)
所有大于上分界值 ( UL ) 或小于下分界值 (LL )
选择的主要类型, 可以对表型产生多种影响。确定域 0, 建立正选择图谱; ( 3) 通过分析正选择 / 候选窗
基因组中自然选择信号将有助于鉴定影响人类表型的功能区域。近来许多针对自然选择的研究均发
口 0的遗传分化程度 ( FST ) 以及人群间正选择信号的分布差异探讨正选择在人群分化中的作用。
第 3期
汪雁等: 利用 H apM ap数据发现人类基因组中正选择的 / 候选区域 0
# 295#
基于 H apM ap计划第 Ñ 期的 Hi s数据从 http: / / hg - w en. uch icago. edu / selection[ 1] 下载, 而 FST 数据从 http: / /b ighapm ap. b ig. ac. cn[ 9] 下载。 112 基于窗口平移 ( w indow - sl ide) 的群体遗传学