肿瘤里的基因突变数据库，你知多少？

合集下载

癌症基因突变数据挖掘与生物信息学分析

癌症基因突变数据挖掘与生物信息学分析近年来，癌症的发病率持续上升，成为威胁人类健康的主要疾病之一。

癌症的发生往往与基因突变密切相关。

因此，对于癌症基因突变数据的挖掘与生物信息学分析变得尤为重要。

本文将详细探讨如何利用生物信息学的方法分析癌症基因突变数据，为癌症的早期预测和治疗提供理论依据。

首先，为了进行癌症基因突变数据的挖掘，我们需要获取相应的数据集。

目前，公开的癌症基因突变数据库包括COSMIC、TCGA等，这些数据库收集了大量患者样本的基因突变信息。

通过下载已公开的数据集，我们可以进行后续的生物信息学分析。

在数据集准备完毕后，我们可以开始对癌症基因突变数据进行挖掘和分析。

生物信息学分析的第一步是对数据进行预处理。

预处理的目的是去除噪声数据，保留有效的突变信息。

常见的预处理方法包括数据清洗和特征选择。

数据清洗主要涉及到对数据中的缺失值、异常值等进行处理。

对于缺失值，可以选择删除或者填充。

删除缺失值的方法包括删除含有缺失值的行或列，填充缺失值的方法包括平均值、中值或者最近邻值等。

异常值的处理可以采用平滑法或者替换法。

特征选择是生物信息学分析中的关键步骤，其目的是从大量的基因特征中筛选出与癌症发生相关的特征。

特征选择方法包括过滤式方法、包裹式方法和嵌入式方法。

常用的过滤式方法包括方差过滤和相关系数过滤，包裹式方法包括递归特征消除和遗传算法，嵌入式方法包括LASSO和岭回归等。

通过特征选择，我们可以减少数据集的维度，提高分析的效率。

在数据预处理完成后，我们可以进行癌症基因突变数据的挖掘和分析。

常见的分析方法包括聚类分析、关联规则挖掘、决策树和支持向量机等。

聚类分析可以将癌症样本划分为不同的簇，从而识别出不同亚型的癌症。

关联规则挖掘可以找出基因之间的关联性，从而发现潜在的癌症相关基因。

决策树和支持向量机可以建立预测模型，帮助诊断和预测癌症。

这些方法的选择根据数据的特点和问题的要求进行。

除了基本的挖掘和分析方法，还可以引入更复杂的模型和算法进行癌症基因突变数据的分析。

SomamiR：肿瘤细胞miRNA突变位点专用数据库

SomamiR：肿瘤细胞miRNA突变位点专用数据库SomamiR是microRNA（miRNA）及其靶点中癌症体细胞突变的数据库，集成了多种类型的数据，用于研究体细胞和种系突变对癌症中miRNA功能的影响。

数据库还提供了存在miRNA靶序列体细胞突变与肿瘤相关的基因及其参与的通路。

这些突变可能改变miRNA与竞争性内源RNA（ceRNA）之间的相互作用，包括mRNA，环状RNA（circRNA）和长非编码RNA（lncRNA），它还为这些体细胞突变的功能分析提供了一个集成平台。

SomamiR DB在miRNA或与癌症密切相关的靶位点中包含体细胞和种系突变的集合。

具体而言，这些突变中的大多数符合以下标准（a）与GWAS或CGAS中的癌症风险相关；（b）有实验证据表明该突变改变了miRNA的功能。

通过点击将miRNA相关多态性与癌症或癌症相关联的实验证据，可以浏览符合这些条件的miRNA及其靶位点的突变。

实验证据分别将miRNA中的多态性与癌症联系起来。

SomamiR/SomamiR/home.phpSomamiR主页SomamiR DB包含体细胞突变，可改变mRNA，lncRNA和circRNA中的miRNA序列和miRNA靶位。

我们通过将它们与大量GWAS，CGAS，KEGG途径相关联来注释这些体细胞突变。

集成了新开发的Web服务器miR2GO，用于功能分析miRNA种子中的体细胞突变。

如上图所示，我们可以从六个模块认识、使用这个数据。

Somatic mutations in miRNA sequence查看miRNA序列中的体细胞突变我们可以在中间框框这里滑动待选的癌种类型，提交后可以看到下面表格中进行更新，可以看到对于的microRNA ID对于的突变和突变ID、位置、数目、样品名称、癌症类型（组织位置）还有miR2GO 对体细胞突变的功能分析。

点击蓝色类型的字，可以跳转相关链接。

这个数据表也是可以下载的。

第四章人类基因组变异数据库

基因组浏览器同样是检索和观察多态性的最好
工具。
人类基因组浏览器有三个；EnsemblUCSC人类
基因组浏览器（UCSC-HGB）和NCBI Map Viewer，他们都保持着对人类基因组SNP不同水平的注解，但三者都没有保留突变的资料。
三个浏览器中大部分信息是重叠的,但它们
各自含有一部分独特的信息和资料，所以至少
GDB数据库还包括了与核酸数据库
GenBank和EMBL、遗传疾病数据库OMIM、文献摘要数据库Medline等其他网络信息资源的超文本链接。 GDB数据库是国际合作的成果，其宗旨是为从事基因组研究的生物学家和医护人员提供人类基因组信息。
第四节观察SNP和突变的工具
一、在基因组水平上观察SNP和突变的工具人类基因组是SNP和变异资料的最终框架，
库。与dbSNP不同的是，HGVbase试图将所有已知
SNP概括为一组精简的记录，HGVdase是被严格筛选和注释的。
HGVbase是一个可被广泛应用的数据库，还
提供一些对实验设计很有帮助的工具，包括
一个特定单元型的标记工具——Tag’nTell。
该工具能够找出可以特异描绘所选择单元型所需的、根据用户说明最少的一组标记物。 HGVbase搜索界面比较简单，提供的工具可以促进对数据库进行的BLAST搜索和关键词查询。
第二节突变数据库
突变数据库是根据功能定义的，并且和疾病性质与流行以及疾病传播渠道都有密切的联系。本节介绍几个目前能够检索和提供更大资源的链接的中央资源，而其他集中的
数据库可以通过公共网查询。
一、人类基因变异数据库
人类基因变异数据库（HGMD）收集公开发表引起人类遗传疾病的胚系突变信息。其范围限定在导致明确遗传表现型的突变，体细胞突变和线粒体突变也列入其中。 HGMD接受来自于研究者提交的资料。但大多记录直接来自超过250种期刊中的突变报道和有广泛链接的LSDB（链路状态数据库）。

肿瘤基因突变：从NEJM到COSMIC数据库

肿瘤基因突变：从NEJM到COSMIC数据库介绍今天的内容之前，我们先介绍两个概念：1. Somatic Mutation（体细胞突变）Somatic mutations are a result of changes in the DNA of somatic cells, also called body cells,of an organism, and not in the germ cells. Examples of body cells include the cells of the skin, liver, bone marrow, eyes, etc.2. Germline Mutation（⽣殖系突变）Germline mutations occur as a result of changes in the DNA of germ cells. Germ cells are those cells that produce gametes, more specifically spermatogonia in males and oogonia in females. In males, these occur in the testes, while in females, they occur in the ovaries.下⾯我们先简单看⼀篇今年⼋⽉份新英格兰杂志上刚发表的⽂章：Inherited DNA-Repair Gene Mutations in Men with Metastatic Prostate Cancer.N Engl J Med. 2016 Aug4;375(5):443-53.⽂章对692例转移性前列腺癌男性患者DNA修复有关的⽣殖系基因突变（germline mutation）通过全外显⼦组进⾏了测序（测序深度100X，illumina Hiseq 2500和Miseq 100bp PE测序），检测的样本为：⼝腔拭⼦、⾎沉棕黄层、外周⾎、唾液、配对肿瘤和癌旁组织，并将结果与普通⼈群和局限性前列腺癌进⾏了⽐较，结果发现突变频率显著⾼于前者（11.8%），⽽与年龄、家族史并⽆显著差异。

查询肿瘤突变基因的方法

查询肿瘤突变基因的方法肿瘤的发生与发展与基因突变密切相关。

了解和查询肿瘤突变基因对于疾病的诊断、治疗及预防具有重要意义。

本文将详细介绍几种查询肿瘤突变基因的方法。

一、肿瘤基因数据库查询1.OncoKB：OncoKB是一个权威的肿瘤基因数据库，提供了丰富的肿瘤相关基因突变信息，包括基因变异、药物敏感性、临床研究等。

用户可以通过基因名称、变异类型等关键词进行搜索。

2.COSMIC（Catalogue of Somatic Mutations in Cancer）：COSMIC 数据库收录了大量肿瘤体细胞突变信息，包括基因突变、基因表达、药物靶点等。

用户可以通过基因名称、肿瘤类型等条件进行查询。

3.TCGA（The Cancer Genome Atlas）：TCGA是一个癌症基因组图谱项目，提供了多种癌症类型的基因突变数据。

用户可以通过基因名称、癌症类型等关键词进行搜索。

二、生物信息学工具分析1.MuPIT（Mutation Position Impact Tool）：MuPIT是一个在线生物信息学工具，可以分析基因突变对蛋白质结构的影响。

通过输入基因名称和突变位置，可以查询到突变对蛋白质功能的影响程度。

2.SIFT（Sorting Intolerant From Tolerant）：SIFT是一个预测基因突变的生物信息学工具，通过分析氨基酸替换对蛋白质功能的影响，判断突变是否具有致病性。

3.PolyPhen-2（Polymorphism Phenotyping）：PolyPhen-2是一个预测单核苷酸多态性（SNP）对蛋白质功能影响的生物信息学工具，也可用于分析基因突变。

三、实验方法1.PCR（Polymerase Chain Reaction）：聚合酶链式反应，是一种检测基因突变的方法。

通过设计特异性引物，扩增目标基因片段，然后进行测序分析，可以检测到基因突变。

2.NGS（Next-Generation Sequencing）：下一代测序技术，是一种高通量、高灵敏度的基因检测方法。

TMB检测：你想知道的，都在这里了（更新版）

TMB检测：你想知道的，都在这里了（更新版）展开全文PD-1抑制剂，包括PD-1抗体、PD-L1抗体，单独使用的有效率是偏低的；但是一旦起效，疗效相对是十分持久的，甚至部分晚期癌症病友可以实现临床治愈，长期生存。

详见：PD1抗癌最长随访数据震撼发布：这些病友临床治愈了。

为了在用药之前就把更可能从PD-1抑制剂等免疫检查点抑制剂中获益的“幸运患者”挑选出来。

学术界已经开发出众多的预测标志物，如：PD-L1表达、TMB检测、MSI检测、dMMR检测、TIL检测、肠道菌群分析等。

今天贝塔博士，重点解析一下TMB。

1. 什么是TMB检测？TMB，全称是“肿瘤基因突变负荷”，tumor mutational burden。

说白了，就是看看病人肿瘤组织中到底有多少个基因突变，是一个数数的活。

肿瘤组织中突变的基因越多，就越有可能产生更多的异常的蛋白质；这些异常的蛋白质，就越有可能被免疫系统识破，从而激活人体的抗癌免疫反应，因此对肿瘤免疫治疗的疗效就越好。

2. TMB检测是怎么做的？人体的每一个细胞，大约有3万多个基因，每个基因都有可能发生多种多样的突变（点突变、缺失突变、插入突变、融合突变、重复突变等）。

因此，如果要真正把全部基因到底有没有突变，到底产生了多少个突变搞得一清二楚，就需要大动干戈，把癌细胞基因组全部测一遍，这就耗时耗力耗钱了。

目前已经有越来越多的证据，尤其是美国最大的基因检测公司Foundation Medicine的科学家做的相关研究显示，只要对人体3万多个基因中的数百个有代表性的基因，做一下深入分析，相当于抽样调查了，就可以大致反应总体的情况了。

因此，目前国内外的公司基本采用的都是各自设计出来的数百个基因的一个套装，把这数百个基因恰好可以用来指导靶向药的选择，又可以用来作为抽样调查的标本，从而推算出来病人TMB的高低，每百万个碱基所含有的突变个数来度量。

一般认为：TMB超过20个突变/Mb（Mb代表的就是每百万个碱基），就是高；低于10个突变/Mb，就是低。

收藏级资源肿瘤数据库汇总

---------------------------------------------------------------最新资料推荐------------------------------------------------------收藏级资源肿瘤数据库汇总收藏级资源|肿瘤数据库汇总现如今，随着人们生活方式和环境的改变，恶性肿瘤已经成为疾病死亡病因之一。

肿瘤在全球呈现发病率增高，以及发病年龄年轻化的趋势。

2019 年，A Cancer Journal For Clinicians 杂志发布了最新的数据。

该报告估计，2019 年美国将有 1,762,450 例新的癌症病例和606,888 例与癌症相关的死亡。

传统化疗是对抗癌症的常见方法，但它会攻击全身，造成不必要的副作用，如脱发，恶心和疲劳。

靶向治疗选择性地杀死癌细胞而不影响健康组织。

靶向药物开发将成为治疗癌症的重要手段。

图 1 肿瘤靶向治疗高通量检测技术迅速发展，使得与肿瘤相关的组学数据迅速积累。

这些数据对于研究肿瘤的发生发展机制具有重要意义。

对数据的挖掘能够确定许多与疾病有关的基因，为治疗和发病机制的研究提供新的思路。

如何有效利用和存储这些信息就显得尤为重要。

肿瘤的生物信息学数据库的建立提供了有效的解决方案，对肿瘤基础研究的发展、临床治疗水平的提高具有极大的推动作用。

以下是一些肿瘤相关的数据库分类和大致的信息。

1/ 311. 综合性肿瘤数据库2. 肿瘤基因组数据库3. 肿瘤 DNA 甲基化数据库4. 肿瘤转录组数据库5. 肿瘤蛋白组数据库---------------------------------------------------------------最新资料推荐------------------------------------------------------ 6. 肿瘤相关基因的数据库 7. 肿瘤与药物数据库 1. 综合性肿瘤数据库综合肿瘤数据库汇总如表 1 所示。

Oncomine：一个肿瘤相关基因研究的数据库--转载

Oncomine：⼀个肿瘤相关基因研究的数据库--转载如果你获得了⼀个肿瘤差异表达基因，想研究其是否可作为某种肿瘤的潜在标志物和靶点，⼜怕做实验会得到阴性结果，浪费时间和⾦钱，这时候你就应该想到Oncomine数据库了()。

Oncomine整合了GEO、TCGA和已发表的⽂献等来源的RNA和DNA-seq数据，只要你⽤⾮营利机构邮箱注册了就可以免费使⽤了。

下⾯就以ERBB2基因为例跟着⼩诺⼀步⼀步搞定Oncomine吧。

第⼀步：ERBB2在肿瘤中的表达在搜索框中输⼊ERBB2并设定P值、差异表达倍数和差异的排序就可以得到这个基因在各类肿瘤中的差异表达数据。

如下图所⽰，在有差异表达的数据中，ERBB2在膀胱癌、脑和神经瘤、乳腺癌和前列腺癌中⾼表达的⼏率较⾼（红⾊表⽰⾼表达，颜⾊越深表达量越⾼，蓝⾊反之）。

第⼆步：ERBB2在乳腺癌中的表达为进⼀步分析ERBB2在我感兴趣的乳腺癌中的表达，点击左侧的数据筛选区⾥选择Breast cancer、Cancer vs. Normal和Clinical Specimen 即可知道其在乳腺癌组织中的表达量是否升⾼。

第三步：ERBB2的表达与乳腺癌TNM分期、分化和⽣存时间等临床病理特点及预后的关系点击样本量较⼤、数据可信度⾼的TCGA Breast或Curtis Breast，在GROUPED BY窗⼝中选择相应的临床资料分组就可得出ERBB2在相应的临床资料分组中的表达量。

第四步：ERBB2共表达基因分析在Analysis Type中选择Coexpression Analysis，即可获得与ERBB2表达正相关性较⾼的基因。

第五步：寻找差异表达基因若是还不知道从哪个基因下⼿，没关系，Oncomine也能帮你解决。

在左侧选择Cancer Type和Cancer vs. Normal即可得到差异表达基因。

选择多个乳腺癌，点击compare即可获得多个数据中肿瘤⾼表达基因。

人类基因突变及疾病相关数据库

人类基因突变及疾病相关数据库人类基因突变及疾病相关数据库1. HGMD人类基因变异数据库（HMGD）收集公开发表的引起人类遗传疾病的胚系突变信息。

范围限定在导致明确遗传表型的突变，体细胞突变和线粒体突变也列入其中。

HGMD检索界面主要以文本为基础，目标检索依赖正常的基因的HUGO命名知识。

2. HGBASE(Gwas central)人类遗传双等位基因序列数据库（HGBASE）是人类基因从启动子到转录终点，即基因及其前后所发现的所有单核苷酸多态性和其他变化的数据库。

3. OMIM人类孟德尔遗传在线（OMIM）是以人类孟德尔遗传与疾病（MIM）为基础的人类基因及其相关突变的在线目录。

可用于查找疾病相关基因及位点，并涵盖了不同程度的综合性疾病的资料。

4. KMDB/MutationView/MutationView/jsp/index.jspKeio Mutation Databases, 提供人类疾病相关基因突变，涵盖眼、耳、心脏、肿瘤、自身免疫性疾病、肌肉及血液等方面疾病基因。

5. KinMutBase酪氨酸激酶区域突变导致疾病的数据库，同时可链接其他突变数据库。

6. Atlas Chromosomes in CancerAtlas of Genetics and Cytogenetics，提供癌症和癌症倾向疾病的生物学和分子方面信息。

7. dbSNP人类单核苷酸多态性数据库（dbSNP）是由NCBI与人类基因组研究所合作建立的，关于单碱基替换以及短片段插入、删除多态性的资源库。

8. TGDB肿瘤基因家族数据库（TGDBs）包含了有关肿瘤的一系列基因数据，如：原癌基因和抑癌基因。

基因信息包括：原癌基因的激活、调节的机制、在不同癌症类型中的相关频率以及染色体的定位。

有关蛋白的信息包括：该蛋白存在于何种细胞类型，亚细胞的定位，DNA序列，配体的结合，在发育过程中的作用等等。

9. CGAP癌症基因组剖析计划（CGAP）是由NCI建立和主持的交叉学科的计划，用来产生用于解码肿瘤细胞的分子就够所需的信息和技术工具。

基因突变数据库介绍

The majority of cancers occur sporadically in individuals. These are thought to be the result of multistep tumorigenesis, during
which occur in a series of genes that play important roles in the regulation of growth, differentiation and apoptosis. However, some cancers occur rarely but repeatedly in different members of the same family, and this is considered to be familial cancer in which involved.
At present, a number of computer databases for molecular information on cancer-related genes are available publicly throu Mutation Database and Central Mutation Database
somatic mutations
germline mutations
are known to be
A Number of Databases
The changes in nucleotide sequences and expression patterns of cancerrelated genes are being extensively studied to better understand the mechanisms of tumorigenesis.

COSMIC遗传资源数据库

COSMIC遗传资源数据库COSMIC遗传资源数据库1.简介COSMIC是一个在人类癌症中发现的体细胞获得性突变的在线数据库。

体细胞突变是在非生殖细胞中发生的，不是由儿童遗传的。

COSMIC是癌症中体细胞突变目录(Catalogue Of Somatic Mutations In Cancer)的首字母缩写，它从科学文献中的论文和桑格研究所癌症基因组计划的大规模实验筛选中提取数据。

该数据库可供学术研究人员免费使用，并可向其他人商业许可。

COSMIC数据库旨在收集和显示有关癌症体细胞突变的信息。

它于2004年推出，仅有四种基因HRAS，KRAS2，NRAS和BRAF的数据。

已知这四种基因在癌症中是体细胞突变的。

自创建以来，数据库迅速扩展。

到2005年，COSMIC包含从115,327个肿瘤中筛选出的529个基因，描述了20,981个突变。

到2009年8月，它包含了150万次实验的信息，包括近370,000个肿瘤中的13,423个基因，并描述了超过90,000个突变。

2010年7月发布的COSMIC第48版，与国际癌症研究机构合作，整合了p53的突变数据。

此外，它还为最新的人类参考基因组构建提供了更新的基因坐标。

以后每3 个月更新一次。

该网站专注于以图形方式呈现复杂的表型特异性突变数据。

数据取自选定的基因，最初在癌症基因普查中，以及PubMed的文献检索。

可以通过选择基因或癌症组织类型（表型）来访问数据，使用按功能浏览或搜索框。

结果显示具有突变计数和频率的摘要信息。

基因摘要页面提供了突变谱图和外部资源;表型（组织）摘要页面提供了突变基因的列表。

COSMIC数据库包含数千种与癌症发展有关的体细胞突变。

该数据库从两个主要来源收集信息:•(1)从文献中收集已知癌症基因的突变。

经历人工治疗的基因列表通过它们在癌症基因普查中的存在来确定。

•(2)纳入数据库的数据来自癌症基因组计划进行的癌症样本的全基因组重测序研究。

基因突变数据库介

基因突变数据库介绍ppt xx年xx月xx日contents •引言•基因突变数据库概述•基因突变数据库的应用•基因突变数据库的未来发展•结论目录01引言介绍基因突变数据库的意义01基因突变数据库是生物信息学研究的重要方向之一，对于基因组学、遗传学和医学等领域的研究具有重要意义。

02基因突变会导致遗传性疾病和癌症等多种疾病，而基因突变数据库可以记录和分析这些突变，为研究这些疾病的原因和机制提供支持。

03基因突变数据库也可以帮助科学家更好地理解基因的多样性和演化，为药物研发和个性化医疗等方面提供参考。

基因突变数据库的应用前景基因突变数据库在医学和生物技术领域具有广泛的应用前景。

同时，基因突变数据库也可以为新药研发提供重要的参考信息，帮助科学家更快地找到潜在的治疗方法。

例如，通过分析基因突变数据库，可以帮助医生更好地诊断和治疗遗传性疾病和癌症等疾病。

此外，基因突变数据库还可以应用于农业和生态学等领域，为作物改良和环境保护等方面提供支持。

本次介绍将包括基因突变数据库的基本概念、发展历程、现状和未来趋势等方面。

通过详细了解基因突变数据库的背景和应用，可以更好地了解其重要性和价值，为相关领域的研究和应用提供参考。

本次介绍的概要02基因突变数据库概述基因突变是指DNA分子中发生碱基对的替换、增添和缺失，导致基因结构改变的现象。

基因突变是生物进化的重要驱动力，也是生物多样性的重要来源。

基因突变的基本概念基因突变的常见方式包括点突变、插入突变、缺失突变、倒位和易位等。

基因突变的常见原因包括DNA复制错误、环境因素影响、化学物质诱导、辐射诱导等。

基因突变的方式和原因基因突变数据库的建立需要收集、整理和注释大量的基因突变数据。

基因突变数据库的建立及分类基因突变数据库可以分为突变数据库和疾病相关数据库两类。

突变数据库主要收集基因突变类型及其频率等信息，用于研究突变与生物进化、物种分化等方面的关系；而疾病相关数据库则主要收集与特定疾病相关的基因突变信息，用于研究疾病发生、发展和治疗等方面的规律。

肺腺癌基因

肺腺癌基因
肺腺癌是一种肺癌的亚型，通常与特定的基因突变或异常有关。

以下是与肺腺癌相关的一些常见基因和突变：
1.EGFR基因（表皮生长因子受体）：EGFR基因突变是肺腺癌中最
常见的遗传变异之一。

这些突变可以导致癌细胞过度增殖和生长。

EGFR突变在一些肺腺癌患者中是可靶向的，因此针对EGFR 的靶向治疗药物已被开发出来。

2.KRAS基因：KRAS基因突变也在肺腺癌中很常见。

这些突变可
以导致不受控制的细胞生长和癌症发展。

然而，与EGFR突变不同，KRAS突变通常不容易通过靶向治疗药物来治疗。

3.ALK基因（酪氨酸激酶）：ALK基因突变或融合是一些肺腺癌患
者中的变异。

针对ALK融合的靶向治疗药物已被开发出来，用于治疗这一亚组的患者。

4.ROS1基因：ROS1基因融合是另一个在肺腺癌中的变异，可以
通过靶向治疗药物来处理。

5.BRAF基因：BRAF基因突变在一小部分肺腺癌患者中出现，与
细胞生长和癌症发展相关。

针对BRAF突变的靶向治疗药物也已经开发。

这些基因突变和融合对于肺腺癌的治疗和预后可以有重要影响。

因此，对于肺腺癌患者，基因检测和分子诊断可以帮助医生确定最佳的治疗方法，包括靶向治疗。

对于任何肺癌患者，建议在医生的指导下进行基因检测以确定最适合的治疗方案。

肿瘤基因检测报告单解读

肿瘤基因检测报告单解读1. 嘿，你知道肿瘤基因检测报告单上那些密密麻麻的数字和符号都代表啥吗？就好比你拿到一张神秘地图，每个标记都让人好奇又困惑！比如，看到某个基因突变，你难道不想知道这到底意味着什么吗？2. 哇塞，肿瘤基因检测报告单解读可真是个大学问呢！就像破解一道超级复杂的谜题。

你看，这里一个指标升高，那里一个突变出现，这不是让人心里七上八下的嘛！比如看到那个“+”号，你心里会不会“咯噔”一下呀？3. 哎呀呀，拿到肿瘤基因检测报告单，简直就像面对一个充满未知的宝藏盒子！这里面的信息可太关键啦。

就像走迷宫，一个指标可能就是指引方向的关键呢！比如说，看到某个基因的状态，你不想赶紧搞清楚它是好是坏吗？4. 嘿，肿瘤基因检测报告单解读可不简单哟！这就像是在翻译一种神秘的语言。

你想想，那些专业术语，不搞明白能行吗？比如那个长长的基因名字，你难道不好奇它背后的故事？5. 哇哦，面对肿瘤基因检测报告单，是不是感觉有点懵？这可真是个挑战呢！就好像进入了一个陌生的领域，一切都要从头学起。

比如看到那些奇怪的符号，你不会想找个人问问到底是啥意思吧？6. 哎呀，肿瘤基因检测报告单里藏着好多秘密呀！就跟隐藏在树林里的小路一样。

你得仔细找才能发现关键信息呢！像看到某个基因的表述，你难道不想知道它对健康的影响有多大？7. 嘿哟，解读肿瘤基因检测报告单，这可是个精细活呢！就如同在拼凑一幅复杂的拼图。

每一块都很重要呢！比如说，看到某个指标的异常，你不会紧张起来吗？8. 哇呀，肿瘤基因检测报告单可真是让人又爱又恨呀！爱它能提供信息，恨它那么难懂。

就像一个调皮的小精灵，让人捉摸不透。

比如看到一个不熟悉的基因位点，你难道不想搞清楚它的作用？9. 哎呀妈呀，肿瘤基因检测报告单的解读真的好关键啊！这简直就是决定命运的钥匙。

你想想，一个小小的指标变化，可能影响巨大呢！像看到那个危险信号一样的标注，你不会心里一紧吗？10. 嘿，朋友们，肿瘤基因检测报告单就像是一本神秘的魔法书！里面充满了神奇的代码和信息。

收藏级资源肿瘤数据库汇总

收藏级资源|肿瘤数据库汇总现如今，随着人们生活方式和环境的改变，恶性肿瘤已经成为疾病死亡病因之一。

肿瘤在全球呈现发病率增高，以及发病年龄年轻化的趋势。

2019年，A Cancer Journal For Clinicians杂志发布了最新的数据。

该报告估计，2019年美国将有1,762,450例新的癌症病例和606,888例与癌症相关的死亡。

传统化疗是对抗癌症的常见方法，但它会攻击全身，造成不必要的副作用，如脱发，恶心和疲劳。

靶向治疗选择性地杀死癌细胞而不影响健康组织。

靶向药物开发将成为治疗癌症的重要手段。

图1 肿瘤靶向治疗高通量检测技术迅速发展，使得与肿瘤相关的组学数据迅速积累。

这些数据对于研究肿瘤的发生发展机制具有重要意义。

对数据的挖掘能够确定许多与疾病有关的基因，为治疗和发病机制的研究提供新的思路。

如何有效利用和存储这些信息就显得尤为重要。

肿瘤的生物信息学数据库的建立提供了有效的解决方案，对肿瘤基础研究的发展、临床治疗水平的提高具有极大的推动作用。

以下是一些肿瘤相关的数据库分类和大致的信息。

1. 综合性肿瘤数据库2. 肿瘤基因组数据库3. 肿瘤DNA甲基化数据库4. 肿瘤转录组数据库5. 肿瘤蛋白组数据库6. 肿瘤相关基因的数据库7. 肿瘤与药物数据库1. 综合性肿瘤数据库综合肿瘤数据库汇总如表1所示。

表1综合性肿瘤数据库以下是对数据库的简要概述1.1 canEvolve[1]canEvolve存储的信息包括：基因、microRNA (miRNA)和蛋白质表达谱、多种癌症类型的拷贝数变化(CNAs)以及蛋白质-蛋白质相互作用信息。

1.2 cBioPortal for Cancer Genomics (cBioPortal)[2]cBioPortal for Cancer Genomics是一个癌症基因组数据探索、可视化及分析平台，可用于多个癌症基因组学数据集的交互式探索。

该数据库可提供CNA、基因突变信息。

肿瘤基因检测的解读流程

从临床进入基因检测流程是入口，检测结果结合临床信息进展合理解读是出口，这一入一出之间需经历检测前临床咨询局部、实验室局部、信息分析局部、临床解读局部共四个环节。

其中的第四局部临床解读局部即是根据检测结果、患者信息、医生共识综合判断，临床和遗传咨询有效衔接、充分沟通，最终出具临床解读报告。

在做成临床解读报告之前，首先需要将解读的各个环节进展明确，包括解读的步骤流程，解读的技术细节。

这样才有可能真正的做到解读的规化，使解读过程有据可依，有章可循，才能出具一份好的临床解读报告，基因检测才能更好的效劳患者和临床医生。

从大的框架讲，基因检测数据解读可分为三个步骤：原始数据→分析数据、基于数据库的解读→与患者个体表征/临床病例结合的解读。

1、读懂原始数据将测序的原始序列数据〔FASTQ〕去除接头及低质量序列，经BWA软件比对至GRCh37/38〔NCBI版本〕或hg19/hg38〔UCSC版本〕人类基因组参考序列上，Picard去除重复序列，使用GATK检测SNV与Indel变异，使用ANNOVAR进展变异注释。

最后获得一份.vcf文件〔图1〕。

图1 从测序的原始序列数据到vcf文件的流程一份vcf文件包含如下根本信息。

Chr：变异所在的染色体Start：变异在染色体上的起始位置End：变异在染色体上的完毕位置Ref：参考基因组的序列Alt：检测样本基因组的序列Func.refGene：变异所处参考基因的功能区〔exonic，intronic，UTR3，UTR5，splicing，upstream，downstream，intergenic〕〔此处的exonic特指外显子编码氨基酸区，不包括外显子的UTR区〕Gene.refGene：变异所处参考基因名称〔如果是基因间，那么是两侧的基因〕GeneDetail.refGene：非外显子区处于特定转录本中的具体位置〔如果是基因间，那么是距离两侧的基因的距离〕ExonicFunc.refGene：外显子区的变异类型〔frameshift insertion，frameshiftdeletion，stopgain，stoploss，nonframeshift insertion，nonframeshiftdeletion，synonymous SNV，nonsynonymous SNV〕，如果这一栏是一个“.〞的话，就说明该变异不在外显子区AAChange.refGene：氨基酸水平的改变〔同一个基因可能具有多个转录本，氨基酸改变的位置在不同的转录本中有可能不一样〕经注释后的vcf文件还会包含如下信息：CLINSIG：该变异在ClinVar数据库中的临床意义〔Benign，Likely benign，Uncertain significance，Likelypathogenic，Pathogenic，Drug-response〕CLINDBN：该变异所引起的疾病名称CLINACC：该变异的登记号和版本号〔VariantAccession and Versions〕CLINSDB：该变异所引起疾病所在数据库名称CLINSDB：该变异所引起疾病所在数据库中的IDPopFreqMax：该变异人群中的最大等位基因频率1000_All：该变异在千人基因组方案数据库中的人群等位基因频率1000_AFR：该变异在千人基因组方案数据库中非洲人群的等位基因频率1000_AMR：该变异在千人基因组方案数据库中美国人群的等位基因频率1000_EAS：该变异在千人基因组方案数据库中东亚人群的等位基因频率1000_EUR：该变异在千人基因组方案数据库中欧洲人群的等位基因频率1000_SAS：该变异在千人基因组方案数据库中南亚人群的等位基因频率Snp138：该变异在dbSNP数据库中的IDCosmic70：该变异在癌症体细胞突变数据库COSMIC中的IDESP6500siv2_ALL：该变异在美国国家心肺血液研究所的ESP6500数据库中的人群等位基因频率ESP6500siv2_AA：该变异在美国国家心肺血液研究所的ESP6500数据库中的非洲裔人群等位基因频率ESP6500siv2_EA：该变异在美国国家心肺血液研究所的ESP6500数据库中的欧洲裔人群等位基因频率ExAC_All：该变异在ExAC数据库中的人群等位基因频率ExAC_AFR：该变异在ExAC数据库中非洲人群的等位基因频率ExAC_AMR：该变异在ExAC数据库中美国人群的等位基因频率ExAC_EAS：该变异在ExAC数据库中东亚人群的等位基因频率ExAC_FIN：该变异在ExAC数据库中芬兰人群的等位基因频率ExAC_NFE：该变异在ExAC数据库中非芬兰欧洲人群的等位基因频率ExAC_OTH：该变异在ExAC数据库中除已指定人群之外的人群等位基因频率ExAC_SAS：该变异在ExAC数据库中南亚人群的等位基因频率CG46：该变异在CG46数据库中的人群等位基因频率。

OncoKB：肿瘤药物靶点相关基因组变异数据库

OncoKB：肿瘤药物靶点相关基因组变异数据库OncoKB收集了肿瘤发⽣发展相关的，具有临床意义的基因组变异信息，对于每个变异，提供了
其对应的⽣物学效应，药物互作，预后和治疗意义等详细信息，对应的⽂章链接如下
数据库的⽹址如下
该数据库以基因为中⼼，提供了每个基因上的变异，相关肿瘤类型，实验证据等信息，⽰意如
下
根据实验证据的来源和可信度，划分为下图所⽰的不同等级
其中level1和level 2A是具有临床意义的基因组变异，通过Actionable Genes菜单，可以查询基
因组变异与药物的互作信息，⽰意如下
点击每个基因ID, 可以查看该基因上所有的基因组变异，分为两类
1. Clinically Relevant Alterations
2. All Annotated Alterations
以ABL1为例，⽰意如下
通过Cacner Genes菜单，可以查询肿瘤原癌基因和抑癌基因的列表，⽰意如下
除了查询功能外，该数据库还提供了命令⾏⼯具，⽤于注释⾃⼰的基因组变异信息，⽀持SNV, CNV, 融合基因等信息的注释，该⼯具名为oncokb-annotator, ⽹址如下
该数据库中的信息已经被整合到了cBioPortal中，可以帮助科学家们更好的开展肿瘤研究。

·e n d·。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

肿瘤里的基因突变数据库，你知多少？
在肿瘤研究中，经常涉及到一些基因的突变研究，如下图文章里KRAS基因突变与未突变的细胞系选择。

总之，在课题方向上的突变基因的选择以及合适细胞系的采取都是一个令人纠结的问题，数据库的选择和利用将显得尤为重要。

以下就上述两方面（临床样本数据和基础科研中的细胞系数据）介绍几个数据库。

首先是临床样本数据库，其中一个比较好用的数据库是InternationalCancer Genome Consortium (ICGC)（网址：/），在里面可以查询自己想要查询的基因在临床样本里的突变情况。

如图演示，打开主页，可进行快速搜索，也可以高级搜索，
在快速搜索里输入想要查询的基因名称，以KRAS为例。

可以看到KRAS的摘要，一些基本信息和注释，注释包括参与的反应通路和GO注释，同时也可以看到KRAS在临床样本中突变起了很大作用，但还没有靶向药物。

我们重点关注突变，点击Mutations，
可以看到在很多临床项目和不同肿瘤类型中的KRAS突变情况，如果突变的多且还没有研究过，或许还有研究意义。

页面往下拉，还可以查看哪些位点突变的多，这个是很多其他数据库难以做到的，
可以看到，在KRAS G12D这个位点突变的情况最多。

当然，这个数据库还有其他功能，如上KRAS在胰腺癌中突变最多，我们可以在高级搜索中选择胰腺癌，查看基因，可以看到KRAS 排名第一，继续点击最右红框里的光标，
可看到突变与未突变生存曲线的比较，
ICGC这个数据库还有其他功能，大家可以自行探索一下。

第二个问题，在基础科研做突变基因研究，肯定离不开细胞，就如第一张截图文献里的细胞系选取，他们是怎么做到的，难道一个个测序？那肯定不是，有几个数据库可以了解一下。

第一个，CCLE（CancerCell Line Encyclopedia），翻译过来就是癌细胞百科全书，够牛逼了。

网址：/ccle，里面包含了很多癌细胞系的基因表达和突变的信息。

主页清晰简洁，哦对，需要注册一个账号，很简单。

比如，像上面文章里一样，查询的KRAS基因，可以看mRNA表达外,可以看突变的水平，我们直接看突变数据，
左边即为KRAS突变的细胞系，在下面方框里还可以搜索自己想要的细胞系有无突变，还可以查看突变位点（右边红框上），红框内可搜索突变位点，选择自己想要的细胞系和突变位点进行下一步实验。

同时，CCLE还可以输入细胞系，查看基因表达谱和某个基因有无突变及其突变位点，方法差不多，比如在首页输入HUH7细胞系，得到下图，进一步筛选想要的基因有无突变即可。

还有一个数据库，COSMIC（Catalogueof Somatic Mutations in Cancer），网址/cell_lines，这个数据库相比较CCLE而言，细胞系没有CCLE那么全，但功能比CCLE多，不仅能查询细胞，还能查询突变基因的一些其他相关信息。

首页如下图
上面的红框可直接输入基因查看基因相关信息，下面红框可以查看细胞系（只有一部分，没有CCLE那么全）。

基因以KRAS为例，细胞系以已有的HUH7为例，
可以看到guideline那里很多信息。

继续选择细胞系，
进去后可以看到这个细胞系的基本信息，还有circos图，以及突变的基因，可以搜索想要的基因，看看有无突变。

当然，以上数据库还有其他功能，有兴趣可以自行探索一下。

希望对大家有所帮助，谢谢！。

肿瘤里的基因突变数据库，你知多少？

癌症基因突变数据挖掘与生物信息学分析

SomamiR：肿瘤细胞miRNA突变位点专用数据库

第四章 人类基因组变异数据库

肿瘤基因突变：从NEJM到COSMIC数据库

查询肿瘤突变基因的方法

TMB检测：你想知道的，都在这里了（更新版）

收藏级资源肿瘤数据库汇总

Oncomine：一个肿瘤相关基因研究的数据库--转载

人类基因突变及疾病相关数据库

基因突变数据库介绍

COSMIC遗传资源数据库

基因突变数据库介

肺腺癌基因

肿瘤基因检测报告单解读

收藏级资源肿瘤数据库汇总

肿瘤基因检测的解读流程

OncoKB：肿瘤药物靶点相关基因组变异数据库

第四章人类基因组变异数据库