代谢物c编号
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
代谢物c编号
代谢物常见的ID号有KEGG ID、Pubchem CID、HMDB ID、SMILES等。
以下是这些编号的介绍:
- KEGG ID:KEGG数据库对代谢物建立的编号,格式为“C(0-9){5}”,其中“C”代表Compound,后面五位数字为顺序号。
- Pubchem CID: Pubchem数据库对代谢物建立的编号,是NCBI: National Center for Biotechnology Information数据库的子库。
Pubchem目前收录了近一亿个Compound的全面信息,是最大的开源化合物库。
Pubchem CID的格式为单纯的数字,即顺序号。
- HMDB ID:HMDB数据库对代谢物建立的编号,该数据包含了丰富的代谢物来源和分布信息(尤其是代谢物相关疾病信息)。
HMDB ID的数据格式发生过一次调整,新版的HMDB ID 格式为“HMDB(0-9){7}”,其中“HMDB”后面跟着7位数的顺序号;旧版的HMDB ID格式为“HMDB(0-9){5}”,其中“HMDB”后面跟着5位数的顺序号。
- SMILES:一种线性描述代谢物结构的字符串。
SMILES的本质是使用文本记录原子(节点)和键(边)从而记录代谢物结构(图)。
一个代谢物结构往往可以书写为多个SMILES,但一个SMILES只会表示一个确定的代谢物结构。
使用canonicalization算法生成canonical SMILES可以保证一个代谢物结构只能书写为一个canonical SMILES。
不同的代谢物可能有不同的编号,这些编号可以帮助我们识别和区分不同的代谢物。
如果你想了解某个具体的代谢物编号,可以再次向我提问。