代谢物c编号

合集下载

代谢物c编号
代谢物常见的ID号有KEGG ID、Pubchem CID、HMDB ID、SMILES等。

以下是这些编号的介绍：
- KEGG ID：KEGG数据库对代谢物建立的编号，格式为“C(0-9){5}”，其中“C”代表Compound，后面五位数字为顺序号。

- Pubchem CID： Pubchem数据库对代谢物建立的编号，是NCBI: National Center for Biotechnology Information数据库的子库。

Pubchem目前收录了近一亿个Compound的全面信息，是最大的开源化合物库。

Pubchem CID的格式为单纯的数字，即顺序号。

- HMDB ID：HMDB数据库对代谢物建立的编号，该数据包含了丰富的代谢物来源和分布信息（尤其是代谢物相关疾病信息）。

HMDB ID的数据格式发生过一次调整，新版的HMDB ID 格式为“HMDB(0-9){7}”，其中“HMDB”后面跟着7位数的顺序号；旧版的HMDB ID格式为“HMDB(0-9){5}”，其中“HMDB”后面跟着5位数的顺序号。

- SMILES：一种线性描述代谢物结构的字符串。

SMILES的本质是使用文本记录原子（节点）和键（边）从而记录代谢物结构（图）。

一个代谢物结构往往可以书写为多个SMILES，但一个SMILES只会表示一个确定的代谢物结构。

使用canonicalization算法生成canonical SMILES可以保证一个代谢物结构只能书写为一个canonical SMILES。

不同的代谢物可能有不同的编号，这些编号可以帮助我们识别和区分不同的代谢物。

如果你想了解某个具体的代谢物编号，可以再次向我提问。