1、不同基因ID转换
1.1 org.Hs.eg.db包
|
|
1.2 biomaRt包
|
|
2、鼠源基因转为人类基因ID
|
|
|
|
3、蛋白质与基因ID转换
4、化合物ID转换
4.1 网页转换
https://pubchem.ncbi.nlm.nih.gov/idexchange/idexchange.cgi
4.2 python工具转换
(1)https://pubchempy.readthedocs.io/en/v1.0.4/index.html
|
|
(2)简单用法如下
|
|
- ①可直接根据化合物CID,构建出pubchempy.Compound对象
|
|
-
②根据小分子属性值,搜索符合条件的小分子对象
仅支持6种属性:[“name”,“smiles”,“sdf”,“inchi”,“inchikey”,“formula”]
|
|
补充:MyGene
MyGene.info 是一个为生物信息学提供高效、统一、RESTful API 的基因注释服务平台,支持快速查询基因的ID转换、结构、功能、通路、蛋白、疾病、药物靶点等多种注释信息;数据来源整合了多个主流数据库(如 NCBI, Ensembl, UniProt, GO, KEGG, ChEMBL 等)。
- https://docs.mygene.info/en/latest/index.html
- https://github.com/biothings/mygene.info
- https://pypi.org/project/mygene/
使用方式也非常简单,可以直接通过API接口,也提供了封装好的Python、R包进行调用。下面简单记录其Python包的用法,方便以后使用。
|
|
方式1:根据指定的entrezgene/ensembl id查询
|
|
方式2:根据关键字匹配搜索
|
|
- 基本信息
字段名 | 含义 |
---|---|
_id / entrezgene |
主键,通常等于 Entrez Gene ID,如 1017 |
_version |
数据版本号 |
symbol |
基因符号,例如 CDK2 |
name |
基因全名,例如 “cyclin-dependent kinase 2” |
taxid |
NCBI 物种 ID,9606 表示人类 |
type_of_gene |
基因类型,如 protein-coding 、ncRNA 、pseudo 等 |
summary |
基因功能简要描述 |
alias |
其他名称或别名(例如缩写、旧称) |
other_names |
附加名称(全称、别称等) |
- 序列信息
字段名 | 含义 |
---|---|
accession |
基因相关的 GenBank/RefSeq accession 列表 |
refseq |
RefSeq 序列 ID(mRNA、protein、genomic 等) |
genomic_pos |
基因在最新人类基因组版本(如 hg38)上的位置 |
genomic_pos_hg19 |
在旧版本(hg19)上的位置信息 |
exons |
外显子位置(hg38) |
exons_hg19 |
外显子位置(hg19) |
-
生物通路与功能注释
字段名 含义 go
Gene Ontology 注释,包括 BP(生物过程)、MF(分子功能)、CC(细胞成分) pathway
涉及的信号通路信息(来自 Reactome、WikiPathways、KEGG 等) pantherdb
Panther 通路数据库注释 pharmgkb
药物-基因相互作用信息 pharos
药物开发相关注释(Drug Target 分类) -
蛋白结构和功能域
字段名 | 含义 |
---|---|
uniprot |
UniProt 蛋白数据库的 ID 和注释 |
interpro |
InterPro 蛋白家族或功能域 |
pfam |
Pfam 蛋白结构域 |
prosite |
Prosite 模式/结构域数据库 |
pdb |
相关蛋白质的三维结构(来自 Protein Data Bank) |
ec |
酶编号(Enzyme Commission Number),如 kinase 常有 |
ipi |
International Protein Index(已弃用) |
pir |
PIR 蛋白数据库 ID |
- 同源与进化
字段名 | 含义 |
---|---|
homologene |
NCBI HomoloGene 同源基因信息 ([tax_id, entrezgene_id]) |
ensembl |
Ensembl 基因数据库的 ID 和注释 |
MIM |
OMIM(人类遗传疾病数据库)相关信息 |
unigene |
NCBI UniGene 聚类(旧) |
umls |
Unified Medical Language System 编号(跨数据库映射) |
exac |
ExAC 等人群变异数据汇总(Exome Aggregation Consortium) |
HGNC |
HGNC(人类基因命名委员会)ID 和详细命名信息 |
-
实验与试剂相关
字段名 含义 reporter
基因在不同表达芯片平台上的探针 ID(如 Affymetrix) reagent
BioGPS 等平台上的实验试剂资源 agr
Alliance of Genome Resources ID(联合资源数据库) AllianceGenome
Alliance Genome 注释(也可能重复 agr) -
药物相关
字段名 | 含义 |
---|---|
chembl |
ChEMBL 中的药物靶点信息 |
unii |
FDA UNII(药物成分唯一标识符) |
- 网络资源
字段名 | 含义 |
---|---|
wikipedia |
Wikipedia 页面链接(如果有) |
map_location |
染色体图谱位置,如 12q13.2 (12号染色体长臂) |
generif |
GeneRIFs:简短文献注释,来自 PubMed 摘要(Gene Reference Into Function) |