生信基础 | Li's Bioinfo-Blog

使用clusterProfiler下载GO&KEGG通路基因

1、GO 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 GO_data <- clusterProfiler:::get_GO_data("org.Hs.eg.db", "ALL", "SYMBOL") names(GO_data) # [1] "PATHID2NAME" "EXTID2PATHID" "GO2ONT" "PATHID2EXTID" ###（1）GO term的组成基因 class(GO_data$PATHID2EXTID) #[1] "list" GO_data$PATHID2EXTID[1] # $`GO:0000002` # [1] "PARP1" "SLC25A4" "DNA2" "TYMP" "LIG3" "MEF2A" # [7] "MPV17" "OPA1" "TOP3A" "TP53" "LONP1" "AKT3" # [13] "PPARGC1A" "POLG2" "SLC25A36" "PIF1" "SESN2" "SLC25A33" # [19] "MGME1" "PRIMPOL" "STOX1" ###（2）基因所涉及的通路 class(GO_data$EXTID2PATHID) #[1] "list" GO_data$EXTID2PATHID[1] # $A1BG # [1] "GO:0001775" "GO:0002252" "GO:0002263" "GO:0002274" "GO:0002275" "GO:0002283" "GO:0002366" # [8] "GO:0002376" "GO:0002443" "GO:0002444" "GO:0002446" "GO:0002576" "GO:0003674" "GO:0005575" # ... ###（3）GO term的名字 class(GO_data$PATHID2NAME) #[1] "character" GO_data$PATHID2NAME[1] # GO:0000001 # "mitochondrion inheritance" ###（4）GO term的类别 class(GO_data$GO2ONT) #[1] "character" GO_data$GO2ONT[1] # GO:0000002 # "BP" table(GO_data$GO2ONT) # BP CC MF # 16013 1981 4755 library(tidyverse) go_name = reshape2::melt(GO_data$PATHID2NAME) %>% rownames_to_column("ID") %>% dplyr::rename("Name"="value") go_type = reshape2::melt(GO_data$GO2ONT) %>% rownames_to_column("ID") %>% dplyr::rename("Type"="value") go_info = inner_join(go_name, go_type) %>% dplyr::mutate(GSEA=toupper(gsub(" ","_",paste0("GO",Type," ",Name)))) dim(go_info) head(go_info) table(rownames(brca_enrich_kegg) %in% go_info$GSEA) # ID Name Type # 1 GO:0000002 mitochondrial genome maintenance BP # 2 GO:0000003 reproduction BP # 3 GO:0000009 alpha-1,6-mannosyltransferase activity MF # 4 GO:0000010 trans-hexaprenyltranstransferase activity MF # 5 GO:0000012 single strand break repair BP # 6 GO:0000014 single-stranded DNA endodeoxyribonuclease activity MF # GSEA # 1 GOBP_MITOCHONDRIAL_GENOME_MAINTENANCE # 2 GOBP_REPRODUCTION # 3 GOMF_ALPHA-1,6-MANNOSYLTRANSFERASE_ACTIVITY # 4 GOMF_TRANS-HEXAPRENYLTRANSTRANSFERASE_ACTIVITY # 5 GOBP_SINGLE_STRAND_BREAK_REPAIR # 6 GOMF_SINGLE-STRANDED_DNA_ENDODEOXYRIBONUCLEASE_ACTIVITY 此外 GO.db包也提供了除组成基因以外的GO注释信息 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 library(GO.db) keytypes(GO.db) # [1] "DEFINITION" "GOID" "ONTOLOGY" "TERM" goids = keys(GO.db, keytype = "GOID")[1:3] # [1] "GO:0000001" "GO:0000002" "GO:0000003" goids_anno = AnnotationDbi::select(GO.db, keys = goids, columns = c("TERM","ONTOLOGY","DEFINITION"), #其中DEFINITION为term的详细描述 keytype="GOID") #所有的BP term的GO id goBP = select(GO.db, keys = "BP", columns = c("GOID"), keytype="ONTOLOGY") 2、KEGG 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 hsa_kegg <- clusterProfiler::download_KEGG("hsa") names(hsa_kegg) # [1] "KEGGPATHID2EXTID" "KEGGPATHID2NAME" ### KEGG id与name head(z) # from to # 1 hsa00010 Glycolysis / Gluconeogenesis # 2 hsa00020 Citrate cycle (TCA cycle) # 3 hsa00030 Pentose phosphate pathway ### KEGG id的组成基因 head(hsa_kegg$KEGGPATHID2EXTID) # from to # 1 hsa00010 10327 # 2 hsa00010 124 # 3 hsa00010 125

人类基因组基础知识与下载查询

一、基因组大小（1）人类基因组主要由细胞核的23对染色体组成(核基因组)，还包括线粒体中的小DNA分子(线粒体基因组)。（2）单倍体基因组大概有30亿个碱基对组成，具体到每个染色体的碱基对长度与基因数量如下所示(参照UCSC的hg38)。 ...

基因-蛋白-化合物ID转换

1、不同基因ID转换 1.1 org.Hs.eg.db包 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 library(dplyr) library(org.Hs.eg.db) keytypes(org.Hs.eg.db) # [1] "ACCNUM" "ALIAS" "ENSEMBL" "ENSEMBLPROT" "ENSEMBLTRANS" "ENTREZID" # [7] "ENZYME" "EVIDENCE" "EVIDENCEALL" "GENENAME" "GENETYPE" "GO" # [13] "GOALL" "IPI" "MAP" "OMIM" "ONTOLOGY" "ONTOLOGYALL" # [19] "PATH" "PFAM" "PMID" "PROSITE" "REFSEQ" "SYMBOL" # [25] "UCSCKG" "UNIPROT" gene_symbol=c("RHO","CALM1","MEG3","GNGT1","SAG","RPGRIP1","TRPM1","PCP2","PCP4","AP1B1") gene_ids<-AnnotationDbi::select(org.Hs.eg.db, keys=as.character(gene_symbol), columns=c("ENSEMBL","ENTREZID"), #目标格式 keytype="SYMBOL") #目前的格式 gene_ids ##去重 gene_ids %>% dplyr::distinct(ENTREZID, .keep_all = T) # SYMBOL ENSEMBL ENTREZID # 1 RHO ENSG00000163914 6010 # 2 CALM1 ENSG00000198668 801 # 3 MEG3 ENSG00000214548 55384 # 4 GNGT1 ENSG00000127928 2792 # 5 SAG ENSG00000130561 6295 # 6 RPGRIP1 ENSG00000092200 57096 # 7 TRPM1 ENSG00000134160 4308 # 8 PCP2 ENSG00000174788 126006 # 9 PCP4 ENSG00000183036 5121 # 10 AP1B1 ENSG00000100280 162 1.2 biomaRt包 1 2 3 4 5 6 7 8 9 10 11 12 library("biomaRt") ensembl = useMart("ensembl",dataset="hsapiens_gene_ensembl") attributes = listAttributes(ensembl) attributes[1:5,] # library(httr) # httr::set_config(config(ssl_verifypeer = 0L)) gene_symbol=c("RHO","CALM1","MEG3","GNGT1","SAG","RPGRIP1","TRPM1","PCP2","PCP4","AP1B1") gene_ids2 <- getBM(filters= "hgnc_symbol", attributes= c("hgnc_symbol","ensembl_gene_id","entrezgene_id"), values = gene_symbol, mart= ensembl) gene_ids2 2、鼠源基因转为人类基因ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 musGenes <- c("Hmmr", "Tlx3", "Cpeb4") ## 方式1：直接大小写转换 toupper(musGenes) # [1] "HMMR" "TLX3" "CPEB4" ## 方式2：通过biomaRt包（不稳定） require("biomaRt") # library(httr) # httr::set_config(config(ssl_verifypeer = 0L)) human = useMart("ensembl", dataset = "hsapiens_gene_ensembl",host = "dec2021.archive.ensembl.org") mouse = useMart("ensembl", dataset = "mmusculus_gene_ensembl",host = "dec2021.archive.ensembl.org") genes = getLDS(attributes = c("mgi_symbol"), filters = "mgi_symbol", values = musGenes, mart = mouse, attributesL = c("hgnc_symbol"), martL = human, uniqueRows=T) ## 方式3：MGI 数据库 # https://support.bioconductor.org/p/129636/ library(dplyr) mouse_human_genes = read.csv("http://www.informatics.jax.org/downloads/reports/HOM_MouseHumanSequence.rpt",sep="\t") convert_mouse_to_human <- function(gene_list){ output = c() for(gene in gene_list){ class_key = (mouse_human_genes %>% filter(Symbol == gene & Common.Organism.Name=="mouse, laboratory"))[['DB.Class.Key']] if(!identical(class_key, integer(0)) ){ human_genes = (mouse_human_genes %>% filter(DB.Class.Key == class_key & Common.Organism.Name=="human"))[,"Symbol"] for(human_gene in human_genes){ output = append(output,human_gene) } } } return (output) } convert_mouse_to_human(musGenes) # 1] "HMMR" "TLX3" "CPEB4" 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 # # https://github.com/lishensuo/utils # # library("biomaRt") # # library(httr) # # httr::set_config(config(ssl_verifypeer = 0L)) # human = useMart("ensembl", dataset = "hsapiens_gene_ensembl",host = "dec2021.archive.ensembl.org") # mouse = useMart("ensembl", dataset = "mmusculus_gene_ensembl",host = "dec2021.archive.ensembl.org") # # # https://www.gencodegenes.org/mouse/ # dat = data.table::fread("gencode.vM33.basic.annotation.gtf.gz") # dat = subset(dat, V3 == "gene") # dat_sub = dat[,"V9"] %>% # separate(V9, into = c("gene_id","gene_type","gene_name","mgi_id","havana_gene"), sep = "; ") # dat_sub$gene_name2 = gsub('gencode.vM33.basic.annotation.gtf.gz "','',dat_sub$gene_name) # dat_sub$gene_name2 = gsub('"','',dat_sub$gene_name2) # # genes = getLDS(attributes = c("mgi_symbol"), filters = "mgi_symbol", # values = dat_sub$gene_name2, # mart = mouse, # attributesL = c("hgnc_symbol"), # martL = human, uniqueRows=T) # write.csv(genes, file = "mgi2hgnc_biomart.csv", row.names = F, quote = F) # head(genes) 3、蛋白质与基因ID转换 https://www.uniprot.org/uploadlists/ ...

survival包生存分析及glmnet包lasso回归

生存分析(survival analysis)的主要目的是发现与患者生存事件相关的指标因素，例如年龄性别、基因表达/突变等。如下学习相关基础知识及几种常见的生存分析方法。 ...

生信相关网站数据库集锦

1、HPA HPA：the Human Protein Atlas，由2003年来自瑞典的科研机构发起，旨在绘制综合性人类蛋白质图谱。 https://www.proteinatlas.org/ 蛋白质表达数据库，常见用途包括：（1）查看特定基因在不同组织、脑区，细胞类型，组织细胞类型，疾病（癌症），免疫细胞，肿瘤细胞系等表达情况。（2）数据挖掘类文章常使用其进行比较基因在肿瘤部位与相应正常部位的蛋白水平表达差异。 2、ENCORI ENCORI，The Encyclopedia of RNA Interactomes，由中山大学生命科学学院屈良鹄团队开发，于2014年发表于Nucleic Acids Res。 https://starbase.sysu.edu.cn/index.php miRNA、lncRNA、RBP等多维相互作用网络，常见用途包括 miRNA/RBP的靶标查询(mRNA,lncRNA…) RNA interaction, ceRNA network TCGA肿瘤的差异表达，生存分析，相关性等 3、TCIA TCIA，The Cancer Immunome Database，由来自奥地利的因斯布鲁克大学医学院Zlatko Trajanoski团队开发，于2017年发表于Cell Reports https://tcia.at/home 20种solid cancer的免疫相关分析，例如免疫基因表达、细胞浸润、肿瘤亚克隆等亮点之一是提出Immunophenoscore指标用于预测免疫治疗响应 https://github.com/icbi-lab/Immunophenogram 样本临床信息也整理的较为完整 ...

MsigDB基因集数据库

官方介绍：https://www.gsea-msigdb.org/gsea/msigdb/ 下载界面：http://www.gsea-msigdb.org/gsea/downloads.jsp ...