1、TTD数据库简介

  • 首先关于靶点的生物学定义是:

生物学靶点(英語:Biological target)是指位于生物体内,能够被其他物质(配体、药物等)识别或结合的结构。常见的药物靶点包括蛋白质、核酸和离子通道等。—维基百科

  • 其次关于TTD数据库,官方简介为

TTD是一个提供目前已知或者处于探索阶段的、具有治疗价值的蛋白或核酸靶点的相关信息;包括靶点相关疾病、介导的生物学通路信息、以及作用靶点的药物信息。数据库记载的全部数据均是有参考文献来源的。

2、TTD数据库内容

2.1 靶点

  • TTD数据库的核心是靶点数据,其余所有信息均是围绕靶点展开的;
  • TTD将收录的靶点分为四类–如下,可信度又高到低
    • Successful:基于该靶点,已经有至少一种靶向药物批准;
    • clinical trial:该靶点的药物还处于临床研究阶段;
    • patent-recorded:靶点的靶向化合物具有专利保护;
    • literature-reported:有文献报道的靶点。
  • 如下是目前近些年收录的靶点数目统计

2.2 药物

  • 针对靶点的结合靶向结合药物,TTD分为了Approved、Clinical Trial、Patented以及Experimental四类

2.3 靶点的调控分子

  • 这部分是TTD数据库近些年才收录的,认为靶点表达在生物过程中可能会受到多种生物分子的调控,包括microRNA、Transcription Factor、interaction protein(互作蛋白)
  • 如下对数据库中靶点的调控分子记载的统计情况

2.4 其它

  • 此外,数据库还收载了靶点的表达数据情况、相关的生物通路(pathway)、实验验证数据等
  • 作为TTD的一个特点:它还专门收集了COVID-19靶点以及相关信息
  • 如下图为TTD数据为对于一个靶点的全部信息内容

3、TTD数据库使用

  • 数据库网址:http://db.idrblab.net/ttd//

  • 下载界面:http://db.idrblab.net/ttd/full-data-download

  • 进入数据库网站,可以直接搜索靶点,也可以通过药物、疾病搜索相关靶点等等;而且全部数据提供了下载界面,觉得还是很不错的。

3.1 靶点信息整理

包括靶点的基因名SYMBOL、蛋白UNIPOD id、靶点类型、PDB结构id,蛋白类型。

此外还包括靶点蛋白序列、涉及通路,对应药物等

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
ttd_targets = fread("P1-01-TTD_target_download.txt",skip = 40)
head(ttd_targets)
target_UNIPROID = ttd_targets %>% 
  dplyr::filter(V2=="UNIPROID") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(TargetID=V1,UNIPROID=V3)
head(target_UNIPROID)

target_GENENAME = ttd_targets %>% 
  dplyr::filter(V2=="GENENAME") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(TargetID=V1,GENENAME=V3)
head(target_GENENAME)

target_TARGTYPE = ttd_targets %>% 
  dplyr::filter(V2=="TARGTYPE") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(TargetID=V1,TARGTYPE=V3)
head(target_TARGTYPE)

target_PDBSTRUC = ttd_targets %>% 
  dplyr::filter(V2=="PDBSTRUC") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(TargetID=V1,PDBSTRUC=V3)
head(target_PDBSTRUC)

target_BIOCLASS = ttd_targets %>% 
  dplyr::filter(V2=="BIOCLASS") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(TargetID=V1,BIOCLASS=V3)
head(target_BIOCLASS)

target_info = target_UNIPROID %>% 
  dplyr::full_join(target_GENENAME) %>% 
  dplyr::full_join(target_TARGTYPE) %>% 
  dplyr::full_join(target_PDBSTRUC) %>% 
  dplyr::full_join(target_BIOCLASS)
head(target_info)  
write.csv(target_info, file = "TTD_target_info_v8101.csv")

image-20220503143147208

3.2 药物信息整理

(1)药物信息

包括药物的研究阶段、所属类别、结构描述符、以及对应其它数据库ID等

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
ttd_drug = fread("P1-02-TTD_drug_download.txt", skip = 29, header = F)
head(ttd_drug)
drug_DRUGCLAS = ttd_drug %>% 
  dplyr::filter(V2=="DRUGCLAS") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(DrugID=V1,DRUGCLAS=V3)
head(drug_DRUGCLAS)
table(drug_DRUGCLAS$DRUGCLAS)

drug_THERCLAS = ttd_drug %>% 
  dplyr::filter(V2=="THERCLAS") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(DrugID=V1,THERCLAS=V3)
head(drug_THERCLAS)

drug_DRUGTYPE = ttd_drug %>% 
  dplyr::filter(V2=="DRUGTYPE") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(DrugID=V1,DRUGTYPE=V3)
head(drug_DRUGTYPE)

drug_DRUGINCH = ttd_drug %>% 
  dplyr::filter(V2=="DRUGINCH") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(DrugID=V1,DRUGINCH=V3)
head(drug_DRUGINCH)

drug_DRUGINKE = ttd_drug %>% 
  dplyr::filter(V2=="DRUGINKE") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(DrugID=V1,DRUGINKE=V3)
head(drug_DRUGINKE)

drug_DRUGSMIL = ttd_drug %>% 
  dplyr::filter(V2=="DRUGSMIL") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(DrugID=V1,DRUGSMIL=V3)
head(drug_DRUGSMIL)

drug_HIGHSTAT = ttd_drug %>% 
  dplyr::filter(V2=="HIGHSTAT") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(DrugID=V1,HIGHSTAT=V3)
head(drug_HIGHSTAT)

drug_info = drug_DRUGCLAS %>% 
  dplyr::full_join(drug_THERCLAS) %>% 
  dplyr::full_join(drug_DRUGTYPE) %>% 
  dplyr::full_join(drug_DRUGINCH) %>% 
  dplyr::full_join(drug_DRUGINKE) %>% 
  dplyr::full_join(drug_DRUGSMIL) %>% 
  dplyr::full_join(drug_HIGHSTAT) 

drug_supp = fread("P1-03-TTD_crossmatching.txt", skip = 27, header = F)
head(drug_supp)

drug_DRUGNAME = drug_supp %>% 
  dplyr::filter(V2=="DRUGNAME") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(DrugID=V1,DRUGNAME=V3)
head(drug_DRUGNAME)

drug_CASNUMBE = drug_supp %>% 
  dplyr::filter(V2=="CASNUMBE") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(DrugID=V1,CASNUMBE=V3) %>% 
  dplyr::mutate(CASNUMBE=sub("CAS ","",CASNUMBE))
head(drug_CASNUMBE)

drug_D_FOMULA = drug_supp %>% 
  dplyr::filter(V2=="D_FOMULA") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(DrugID=V1,D_FOMULA=V3)
head(drug_D_FOMULA)

drug_PUBCHCID = drug_supp %>% 
  dplyr::filter(V2=="PUBCHCID") %>% 
  dplyr::select(V1, V3) %>% 
  dplyr::rename(DrugID=V1,PUBCHCID=V3)
head(drug_PUBCHCID)

drug_info = drug_info %>% 
  dplyr::full_join(drug_DRUGNAME) %>% 
  dplyr::full_join(drug_CASNUMBE) %>% 
  dplyr::full_join(drug_D_FOMULA) %>% 
  dplyr::full_join(drug_PUBCHCID)
head(drug_info)
write.csv(drug_info, file = "TTD_drug_info_v8101.csv")

(2)药物对应疾病信息

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
drug2disease=fread("P1-05-Drug_disease.txt", skip = 22, header = F)
head(drug2disease)
index1=which(drug2disease$V1=="TTDDRUID")
index2=c(which(drug2disease$V1==""),nrow(drug2disease)+1)
drugs = drug2disease$V2[index1]
times = index2 - index1
drugs_times = rep(drugs, times)
drug2disease = drug2disease %>% 
  dplyr::filter(V2 != "") %>% 
  dplyr::mutate(TTDDRUID=drugs_times) %>% 
  dplyr::select(TTDDRUID, dplyr::everything())
head(drug2disease)

d2d_INDICATI = drug2disease %>% 
  dplyr::filter(V1=="INDICATI") %>% 
  dplyr::mutate(DiseaseName=str_match(V2,'(.*) \\[ICD-11: (.*)\\] (.*)')[,2]) %>% 
  dplyr::mutate(`ICD-11`=str_match(V2,'(.*) \\[ICD-11: (.*)\\] (.*)')[,3]) %>% 
  dplyr::mutate(Clinical_Status=str_match(V2,'(.*) \\[ICD-11: (.*)\\] (.*)')[,4]) %>% 
  dplyr::select(-V1, -V2)
write.csv(d2d_INDICATI, file = "TTD_drug2disease_v8101.csv")
image-20220503143715815

(3)药物对应靶点信息

1
2
3
4
5
6
7
8
drug2target = readxl::read_xlsx("P1-07-Drug-TargetMapping.xlsx")
head(drug2target)
drug_info = read.csv("TTD_drug_info_v8101.csv")
target_info = read.csv("TTD_target_info_v8101.csv")
drug2target=drug2target %>% 
  dplyr::left_join(drug_info[,c("DrugID","DRUGNAME")]) %>% 
  dplyr::left_join(target_info[,c("TargetID","GENENAME")])
write.csv(drug2target, file = "TTD_drug2target_v8101.csv")

image-20220503143900057