讲座|TCGA及GEPIA数据库介绍
TCGA数据库
来源:肿瘤基因组图谱 (TCGA) 计划是由美国 National Cancer Institute (NCI) 和National Human Genome Research Institute (NHGRI) 于 2006 年联合启动的项目
使命:利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制,最终完成一套完整的与所有癌症基因组改变相关的「图谱」,以提高人们对癌症发病分子基础的科学认识及诊断、治疗和预防的能力。至今为止,TCGA已对来源于11000患者的33种肿瘤进行实验,其中包括10种罕见肿瘤,数据量达2500 T。
主要功能:提供33种肿瘤共计11000多例患者的组织的高通量芯片或者测序的数据。利用这些数据可对肿瘤发生发展中基因的改变进行分析,从而理解肿瘤发生发展的分子机制,以提高人们对肿瘤的诊断、治疗、预防能力
TCGA官网网址:https://www.cancer.gov/ccg/research/genome-sequencing/tcga
TCGA数据库癌种名称
TCGA数据库数据类型
基因表达数据:包括RNA-seq数据,用于分析基因表达水平。
基因突变数据:包括体细胞突变,帮助识别驱动基因突变。
拷贝数变异数据(CNV):分析基因拷贝数的变化。
甲基化数据:研究DNA甲基化模式,了解表观遗传调控。
蛋白质组数据:分析蛋白质表达,探索蛋白质与癌症的关系。
临床数据:包括患者的基本信息(年龄、性别、分级、分期、预后等),用于研究癌症的临床表现。
TCGA数据库数据下载
GDC门户网站(https://portal.gdc.cancer.gov/):GDC(Genomic Data Commons)是美国National Cancer Institute(NCI)的研究计划,使命是为癌症研究界提供统一的数据存储库,以便在癌症基因组研究中共享数据,支持精准医学。它包含几个大规模的癌症基因组研究计划的数据,包括TCGA、OCG。而OCG包括两项支持癌症分子鉴定的计划,TARGET和CGCI。访问GDC(Genomic Data Commons)网站,注册账户后,可以通过搜索框选择癌症类型和数据类型,下载所需的数据。
UCSC-Xena数据库 (https://xenabrowser.net/datapages/):提供预处理和标准化的TCGA数据,适合直接下载和分析。
Firehose数据库(https://gdac.broadinstitute.org/):提供预处理和标准化的TCGA数据,适合直接下载和分析。
TIMER2.0 数据库(http://timer.cistrome.org/):可下载TCGA 各 个肿瘤的免疫细胞浸润数据。
GDC数据库
GDC相当于替代了TCGA Data Portal 这个网站,但它不只包含TCGA的数据,还有TARGET、CGCI及其他CCG计划的数据,并对数据重新进行了整合分析,可以提供统一的癌症基因组数据。
UCSC-Xena数据库数据下载
UCSC-Xena(https://xenabrowser.net/datapages/)
TCGA数据库常用数据分析方法
数据预处理:包括去除低质量数据、数据标准化和缺失数据处理。
基因差异表达分析:旨在找出在癌症组和正常组中表达差异显著的基因。使用DESeq2、EdgeR或limma等工具,分析基因表达的差异,挑选出具有显著差异的基因(例如,p值 < 0.05,|log2 fold change| > 1)。对差异基因进行功能富集分析,如GO分析或KEGG路径分析。
生存分析:通过Kaplan-Meier曲线和Cox比例风险回归,探究基因或临床特征与生存时间的关系。
TCGA数据库结果可视化
可视化:使用R语言中的ggplot2、complexheatmap等包进行结果展示。
热图(Heatmap):展示基因表达数据,常用于展示差异表达基因。
火山图(Volcano Plot):展示差异分析的结果。
生存曲线:如Kaplan-Meier曲线,展示不同组别患者的生存差异。
(未完待续)

