tcga数据下载_TCGA突变数据的下载、整理和可视化

smiley_56.png2_06.png 今天是生信星球陪你的第520天smiley_56.png


   大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~

   就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~

   这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!

花花写于2020-01-17 小年快乐呀大家!
今天上班最后一天,接下来开启长达半个月的年假(距离下一场讲课还有20天,期待)。我今年第一年在广东过年,不回家了,我父母会从山东老家过来和我一起过年,后天就到咯。。。你呢

3b69c3bd31490110088fed7e131f371b.png
思维导图走起啦

1.数据下载

1.1 突变数据

TCGA的突变数据有4个软件得到的不同版本:

2ef4ba3892b40174bae4450cfecc9d56.png

这个可以在gdc的官网上找到,case选择KIRC,文件类型选择maf即可获得。

7c36b524c79675e581029d2915d8f5e1.png
e3424b6cc745996163ddc27dbf8450f1.png

选择mutect,就一个文件,直接点进去,download就行,下载下来只有一个tar.gz文件,解压放在工作目录下。

tar -xzvf file.tar.gz 解压,即可得到一个maf.gz文件。

同样的筛选条件,参考https://www.jianshu.com/p/559d9604fcdf下载临床信息数据并整理。

1mkdir kirc-clinical

2.数据读取

2.1 突变数据

使用maftools读取。

 1rm(list=ls())

因此,有336个病人,9444个突变基因信息。了解maf还可以用下面的几个函数:

1getSampleSummary(laml) 

2.2.临床信息

将下载好的临床信息xml文件整理成一个数据框。

 1xmls = dir(

3.突变数据的可视化

3.1 plotmafSummary

maftools 自带可视化函数plotmafSummary,可以比较直观的统计maf文件的数据。

1dev.off()
587d58c610ee88d57acd293171ad0006.png

就是将maf_df 数据框做了统计,用barplot和boxplot做了可视化。

3.2 突变频谱图

代码其实就一句!

1oncoplot(maf = laml, top = 
d9b1b4fb9917b7e9a4f9e1155ad9bfbd.png

下面展开一下这个图的解读

主体热图

一行是一个基因,总共是9444个基因,从中截取了top30;一列是一个样本,总共是336个样本。不同颜色代表不同类型的突变。

右侧条形图

右侧的条形图是每个基因的突变样本数、突变类型和比例

验证一下突变样本数

 1count(maf_df,Hugo_Symbol,sort = 

结果显示VHL在169样本中突变,样本总数336,所以是49%,以此类推

条形图的颜色是突变类型,以VHL基因为例,他的突变类型分别是:

 1maf_df %>% filter(Hugo_Symbol==
顶部条形图

显示每个样本里突变的基因个数,可以看到最高的是那个一枝独秀的1600多。

1laml@variants.per.sample %>% head()

本系列是我的TCGA学习记录,跟着生信技能树B站课程学的,已获得授权(嗯,真的^_^)。课程链接:https://www.bilibili.com/video/av49363776

插个小广告!

生信零基础入门学习小组长期报名中

GEO数据挖掘广州专场课程

再给生信技能树打个call!

全球公益巡讲、招学徒