tcga数据下载_TCGA突变数据的下载、整理和可视化

今天是生信星球陪你的第520天

大神一句话，菜鸟跑半年。我不是大神，但我可以缩短你走弯路的半年~

就像歌儿唱的那样，如果你不知道该往哪儿走，就留在这学点生信好不好~

这里有豆豆和花花的学习历程，从新手到进阶，生信路上有你有我！

花花写于2020-01-17 小年快乐呀大家！
今天上班最后一天，接下来开启长达半个月的年假(距离下一场讲课还有20天，期待)。我今年第一年在广东过年，不回家了，我父母会从山东老家过来和我一起过年，后天就到咯。。。你呢

TCGA的突变数据有4个软件得到的不同版本：

这个可以在gdc的官网上找到，case选择KIRC，文件类型选择maf即可获得。

选择mutect，就一个文件，直接点进去，download就行，下载下来只有一个tar.gz文件，解压放在工作目录下。

tar -xzvf file.tar.gz 解压，即可得到一个maf.gz文件。

同样的筛选条件，参考https://www.jianshu.com/p/559d9604fcdf下载临床信息数据并整理。

1mkdir kirc-clinical

使用maftools读取。

 1rm(list=ls())

因此，有336个病人,9444个突变基因信息。了解maf还可以用下面的几个函数：

1getSampleSummary(laml)

将下载好的临床信息xml文件整理成一个数据框。

 1xmls = dir(

maftools 自带可视化函数plotmafSummary，可以比较直观的统计maf文件的数据。

1dev.off()

就是将maf_df 数据框做了统计，用barplot和boxplot做了可视化。

代码其实就一句！

1oncoplot(maf = laml, top =

下面展开一下这个图的解读

一行是一个基因，总共是9444个基因，从中截取了top30；一列是一个样本，总共是336个样本。不同颜色代表不同类型的突变。

右侧的条形图是每个基因的突变样本数、突变类型和比例

验证一下突变样本数

 1count(maf_df,Hugo_Symbol,sort =

结果显示VHL在169样本中突变，样本总数336，所以是49%，以此类推

条形图的颜色是突变类型，以VHL基因为例，他的突变类型分别是：

 1maf_df %>% filter(Hugo_Symbol==

显示每个样本里突变的基因个数，可以看到最高的是那个一枝独秀的1600多。

1laml@variants.per.sample %>% head()

本系列是我的TCGA学习记录，跟着生信技能树B站课程学的，已获得授权(嗯，真的^_^)。课程链接：https://www.bilibili.com/video/av49363776

插个小广告！
生信零基础入门学习小组长期报名中
GEO数据挖掘广州专场课程
再给生信技能树打个call！
全球公益巡讲、招学徒