![]()
今天是生信星球陪你的第520天![]()
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
花花写于2020-01-17 小年快乐呀大家!
今天上班最后一天,接下来开启长达半个月的年假(距离下一场讲课还有20天,期待)。我今年第一年在广东过年,不回家了,我父母会从山东老家过来和我一起过年,后天就到咯。。。你呢

1.数据下载
1.1 突变数据
TCGA的突变数据有4个软件得到的不同版本:

这个可以在gdc的官网上找到,case选择KIRC,文件类型选择maf即可获得。


选择mutect,就一个文件,直接点进去,download就行,下载下来只有一个tar.gz文件,解压放在工作目录下。
tar -xzvf file.tar.gz 解压,即可得到一个maf.gz文件。
同样的筛选条件,参考https://www.jianshu.com/p/559d9604fcdf下载临床信息数据并整理。
1mkdir kirc-clinical2.数据读取
2.1 突变数据
使用maftools读取。
1rm(list=ls())因此,有336个病人,9444个突变基因信息。了解maf还可以用下面的几个函数:
1getSampleSummary(laml) 2.2.临床信息
将下载好的临床信息xml文件整理成一个数据框。
1xmls = dir(3.突变数据的可视化
3.1 plotmafSummary
maftools 自带可视化函数plotmafSummary,可以比较直观的统计maf文件的数据。
1dev.off()
就是将maf_df 数据框做了统计,用barplot和boxplot做了可视化。
3.2 突变频谱图
代码其实就一句!
1oncoplot(maf = laml, top = 
下面展开一下这个图的解读
主体热图
一行是一个基因,总共是9444个基因,从中截取了top30;一列是一个样本,总共是336个样本。不同颜色代表不同类型的突变。
右侧条形图
右侧的条形图是每个基因的突变样本数、突变类型和比例
验证一下突变样本数
1count(maf_df,Hugo_Symbol,sort = 结果显示VHL在169样本中突变,样本总数336,所以是49%,以此类推
条形图的颜色是突变类型,以VHL基因为例,他的突变类型分别是:
1maf_df %>% filter(Hugo_Symbol==顶部条形图
显示每个样本里突变的基因个数,可以看到最高的是那个一枝独秀的1600多。
1laml@variants.per.sample %>% head()本系列是我的TCGA学习记录,跟着生信技能树B站课程学的,已获得授权(嗯,真的^_^)。课程链接:https://www.bilibili.com/video/av49363776
插个小广告!
生信零基础入门学习小组长期报名中
GEO数据挖掘广州专场课程
再给生信技能树打个call!
全球公益巡讲、招学徒