1、数据读取
1)读取excel文件——GEO中Series Matrix File(s)是预处理过的基因表达矩阵,用excel打开删掉注释信息,获得行为探针,列为样本的基因表达矩阵。
read.table(),read.csv(),read.delim()直接读取EXCEl文件时,都会遇到一下问题:“在读取‘.xls’的TableHeader时遇到不完全的最后一行”。
解决的方法有以下几种:假如文件1.1中是一个6乘以2的矩阵,元素为:
| 1 | 23 |
| 2 | 24 |
| 3 | 25 |
| 4 | 26 |
| 5 | 27 |
| 6 | 28 |
方法1:xls另存为csv格式然后用read.csv:
> data<-read.csv("D:\\work\\data\\1.csv")
> data
1
2
3
4
5
> data<-read.csv("D:\\work\\data\\1.csv",header = F)
> data
1
2
3
4
5
6
> data<-read.csv("D:\\work\\data\\1.csv",header = T)
> data
1
2
3
4
5
也就是说header = T(TURE)是默认的状态,在这默认状态下,输出的data矩阵是一个5乘以2的矩阵,第一行作为了data的名字,如果header = F(FALSE),则会现实原始的矩阵结果。
方法二:
> data<-read.table("D:\\work\\data\\1.txt",header = T)
> data
1
2
3
4
5
> data<-read.table("D:\\work\\data\\1.txt",header = F)
> data
1
2
3
4
5
6
方法二: 打开EXCEL,全选里面的内容,点击复制,然后在R中输入一下命令:
> data
1
2
3
4
5
> data <- read.table("clipboard", header = F, sep = '\t')
> data
1
2
3
4
5
6
2) 读取rawdata——用tcltk或者GEOquery
gds<-getGEO(GEO=“GSE3494”,destdir=getwd());%下载Series Matrix File(s)
getGEOSuppFiles(GEO="GSE3494",baseDir=getwd());%下载Rawdata
setwd到文件夹GSE5563
untar("GSE5563_RAW.tar",exdir="data")
,其中data文件夹中
celpath<-paste(getwd(),"data",sep="/")
setwd(celpath)
=====================================================
raw_data<-ReadAffy()
> class(raw_data)
[1] "AffyBatch"
attr(,"package")
[1] "affy"
=====================================================
2、质量控制——看RLE箱线图和NUSE箱线图
Pset<-fitPLM(raw_data);对数据集做回归计算
Mbox(Pset):RLE,RLE值都在0附近
boxplot(Pset);NUSE,NUSE值都在1附近
3、数据预处理——背景校正、标准化和估计表达值,总体方针是用rma处理,看直方图和箱线图
hist(raw_data)%直方图
hist(raw_data_rma)
hist(raw_data_mas5)
boxplot(raw_data)%箱线图
boxplot(raw_data_rma)
boxplot(raw_data_mas5)