数据预处理——以GSE3494为例

1、数据读取

1)读取excel文件——GEO中Series Matrix File(s)是预处理过的基因表达矩阵,用excel打开删掉注释信息,获得行为探针,列为样本的基因表达矩阵。

read.table(),read.csv(),read.delim()直接读取EXCEl文件时,都会遇到一下问题:“在读取‘.xls’的TableHeader时遇到不完全的最后一行”。

解决的方法有以下几种:假如文件1.1中是一个6乘以2的矩阵,元素为:

             

123
224
325
426
527
628

 

 方法1:xls另存为csv格式然后用read.csv:

> data<-read.csv("D:\\work\\data\\1.csv")

> data
  X1 X23
 2     24
 3     25
 4     26
 5     27
 6     28
> data<-read.csv("D:\\work\\data\\1.csv",header = F)
> data
  V1    V2
 1 23333
 2    24
 3    25
 4    26
 5    27
 6    28
> data<-read.csv("D:\\work\\data\\1.csv",header = T)
> data
  X1 X23333
 2     24
 3     25
 4     26
 5     27
 6     28
也就是说header = T(TURE)是默认的状态,在这默认状态下,输出的data矩阵是一个5乘以2的矩阵,第一行作为了data的名字,如果header = F(FALSE),则会现实原始的矩阵结果。

方法二:  xls另存为txt格式然后用read.table

> data<-read.table("D:\\work\\data\\1.txt",header = T)

> data
  X1 X23
 2  24
 3  25
 4  26
 5  27
 6  28

> data<-read.table("D:\\work\\data\\1.txt",header = F)
> data
  V1 V2
 1 23
 2 24
 3 25
 4 26
 5 27
 6 28

方法二: 打开EXCEL,全选里面的内容,点击复制,然后在R中输入一下命令:

 > data <- read.table("clipboard", header = T, sep = '\t')

> data
  X1 X23
 2  24
 3  25
 4  26
 5  27
 6  28
> data <- read.table("clipboard", header = F, sep = '\t')
> data
  V1 V2
 1 23
 2 24
 3 25
 4 26
 5 27
 6 28

2) 读取rawdata——用tcltk或者GEOquery

gds<-getGEO(GEO=“GSE3494”,destdir=getwd());%下载Series Matrix File(s)

getGEOSuppFiles(GEO="GSE3494",baseDir=getwd());%下载Rawdata



setwd到文件夹GSE5563

untar("GSE5563_RAW.tar",exdir="data")

,其中data文件夹中


celpath<-paste(getwd(),"data",sep="/")

setwd(celpath)

=====================================================

raw_data<-ReadAffy()
> class(raw_data)
[1] "AffyBatch"
attr(,"package")
[1] "affy"

=====================================================

2、质量控制——看RLE箱线图和NUSE箱线图

Pset<-fitPLM(raw_data);对数据集做回归计算

Mbox(Pset):RLE,RLE值都在0附近

boxplot(Pset);NUSE,NUSE值都在1附近

3、数据预处理——背景校正、标准化和估计表达值,总体方针是用rma处理,看直方图和箱线图

hist(raw_data)%直方图

hist(raw_data_rma)

hist(raw_data_mas5)

boxplot(raw_data)%箱线图

boxplot(raw_data_rma)

boxplot(raw_data_mas5)




版权声明:本文为hellobear2012原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。