R语言:如何存储超大数据集

有的时候数据会以.RDS的格式被提供,这个时候就只能用R语言读取文件。如果遇到超大数据怎么把数据存储出来呢?可以发现这个数据特征数非常多,我要获取归一化以后的data矩阵。
在这里插入图片描述
代码如下:

library(reticulate)
library(dplyr)
library(Seurat)
library(patchwork)
library(Matrix)
library(Rcpp)

R <- readRDS('GSM4508928_adrenal_filtered.seurat.RDS')
Adrenal <- CreateSeuratObject(counts = R@assays$peaks@counts, project = "adrenal", assay = "ATAC", min.cells = 3, min.features = 200)
Adrenal <- RunTFIDF(Adrenal)

v <- Adrenal@assays$ATAC@data
result <- r_to_py(v) #转成scipy.sparse.csc.csc_matrix类型变量
source_python("save_npz_.py")#导入.py文件,把scipy.sparse.csc.csc_matrix类型变量存储到.npz文件
save_(result)#调用.py文件中的函数

save_npz_.py文件里面的内容:

import scipy.sparse
def save_(sparse_matrix):
    scipy.sparse.save_npz('Ad_sparse_matrix.npz', sparse_matrix)

版权声明:本文为watermel__原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。