R 语言中 data table 的相关，内存高效的增量式 data frame

面对的是这样一个问题，不断读入一行一行数据，append到data frame上，如果用dataframe, rbind() ，可以发现数据大的时候效率明显变低。

原因是每次bind 都是一次重新整个数据集的重新拷贝

这个链接有人测试了各种方案，似乎给出了最优方案

http://stackoverflow.com/questions/11486369/growing-a-data-frame-in-a-memory-efficient-manner

library(data.table)

dt <- data.table(x=rep(,), y=rep(,))

tracemem(dt)

for(i in :) {

  dt[i,x := runif()]

  dt[i,y := rnorm()]

}

data table 可以说是必备的r package。

这也是我尝试多种方案后最终采用的办法。

这里有介绍data.table 的具体用法

http://cran.r-project.org/web/packages/data.table/data.table.pdf

有个问题，赋值一行难道用一定要用 dt[x, 1:100 := list(xx)] 这样？

注意RHS 等号右侧一定要是一个List，不能是vector

另外几个R 的技巧：

时常运行下gc()，回收内存（这就是为啥你workspace 没有object但内存仍然居高不下的原因）
部分大的object，可以单独save()，需要的时候Load，不要最后存在image 里
r中的hash package 很好用
并行我用的是 parallel包，简单易用

system.time(

{

  x <- :wb2.userNum

  cl <- makeCluster(, outfile='sim.log')

  clusterExport(cl, c("set_similarity","printf","wb2.follow2.set", "wb2.userNum"))

  results <- parLapply(cl, x, para_func_sim)

  print("results ok")

  wb2.follow.sim <- do.call('rbind', results)

  stopCluster(cl)

})

最后，多利用data table 的statistical 和apply系列函数，真的可以事半功倍！

R 语言中 data table 的相关，内存高效的增量式 data frame的相关教程结束。

《R 语言中 data table 的相关，内存高效的增量式 data frame.doc》

下载本文的Word格式文档，以方便收藏与打印。

R 语言中 data table 的相关，内存高效的增量式 data frame

R 语言中 data table 的相关，内存高效的增量式 data frame的相关教程结束。

相关推荐

形象谈JVM-第四章-JVM内存结构

【分享】如何才能简洁高效不失优雅的爆破ZIP文件？

有关于malloc申请内存和free内存释放

Linux C申请内存三种基本方式

C++动态申请内存 new T()与new T[]的区别

C语言和C++中动态申请内存

通信方案软件设计（环形动态申请内存，支持USART+IIC+SPI+CAN协议

C++二维数组动态申请内存

R 语言中 data table 的相关，内存高效的 增量式 data frame

R 语言中 data table 的相关，内存高效的 增量式 data frame的相关教程结束。

相关推荐

形象谈JVM-第四章-JVM内存结构

【分享】如何才能简洁高效不失优雅的爆破ZIP文件？

有关于malloc申请内存和free内存释放

Linux C申请内存三种基本方式

C++动态申请内存 new T()与new T[]的区别

C语言和C++中动态申请内存

通信方案软件设计（环形动态申请内存，支持USART+IIC+SPI+CAN协议

C++二维数组动态申请内存

R 语言中 data table 的相关，内存高效的增量式 data frame

R 语言中 data table 的相关，内存高效的增量式 data frame的相关教程结束。