【发布时间】:2015-06-01 21:20:39
【问题描述】:
我有一个 300 万行、500 列的数据集。虽然列是数字,但从 csv 文件导入时,所有列都被视为因子,而不是数字。我正在尝试使用命令将它们转换回数字
wikifixedn<-as.numeric(as.character(wikifixed))
wikifixed 是数据框。
这需要很长时间……我的 MacBook Pro,配备 16GB 内存和 2.3GHz Core i7,已经为此运行了一个多小时。我可以在某个地方看到我在这个过程中走了多远,或者这个过程是否正在推进?这里有另一种更快的方法来处理对话问题吗?
顺便说一句:我在导入 csv 文件时尝试使用
强制将列视为数字> wikifixed<-read.csv('~/OneDrive/kredible/finaldata/wutao/wikipediausers.csv', header = TRUE, stringsAsFactors=F)
然而,当我检查时,我得到了
> is.numeric(wikifixed)
[1] FALSE
【问题讨论】:
-
as.numeric(levels(yourfactor))[yourfactor]会更快 -
我会使用
data.table包中的fread来读入。还要查看colClasses参数(也在read,csv中) -
值得一试
readr::read_csv('yourfile')
标签: r csv import type-conversion