【发布时间】:2012-07-04 10:38:25
【问题描述】:
在 R 中,我试图读取大约 42,900 行的基本 CSV 文件(由 Unix 的 wc -l 确认)。相关代码是
vecs <- read.csv("feature_vectors.txt", header=FALSE, nrows=50000)
其中 nrows 稍微高估了,因为为什么不呢。然而,
>> dim(vecs)
[1] 16853 5
表明生成的数据框有大约 17,000 行。这是内存问题吗?每行由一个~30 个字符的哈希码、一个~30 个字符串和3 个整数组成,所以文件的总大小只有4MB 左右。
如果相关,我还应该注意很多行都缺少字段。
感谢您的帮助!
【问题讨论】:
-
您是否查看过被导入的行是否被正确导入?
-
我猜你嵌入了无与伦比的
"。因此,您的某些行实际上比应有的长得多。我会做类似apply(vecs, 2, function(x), max(nchar(as.character(x)))的事情来检查。 -
是的!贾斯汀明白了。添加
quote=""解决了这个问题。 -
@Justin,请将此作为答案,以便卡尔达诺可以接受它作为他问题的正确解决方案。 :)
-
为了记录,如果
fill=TRUE和 after 行前五个的字段比前五个...这在帮助文件中被斜指...