【发布时间】:2016-08-08 21:36:42
【问题描述】:
我一直在尝试使用 data.table 包将大型 csv 文件从 HDFS 读取到 R 中,因为根据我的经验,它比 rhdfs 包快得多。
我已使用以下命令成功读取整个文件:
data <- fread("/usr/bin/hadoop fs -text /path/to/the/file.csv"), fill=TRUE)
然后,我只想读取包含值“2MS-US”的行。我试着用grep 来做:
data <- fread("/usr/bin/hadoop fs -text /path/to/the/file.csv | grep '2MS-US'"), fill=TRUE)
这会返回正确的行数,但会删除所有标题。它们现在变为“V1”、“V2”等。
根据这个thread,使用grep 时丢失列名的问题已在data.package 1.9.6 中解决,但即使我使用的是1.9.7,我仍然遇到它。对此有什么想法吗?谢谢!
【问题讨论】:
标签: r data.table hdfs