【发布时间】:2013-07-22 14:50:42
【问题描述】:
我目前使用.N 来查找使用by= ... . 的文件中的唯一行数
例如。要在数据表 dt 中查找 col1 和 col2 的唯一行数,查询将是,
dt[, .N, by="col1,col2"]
对于非常大的文件,这可能需要很长时间。如果表格已排序,是否有更快的方法来做到这一点?基本上,您可以设置一个计数器,并在每次遇到唯一行时使用单个条目将其更新为每行出现的次数。我不能使用 for 循环,因为那会花很长时间。
【问题讨论】:
-
再一次,绝对没有理由添加“rcpp”标签。请编辑——当你在做的时候,也许可以在这里学习如何格式化代码。这一切都记录得很好......
-
我感谢大家的编辑,但我仍然希望 OP 自己做出适当的努力。
-
当然,明白。从 iPhone 发布,可能没有正确输入代码的空格。不管怎样,感谢您给我们 rcpp,经过很长时间,我终于可以声称并证明 R 足以处理所有那些 mgmt 曾经移交给已批准预算的主流语言开发人员的项目。
-
我有点疑惑。使用
table函数,我从来没有遇到过“非常长”的延迟。 -
我还想看到一些证明问题中显示的 data.table 查询需要“很长时间”的证据。您如何在这里定义“非常长”?
标签: r data.table