在函数中通过引用向 data.table 添加新列并不总是有效答案

【问题标题】：Adding new columns to a data.table by-reference within a function not always working在函数中通过引用向 data.table 添加新列并不总是有效
【发布时间】：2015-01-21 23:13:11
【问题描述】：

在编写依赖于data.table 的包时，我发现了一些奇怪的行为。我有一个按引用删除和重新排序某些列的函数，它工作得很好，这意味着我传入的data.table 被修改了，但没有分配函数输出。我有另一个添加 new 列的函数，但是这些更改并不总是保留在传入的 data.table 中。

这是一个小例子：

library(data.table)  # I'm using 1.9.4
test <- data.table(id = letters[1:2], val=1:2)
foobar <- function(dt, col) {
    dt[, (col) := 1]
    invisible(dt)
}

test
#  id val
#1: a   1
#2: b   2
saveRDS(test, "test.rds")
test2 <- readRDS("test.rds")
all.equal(test, test2)
#[1] TRUE
foobar(test, "new")
test
#  id val new
#1: a   1   1
#2: b   2   1
foobar(test2, "new")
test2
#  id val
#1: a   1
#2: b   2

发生了什么？ test2 有什么不同？我可以就地修改现有列：

foobar(test, "val")
test
#  id val new
#1: a   1   1
#2: b   1   1
foobar(test2, "val")
test2
#  id val
#1: a   1
#2: b   1

但添加到test2 仍然不起作用：

foobar(test2, "someothercol")
.Last.value
#  id val someothercol
#1: a   1            1
#2: b   1            1
test2
#  id val
#1: a   1
#2: b   1

我无法确定我看到此行为的所有情况，但保存到 RDS 和从 RDS 读取是我可以可靠复制的第一个情况。写入和读取 CSV 似乎没有同样的问题。

这是一个指针问题ala this issue，就像序列化 data.table 会破坏过度分配的指针？有没有简单的方法来恢复它们？如何在我的函数中检查它们，以便在操作不起作用时恢复指针或错误？

我知道我可以将函数输出分配为一种解决方法，但这不是很data.table-y。那不是也会在内存中创建一个临时副本吗？

对 Arun 解决方案的回应

Arun 指示确实是指针问题，可以用truelength 诊断，用setDT 或alloc.col 修复。我遇到了一个问题，将他的解决方案封装在一个函数中（继续上面的代码）：

func <- function(dt) {if (!truelength(dt)) setDT(dt)}
func2 <- function(dt) {if (!truelength(dt)) alloc.col(dt)}
test2 <- readRDS("test.rds")
truelength(test2)
#[1] 0
truelength(func(test2))
#[1] 100
truelength(test2)
#[1] 0
truelength(func2(test2))
#[1] 100
truelength(test2)
#[1] 0

所以看起来函数内的本地副本正在被正确修改，但参考版本不是。为什么不呢？

【问题讨论】：

绝妙的问题/解释/可重复的示例/动机。荣誉。我什至可以在开发版本上重现这一点。顺便说一句，您的函数 IMO 中不需要 invisible(dt) 部分。
@DavidArenburg 谢谢！我知道我可以忽略它，但出于某种原因，我想禁止打印。再想一想，显示函数输出和原始data.table的区别可能更清楚了。哦，好吧。

标签： r data.table

【解决方案1】：

这是一个指针问题还是这个问题，比如序列化 data.table 会破坏过度分配的指针？

是的，从磁盘加载会将外部指针设置为 NULL。我们将不得不再次过度分配。

有没有简单的方法来恢复它们？

是的。你可以测试data.table的truelength()，如果是0，就用setDT()或者alloc.col()就可以了。

truelength(test2) # [1] 0
if (!truelength(test2))
    setDT(test2)
truelength(test2) # [1] 100

foobar(test2, "new")
test2[]
#    id val new
# 1:  a   1   1
# 2:  b   2   1

~~这可能应该作为常见问题解答（不记得在那里看到过）。~~
已在警告消息部分的FAQ 中。

【讨论】：

是否有理由选择setDT 而不是alloc.col？
没有理由。我只是选择了setDT()，因为alloc.col 不会以不可见的方式返回结果，所以我必须用invisible() 包装它。 setDT() 因此显得更短。
哦，好吧，这是有道理的。因为它会在一个函数中，所以这一步的不可见性并不重要，所以我认为alloc.col 可以更好地传达意图。感谢@Arun 的快速准确回复！
实际上，这似乎不适用于函数内部，setDT 或 alloc.col。我可以看到块触发并使用browser 提升truelength，但是我传入的表仍然没有修改，并且它的truelength 在调用后仍然为0，例如func <- function(dt) {if (!truelength(dt)) setDT(dt)}。有什么想法吗？
确实如此！它让我得出一个我希望避免的结论（必须在某个地方重新分配），但至少副本很浅。