【发布时间】:2019-07-19 01:10:23
【问题描述】:
我正在尝试将代码应用于此链接中的数据 https://www.tidytextmining.com/sentiment.html#sentiment-analysis-with-inner-join
书中的代码是
nrc_joy <- get_sentiments("nrc") %>%
filter(sentiment == "joy")
tidy_books %>%
filter(book == "Emma") %>%
inner_join(nrc_joy) %>%
count(word, sort = TRUE)
我这样写(排除“过滤器”,因为我的数据中只有文件名和单词列)
nrc_joy <- get_sentiments("nrc") %>%
filter(sentiment == "joy")
abc %>%
inner_join(nrc_joy ) %>%
count(word, sort = TRUE)
我收到此错误:
错误:需要
by,因为数据源没有公共变量
有什么办法可以解决吗?
【问题讨论】:
-
两个表的列名不同,所以没有“自然”连接可以猜测
-
我认为这个错误来自不同的东西。也许,我应该在链接github.com/duttashi/text-analysis/issues/4 中包含类似的内容
-
引入一个新列作为两个数据集中的 ID 并使用它加入(我认为)。
-
在 Github issue 中,问题是两个数据框之间没有匹配的列/列名。如果您在两个数据框中都有匹配的列,例如一个 ID,一个连接函数可以猜出这是要连接的列。如果没有,则需要提供
by,例如by = c("id1" = "id2")。inner_join的文档很好地解释了这一点
标签: r