【发布时间】:2026-01-10 05:35:01
【问题描述】:
我有大量关于 bigquery 的推文,现在想要过滤那些至少包含一个主题标签列表的推文。主题标签保存在数组列中(从 R 中的列表列上传)。如何在该数组的任何位置选择包含多个值之一的行?
在我将用于在 R 中进行分析的代码下方。不出所料,dbplyr 无法翻译 purrr 部分,我很高兴自己学习创建 SQL,但还没有找到一个好的开始观点。感谢您的任何指点。
PS:我还没有将推文上传到 bigquery,它们目前存在于 80 GB 的 RDS 文件中。如果任何简单的数据转换可以使这更容易,我仍然可以在上传时包含它。
tweets_sample <- tibble::tribble(
~text, ~hashtags,
"Hello", list("World", "You"),
"Goodbye", list("Friend", "You"),
"Not", list("interested")
)
hashtag_list <- c("World", "interested")
tweets_sample %>% filter(purrr::map_lgl(hashtags, ~ .x %in% hashtag_list %>%
any()))
【问题讨论】:
标签: sql google-bigquery dbplyr