【发布时间】:2020-07-10 07:06:37
【问题描述】:
在 RStudio 中分析推文:
我的 csv 文件包含 4,000,000 条推文,有五列:screen_name、text、created_at、 favorite_count 和 retweet_count。
我正在尝试使用以下代码确定主题标签的频率,但是它运行几天太慢,有时 RStudio 崩溃。
mydata %>%
unnest_tokens(word, text, token ="tweets") %>%
anti_join(stop_words, by= "word")
我使用了其他方法来处理 R 中的大数据,例如: https://rviews.rstudio.com/2019/07/17/3-big-data-strategies-for-r/ 或 https://spark.rstudio.com/guides/textmining/ 和 Spark 库:https://spark.rstudio.com/guides/textmining/。它们都不适合我。
在 Spark 中,我执行以下操作,但 RStudio 无法将我的数据集复制到 Spark。我在我的 RStudio 中看到“Spark 正在运行”甚至一天都没有将我的数据集复制到 Spark。
连接到您的 Spark 集群:
spark_conn <- spark_connect("local")
将 track_metadata 复制到 Spark:
track_metadata_tbl <- copy_to(spark_conn, my_database)
您有什么建议/说明/链接可以帮助我分析我的数据吗?
我的笔记本电脑是 Mac 处理器:2.9 GHz 双核 Intel Core i5 内存:8 GB 2133 MHz LPDDR3
【问题讨论】:
-
内存使用情况如何?转到
Activity Monitor并报告。 8GB 做任何事情都不算多:即使不进行数据处理,我的 16GB mbpro 也始终处于它可以处理的边缘。另外:sparkr是个好主意:你可以问另一个问题,如何让它运行 -
加载到本地 MySQL 或 Postgres 数据库并在其上运行聚合怎么样?
标签: r apache-spark-sql bigdata tidytext