【问题标题】:Converting a Spark dataframe to Term document matrix in R using sparklyr使用 sparklyr 将 Spark 数据帧转换为 R 中的术语文档矩阵
【发布时间】:2017-07-07 02:24:30
【问题描述】:

我在 R 中有一个代码,需要对其进行缩放以使用大数据。我为此使用 Spark,似乎最方便的软件包是 sparklyr。但是,我无法从 Spark 数据框创建 TermDocument 矩阵。任何帮助都会很棒。

input_key 是具有以下架构的数据框。

ID  Keywords
 1   A,B,C
 2   D,L,K
 3   P,O,L

我在 R 中的代码如下。

mycorpus <- input_key

corpus <- Corpus(VectorSource(mycorpus$Keywords))

path_matrix <- TermDocumentMatrix(corpus)

【问题讨论】:

    标签: r apache-spark tm sparklyr term-document-matrix


    【解决方案1】:

    这种直接尝试是行不通的。 Sparklyr 表只是底层 JVM 对象的视图,与通用 R 包不兼容。

    虽然通过sparklyr::spark_apply 调用任意 R 代码的某些功能,但输入和输出必须是数据帧,并且不太可能转换为您的特定用例。

    如果您承诺使用 Spark / sparklyr,则应考虑使用内置的 ML 转换器以及 Spark CoreNLP interfaceJohn Snow Labs Spark NLP 等第 3 方 Spark 包重写您的管道。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-07-27
      • 2018-05-04
      • 1970-01-01
      • 2018-06-24
      • 2017-10-16
      • 1970-01-01
      • 1970-01-01
      • 2018-11-26
      相关资源
      最近更新 更多