【问题标题】:parsing HTML with spark用火花解析 HTML
【发布时间】:2015-01-08 11:26:47
【问题描述】:

我想做以下事情:

  1. 从 csv 文件加载 html 源代码
  2. 编写一堆函数,从 html 源代码中提取一些特征。当我使用 BeautifulSoup 来完成这项工作时,我曾经用 Python 来完成它。现在我正在使用 spark 并在 scala 中编写我的代码。我一直在寻找一些如何做到这一点的好例子,但没有找到太多。

我会很感激一些详尽的回答如何做到这一点,但如果不是,也许你们至少可以为我回答以下问题之一:

  1. 我对输入数据格式有一定的灵活性,但我认为 csv 是最简单的。然后我必须逃避分隔符。使用 sparkContext.textFile 读取文件时该怎么做?
  2. 使用哪些库/函数为每个源构建 DOM 树(将在我的 RDD 的一行中)。使用一些 XML 解析器好吗?我不确定我是否理解 HTML 解析器与 XML 解析器的不同之处。我认为 HTML 是 XML 的一个子集,但我读过它并不完全正确,并且 XML 解析器并不是非常适合 html(因为 HTML 更宽松)。那么如何解析 HTML 呢?

提示,谢谢!

【问题讨论】:

    标签: html scala html-parsing apache-spark


    【解决方案1】:

    对于您问题的解析部分,我建议 jsoup :用 Java 编写的 HTML 解析器。它相当于 BeautifulSoup。

    【讨论】:

      猜你喜欢
      • 2017-05-18
      • 2014-10-27
      • 1970-01-01
      • 1970-01-01
      • 2021-09-02
      • 2019-04-10
      • 1970-01-01
      • 2011-01-22
      • 1970-01-01
      相关资源
      最近更新 更多