【发布时间】:2015-01-08 11:26:47
【问题描述】:
我想做以下事情:
- 从 csv 文件加载 html 源代码
- 编写一堆函数,从 html 源代码中提取一些特征。当我使用 BeautifulSoup 来完成这项工作时,我曾经用 Python 来完成它。现在我正在使用 spark 并在 scala 中编写我的代码。我一直在寻找一些如何做到这一点的好例子,但没有找到太多。
我会很感激一些详尽的回答如何做到这一点,但如果不是,也许你们至少可以为我回答以下问题之一:
- 我对输入数据格式有一定的灵活性,但我认为 csv 是最简单的。然后我必须逃避分隔符。使用 sparkContext.textFile 读取文件时该怎么做?
- 使用哪些库/函数为每个源构建 DOM 树(将在我的 RDD 的一行中)。使用一些 XML 解析器好吗?我不确定我是否理解 HTML 解析器与 XML 解析器的不同之处。我认为 HTML 是 XML 的一个子集,但我读过它并不完全正确,并且 XML 解析器并不是非常适合 html(因为 HTML 更宽松)。那么如何解析 HTML 呢?
提示,谢谢!
【问题讨论】:
标签: html scala html-parsing apache-spark