【发布时间】:2010-10-17 13:57:47
【问题描述】:
如果我不能使用 BeautifulSoup 或 lxml,解析 HTML 的最佳选择是什么?我有一些使用 SGMLlib 的代码,但它有点低级,现在已弃用。
如果它能够忍受一些格式错误的 HTML,我会更喜欢它,尽管我很确定大部分输入都会很干净。
【问题讨论】:
-
如果我可能会问,你为什么不能使用 lxml 或 BS?
-
我试图避免答案完全偏离轨道。我避免使用 BeautifulSoup 的原因非常值得商榷,但我把它留到了另一天! (我避免使用 lxml 的原因很简单——在 Mac OSX 或 Linux 上安装它完全失败:(
-
这里是如何在 Linux 上安装 lxml:
sudo apt-get install libxml2-dev libxslt-dev python2.7-dev(如果你使用 Python 2.6,python2.6-dev)。然后sudo pip install lxml.
标签: python html-parsing