【发布时间】:2012-03-29 01:57:23
【问题描述】:
我编写了一个处理大量下载网页 HTML(120K 页)的 python 脚本。我需要解析它们并从那里提取一些信息。我尝试使用 BeautifulSoup,它既简单又直观,但运行起来似乎超级慢。因为这是必须在弱机器(亚马逊)上定期运行的东西,所以速度很重要。 python中是否有一个比BeautifulSoup运行得更快的HTML/XML解析器?还是我必须求助于正则表达式解析..
【问题讨论】:
-
我没有在 Python 中解析 HTML 的经验,但 here 是一些您可能会觉得有用的基准测试结果。
-
解析任务到底是什么?
-
@JackManey - 哇。在此之后我绝对不会用正则表达式解析 HTML...
标签: python html xml beautifulsoup