【问题标题】:Best tool for DOM manipulation? [closed]DOM 操作的最佳工具? [关闭]
【发布时间】:2010-04-29 18:41:19
【问题描述】:

我正在开发一个网络爬虫,它将汇总来自各个网站的数据。我已经开始使用 PHP 的内置 DOM 函数,但在遇到几个问题(尤其是格式错误的标记和字符编码)后,我选择放弃 PHP。我在考虑服务器端 Javascript,但对其他建议持开放态度。如果我使用 Javascript,我应该使用哪个解释器?

【问题讨论】:

    标签: javascript dom serverside-javascript


    【解决方案1】:

    试过Simple HTML DOM Parser了吗?

    【讨论】:

      【解决方案2】:

      有一个出色的 Python 模块 BeautifulSoup 可以在大多数情况下处理损坏的标记。如果页面格式错误以至于其内置的启发式方法不起作用,它还允许使用钩子来预处理 HTML。我用 BeautifulSoup 写了几十个解析器。

      还有html5lib 模块,速度更快,也可以解析无效的HTML。

      两个模块都有 Ruby 端口。

      【讨论】:

        猜你喜欢
        • 2010-12-31
        • 2010-12-13
        • 1970-01-01
        • 1970-01-01
        • 2021-03-06
        • 1970-01-01
        • 1970-01-01
        • 2017-05-25
        • 1970-01-01
        相关资源
        最近更新 更多