【问题标题】:Scrape and convert website into HTML? [closed]抓取网站并将其转换为 HTML? [关闭]
【发布时间】:2010-08-12 15:30:30
【问题描述】:

我已经有 3 或 4 年没有这样做了,但是客户希望将他们的动态网站降级为静态 HTML。

是否有任何免费工具可以抓取域并生成有效的 HTML 文件以使其快速而轻松?

编辑:这是一个 Coldfusion 网站,如果这很重要的话。

【问题讨论】:

  • 问题是他们没有付钱来做这件事,所以,不管用什么最快的方法,不用写代码/ssh'ing任何东西,这样我就可以在从事有偿工作的同时完成这个工作。

标签: html screen-scraping web-scraping


【解决方案1】:

Getleft 是一个很好的 Windows 客户端,可以做到这一点。它非常可配置且可靠。

Wget 也可以使用--mirror 选项。

【讨论】:

    【解决方案2】:

    尝试使用httrack(或webhttrack/winhttrack,如果您需要图形用户界面)来抓取网站。它免费、快速且可靠。它也比wget 等原始下载器强大得多; httrack 专为镜像网站而设计。

    请注意,将动态页面转换为静态页面会失去很多功能。这也不总是可能 - 一个动态网站可以呈现无限数量的不同静态页面。

    【讨论】:

    • 我不会打电话给wget原语。
    • @strager:好吧,“相对原始”。在镜像站点方面,它的功能集受到了更多限制。
    • 我不确定它是否能做到httrack所做的一切,但不要小看wget --mirror!它可以做很多事情。
    【解决方案3】:

    好久没用了,不过webzip还是不错的。

    它不是免费的,但只要 35.00 美元,我认为您的客户不会破产。

    针对离线浏览器的快速 google 提出了看起来不错的 thisthis..

    【讨论】:

      猜你喜欢
      • 2014-03-06
      • 1970-01-01
      • 2012-08-19
      • 1970-01-01
      • 2013-06-17
      • 1970-01-01
      • 2020-01-15
      • 2020-10-08
      • 2020-08-13
      相关资源
      最近更新 更多