【发布时间】:2013-03-06 10:40:52
【问题描述】:
我的想法是使用 wget 创建一个非常大的博客的所有线程的完整列表(根据博客本身,线程总数为 50,000)。我在 --spider 模式下使用 wget 来抓取网站并将 URL 输出到文本文件中。在 1d 3h 3m 3s wget 完成它的工作后,我发现“只有”9668 个文件与网站上提供的 50,000 个文件相比。根据 wget 643 链接被破坏所以我的第一个想法是检查丢失的线程是否与断开的链接有某种关系,但显然它们不是。该博客将其主题保存在以年和月命名的文件夹中(例如 /2012/01/name_of_thread.html)。一些断开的链接似乎是指 wget 从中下载一些线程的文件夹,因此我将排除所选文件夹的中断。丢失的线程(我在浏览博客时找到的)似乎来自 wget 正确下载其他几个线程的同一文件夹。
我从哪里开始了解出了什么问题?
【问题讨论】:
-
如果您可以控制该站点,则进行 sql 转储会更简单。如果不确定您是否有权下载该数据?
-
不,我无法控制网站。我只是看看发布的内容。
标签: wget