【发布时间】:2012-10-10 13:59:51
【问题描述】:
我想抓取所有的 wordpress 博客。有没有什么快速的方法可以列出 wordpress.com 下的所有二级域名?比如http://developer.wordpress.com/
如果我们能得到所有二级域地址的列表,那么爬取所有数据集应该很容易和快速。
我们可以通过 1) dns 查找网站的所有二级域名。 2) 还是通过其他黑客技术?
感谢您回答这个问题!
【问题讨论】:
-
可能与此问题重复 - stackoverflow.com/questions/131989/…
-
是的,但它是不同的。我们可以用其他方式抓取所有页面吗? DNS 查找方法不起作用,因为网站的 dns 禁用了子域的 dig 选项。
-
我对这个领域一无所知,所以请不要激怒我,但是不能通过谷歌搜索 site:wordpress.com 以编程方式编译结果吗?
-
对不起,我只是想知道如何解决这个问题。 google api 的唯一问题是它们每天只允许 100 个查询。 :-(
-
Google 不再为 site:wordpress.com 等查询提供完整的结果。您可能会在moz.com/researchtools/ose 获得更完整的列表(您可能还违反了 WordPress 的 TOS)。
标签: wordpress dns web-crawler reverse-dns