【问题标题】:how to crawl all wordpress pages如何爬取所有wordpress页面
【发布时间】:2012-10-10 13:59:51
【问题描述】:

我想抓取所有的 wordpress 博客。有没有什么快速的方法可以列出 wordpress.com 下的所有二级域名?比如http://developer.wordpress.com/

如果我们能得到所有二级域地址的列表,那么爬取所有数据集应该很容易和快速。

我们可以通过 1) dns 查找网站的所有二级域名。 2) 还是通过其他黑客技术?

感谢您回答这个问题!

【问题讨论】:

  • 可能与此问题重复 - stackoverflow.com/questions/131989/…
  • 是的,但它是不同的。我们可以用其他方式抓取所有页面吗? DNS 查找方法不起作用,因为网站的 dns 禁用了子域的 dig 选项。
  • 我对这个领域一无所知,所以请不要激怒我,但是不能通过谷歌搜索 site:wordpress.com 以编程方式编译结果吗?
  • 对不起,我只是想知道如何解决这个问题。 google api 的唯一问题是它们每天只允许 100 个查询。 :-(
  • Google 不再为 site:wordpress.com 等查询提供完整的结果。您可能会在moz.com/researchtools/ose 获得更完整的列表(您可能还违反了 WordPress 的 TOS)。

标签: wordpress dns web-crawler reverse-dns


【解决方案1】:

您可以在一些实时搜索的在线应用程序上使用 google dorks 轻松找到子域,例如 http://www.iseebug.com/find-sub-domain-online-search-domain/ 还有像http://iseebug.com/sandVox/这样的在线爬虫

【讨论】:

    猜你喜欢
    • 2020-02-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多