【发布时间】:2019-04-08 13:22:58
【问题描述】:
我想知道某个 URL 的任何子页面。例如。我有 URL example.com。可能存在子页面 example.com/home、example.com/help 等。是否可以在不知道确切名称的情况下获取所有此类子页面?
我认为我可以使用网络爬虫来处理这个问题。但它只是抓取页面本身提到的页面。
我希望你能理解我的问题并能帮助我解决这个问题。
谢谢!
【问题讨论】:
-
您可以猜测名称或使用流行名称列表。您可以生成所有可能的名称(蛮力)。您可以询问 Google 搜索 - 也许它的数据库中有其他子页面。所以通常你不能这样做。
-
稍后我回家后将代码发送给您。 1.问题是我需要的子页面只是随机生成的,没有任何模式,大约30个字符。所以猜测子页面需要很长时间。 2.子页面没有被索引,所以我无法通过谷歌的帮助找到它们。谢谢。
标签: url scrapy web-crawler