【发布时间】:2017-01-04 14:54:09
【问题描述】:
我在这里有一个需要抓取的网页。它看起来像这样:
www.abc.com/a/b/,
我知道在/b 目录下,我需要一些带有.html 扩展名的文件。我知道我可以访问那些.html 文件,但我无权访问www.abc.com/a/b/。那么,在不知道.html 文件名的情况下,如何爬取那些.html 页面呢?
【问题讨论】:
-
Afaik 这不是爬虫的工作方式。除非 Web 服务器在引用 URL 中目录的根目录时提供目录列表,否则您实际上无法知道它在该目录下有哪些 html“文件”。首先,尝试使用根 URL
www.abc.com/a/b/并查看为您提供的服务,如果您获得 html 文档(“索引”页面或目录列表),请点击文档内的链接(例如,在 标记中)。 -
403禁止
-
然后您可以尝试引用公共目录索引(首先我会从“index.html”或“index.php”开始)。 (例如
www.abc.com/a/b/index.html)。
标签: python html nginx web-crawler