如何在不知道完整 URL 的情况下从同一网站抓取多个页面？答案

【问题标题】：How to scrape multiple pages from the same website, without knowing full URL?如何在不知道完整 URL 的情况下从同一网站抓取多个页面？
【发布时间】：2018-10-09 20:04:07
【问题描述】：

我只是在学习网络抓取。我的目标是从显示数千家公司信息的网站上检索信息。在网站中每个公司都有自己的页面，URL的最后一个元素是基于公司的名称，例如：

https://rekvizitai.vz.lt/en/company/telesoftas/, https://rekvizitai.vz.lt/en/company/devbridge_lt/

在这种情况下，如果没有完整的公司名称列表，怎么可能抓取网站？

【问题讨论】：

您可以使用简单的python with beautiful soup 或类似scrapy 的框架。
这样的页面通常有列表页面，您可以在其中找到网址。到目前为止你有什么尝试？什么没有奏效？
@B.Adler 我成功地从一个网页中抓取数据，循环浏览几个网页，其中 URL 根据某些逻辑或索引发生变化。但是，如果可以在不知道完整 URL 的情况下循环和抓取网站中的所有页面，我无法找到答案，就像在这个例子中一样。
@user9035132 rekvizitai.vz.lt/en/companies 为您获取类别列表，从您转到每个类别的类别列表中。从每个类别中，您可以获得每个 url。

标签： python python-3.x web-scraping

【解决方案1】：

import requests

names = ['telesoftas', 'devbridge_lt'] 

for name in names:
    html = requests.get(' https://rekvizitai.vz.lt/en/company/' + names)

【讨论】：

如果我没有完整的公司名称列表怎么办？没有名称列表的情况下提取数据的方法是什么？
我将自动搜索 5 个类别，收集所有这些公司名称，然后对所有类别重复此过程。然而，这是一项太大的任务，无法在 SO 上的一个答案中找到。收集完所有公司名称后，您可以像我在回答中所做的那样继续抓取所有公司“站点”。