【问题标题】:How to scrape multiple pages from the same website, without knowing full URL?如何在不知道完整 URL 的情况下从同一网站抓取多个页面?
【发布时间】:2018-10-09 20:04:07
【问题描述】:

我只是在学习网络抓取。我的目标是从显示数千家公司信息的网站上检索信息。在网站中每个公司都有自己的页面,URL的最后一个元素是基于公司的名称,例如:

https://rekvizitai.vz.lt/en/company/telesoftas/, https://rekvizitai.vz.lt/en/company/devbridge_lt/

在这种情况下,如果没有完整的公司名称列表,怎么可能抓取网站?

【问题讨论】:

  • 您可以使用简单的python with beautiful soup 或类似scrapy 的框架。
  • 这样的页面通常有列表页面,您可以在其中找到网址。到目前为止你有什么尝试?什么没有奏效?
  • @B.Adler 我成功地从一个网页中抓取数据,循环浏览几个网页,其中 URL 根据某些逻辑或索引发生变化。但是,如果可以在不知道完整 URL 的情况下循环和抓取网站中的所有页面,我无法找到答案,就像在这个例子中一样。
  • @user9035132 rekvizitai.vz.lt/en/companies 为您获取类别列表,从您转到每个类别的类别列表中。从每个类别中,您可以获得每个 url。

标签: python python-3.x web-scraping


【解决方案1】:
import requests

names = ['telesoftas', 'devbridge_lt'] 

for name in names:
    html = requests.get(' https://rekvizitai.vz.lt/en/company/' + names)

【讨论】:

  • 如果我没有完整的公司名称列表怎么办?没有名称列表的情况下提取数据的方法是什么?
  • 我将自动搜索 5 个类别,收集所有这些公司名称,然后对所有类别重复此过程。然而,这是一项太大的任务,无法在 SO 上的一个答案中找到。收集完所有公司名称后,您可以像我在回答中所做的那样继续抓取所有公司“站点”。
猜你喜欢
  • 1970-01-01
  • 2017-12-25
  • 2015-07-22
  • 1970-01-01
  • 1970-01-01
  • 2018-05-23
  • 2020-04-09
  • 2019-09-25
  • 1970-01-01
相关资源
最近更新 更多