【发布时间】:2018-10-09 20:04:07
【问题描述】:
我只是在学习网络抓取。我的目标是从显示数千家公司信息的网站上检索信息。在网站中每个公司都有自己的页面,URL的最后一个元素是基于公司的名称,例如:
https://rekvizitai.vz.lt/en/company/telesoftas/, https://rekvizitai.vz.lt/en/company/devbridge_lt/
在这种情况下,如果没有完整的公司名称列表,怎么可能抓取网站?
【问题讨论】:
-
您可以使用简单的python with beautiful soup 或类似scrapy 的框架。
-
这样的页面通常有列表页面,您可以在其中找到网址。到目前为止你有什么尝试?什么没有奏效?
-
@B.Adler 我成功地从一个网页中抓取数据,循环浏览几个网页,其中 URL 根据某些逻辑或索引发生变化。但是,如果可以在不知道完整 URL 的情况下循环和抓取网站中的所有页面,我无法找到答案,就像在这个例子中一样。
-
@user9035132 rekvizitai.vz.lt/en/companies 为您获取类别列表,从您转到每个类别的类别列表中。从每个类别中,您可以获得每个 url。
标签: python python-3.x web-scraping