从结构不同的多个 URL 中抓取信息

【问题标题】：Scraping Information from multiple URLS that are different in structure从结构不同的多个 URL 中抓取信息
【发布时间】：2021-08-01 16:02:52
【问题描述】：

我想抓取多个 URL，但它们具有不同的性质，例如具有不同 html 后端的不同公司网站。有没有办法在不为每个 url 提供自定义代码的情况下做到这一点？

了解我可以将多个 URL 放入一个列表并循环它们

【问题讨论】：

【解决方案1】：

我不怕，但我不是专家 :-)

我可以想象这取决于结构的复杂性。如果您想在每个网站上查找文本“Test”，我可以想象soup.body.findAll(text='Test') 会返回网站上所有出现的“Test”。

我假设您知道如何在此处循环遍历列表，以便您遍历 URL 列表并检查是否出现了搜索字符串（也许您正在寻找其他内容，即 "应用”按钮还是“登录”？

一切顺利，

【讨论】：