【问题标题】:Scraping Information from multiple URLS that are different in structure从结构不同的多个 URL 中抓取信息
【发布时间】:2021-08-01 16:02:52
【问题描述】:

我想抓取多个 URL,但它们具有不同的性质,例如具有不同 html 后端的不同公司网站。有没有办法在不为每个 url 提供自定义代码的情况下做到这一点?

了解我可以将多个 URL 放入一个列表并循环它们

【问题讨论】:

    标签: python web web-scraping beautifulsoup


    【解决方案1】:

    我不怕,但我不是专家 :-)

    我可以想象这取决于结构的复杂性。如果您想在每个网站上查找文本“Test”,我可以想象soup.body.findAll(text='Test') 会返回网站上所有出现的“Test”。

    我假设您知道如何在此处循环遍历列表,以便您遍历 URL 列表并检查是否出现了搜索字符串(也许您正在寻找其他内容,即 "应用”按钮还是“登录”?

    一切顺利,

    【讨论】:

      猜你喜欢
      • 2016-05-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-08-25
      • 1970-01-01
      • 2019-01-27
      相关资源
      最近更新 更多