【问题标题】:Scrape URLs in a search result with Python through a "load more" button (Bulgarian site)通过“加载更多”按钮使用 Python 在搜索结果中抓取 URL(保加利亚网站)
【发布时间】:2021-01-24 17:31:21
【问题描述】:

我想像这样抓取整个搜索结果集: (此搜索是针对“土豆”)

картофи | Vesti.bg https://www.vesti.bg/tarsene?q=%D0%BA%D0%B0%D1%80%D1%82%D0%BE%D1%84%D0%B8

问题是这里有一个“加载更多”按钮(“ВИЖ ОЩЕ”/“查看更多”):

选择器

body > div.container-fluid > div.vesti-mainWrap > div > section > div.main-content.leading-news.search-page-form > div > div > div.col-12.section-more -持有人

xpath:

/html/body/div1/div[2]/div/section/div1/div/div/div[32]

而且我不知道如何使用请求和 post/get 方法来加载整个结果集(之后我会抓取)。

有什么想法吗?

【问题讨论】:

    标签: python web-scraping python-requests


    【解决方案1】:

    实现此目的的一种方法是使用库selenium。 您可以简单地执行driver.find_element_by_xpath('/html/body/div1/div[2]/div/section/div1/div/div/div[32]').click() 以自动单击按钮。之后,您将抓取新加载的数据。

    【讨论】:

    • 不知何故我无法通过安装找到自己的方式,因为我不想使用 Chrome。其他答案将不胜感激。
    • 您不需要使用 Chrome 驱动程序:seleniumhq.github.io/selenium/docs/api/py/#drivers
    • 好吧,我尝试过 Edge 和 Opera 模拟,但没有成功。再说一次,我很感激另一个解决方案。
    • 或者我可能会再次尝试使用它。
    • 无法真正发挥作用。 :/ 我成功启动浏览器,加载页面,selenium 找不到 xpath 或类名给出的任何内容。 ://
    猜你喜欢
    • 2021-09-26
    • 1970-01-01
    • 2018-07-06
    • 1970-01-01
    • 2021-10-17
    • 2019-01-20
    • 2014-08-09
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多