【问题标题】:How to click a 'View More' button on a page to scrape results如何点击页面上的“查看更多”按钮来抓取结果
【发布时间】:2019-06-19 16:27:55
【问题描述】:

我尝试按下的按钮如下所示:

<a data-hide="#mvc-paginate-acf46b3a1b68090c" data-append="true" data-container="#posts-container" class="hubmvc-ajax-get mvc-more btn btn-skel-generic" href="https://example.com/linear-box-load-more/?load_more=1&amp;pg=2&amp;limit=36&amp;offset=14&amp;additional_class=gems&amp;ajax_hook=next_page&amp;_wpnonce=8762751649&amp;start_pg=1">View More</a>

在使用 BeautifulSoup 进行抓取之前,我尝试多次按下它。我尝试使用来自seleniumwebdriver,但显然根据这个答案不再支持它:Scrape page with "load more results" button

【问题讨论】:

  • 网站是什么?您可能最好使用请求。硒只能作为最后的手段。
  • 这些类名中是否有此按钮独有的?如果是这样,您可以使用driver.find_element_by_class_name("mvc-more")(或任何唯一的类名)
  • @antfuentes87 我相信使用基于其他答案的请求无法点击上述按钮中的 ajax
  • 什么?这种说法没有任何意义?如果你能提供这个网站,我可以给你写一个我所说的例子。
  • @antfuentes87 我要抓取的网站是:newsnetwork.mayoclinic.org/secondary-archive,我要按的按钮是 view more

标签: python web-scraping


【解决方案1】:

我查看了 Chrome 开发人员工具中的网络选项卡,并注意到在单击按钮时该页面发出了获取请求。以下代码发出获取请求以获取该特定“页面”的文章。在参数中,将 pg 号更改为您想要的任何数字。这在我测试时有效。唯一的问题可能是它没有获得所有文章的 html,只有该特定页面上的那些。如果您创建请求会话或循环通过所有页面的获取请求,您可能会获取所有页面的 html。


import requests

params = {
    'load_more': '1',
    'pg': '2',
    'limit': '36',
    'offset': '14',
    'additional_class': 'gems',
    'ajax_hook': 'next_page',
    '_wpnonce': '8762751649',
    'start_pg': '1',
    'hub_mvc_ajax': '1',
    'mvc_fastload': '3a0a558385',
}
next_url = "https://newsnetwork.mayoclinic.org/linear-box-load-more/"

next_page = requests.get(next_url, params=params)

print(next_page.text)

【讨论】:

    猜你喜欢
    • 2018-07-06
    • 1970-01-01
    • 2022-08-14
    • 1970-01-01
    • 2021-12-10
    • 1970-01-01
    • 1970-01-01
    • 2017-11-21
    • 1970-01-01
    相关资源
    最近更新 更多