【问题标题】:Read the page number while scraping a website using BeautifulSoup使用 BeautifulSoup 抓取网站时读取页码
【发布时间】:2018-10-07 04:27:28
【问题描述】:

我正在尝试仅读取 URL 链接中的页码并将其放入变量中。我从网站上抓取了该页码。下面是我从网站上抓取的变量的打印输出

<li><a href="https://bp.portwallet.com/report/topUp?source=gp_web&amp;allSearch=&amp;amountFrom=1&amp;amountTo=50000&amp;startdate=2018-10-03&amp;enddate=2018-10-03&amp;topUpSearch=topUpSearch&amp;status=1&amp;rType=Prepaid&amp;per_page=46">Last ›</a></li>

我需要将 per_page= 值放入变量中..

我试图只抓取数字但没有运气

【问题讨论】:

    标签: python web-scraping beautifulsoup


    【解决方案1】:
    from bs4 import BeautifulSoup
    page = '''<li><a href="https://bp.portwallet.com/report/topUp?source=gp_web&amp;allSearch=&amp;amountFrom=1&amp;amountTo=50000&amp;startdate=2018-10-03&amp;enddate=2018-10-03&amp;topUpSearch=topUpSearch&amp;status=1&amp;rType=Prepaid&amp;per_page=46">Last ›</a></li>'''
    soup = BeautifulSoup(page, 'html.parser')
    x = soup.select('a')
    per_page = (x[0]['href']).split('per_page=')[-1]
    print('per_page:', per_page)
    

    输出:

    per_page: 46
    

    【讨论】:

      猜你喜欢
      • 2019-12-15
      • 2020-12-22
      • 2020-09-17
      • 1970-01-01
      • 1970-01-01
      • 2020-03-27
      • 2016-03-22
      相关资源
      最近更新 更多