【问题标题】:Python Beautiful Soup Scraping Specific NumbersPython Beautiful Soup 抓取特定数字
【发布时间】:2015-06-11 15:11:10
【问题描述】:

一个简单得多的问题...

使用下面的代码如何抓取 HTML 标签,结果只是一个数字?

我正在使用不同的网页。

import pickle
import math
import urllib2
from lxml import etree
from bs4 import BeautifulSoup
from urllib import urlopen

favPrevGMInfoUrl = 'http://www.cbssports.com/nfl/gametracker/boxscore/NFL_20140914_NE@MIN'
favPrevGMInfoHtml = urlopen(favPrevGMInfoUrl).read()
favPrevGMInfoSoup = BeautifulSoup(favPrevGMInfoHtml)
favPrevGMInfo = favPrevGMInfoSoup.find_all("td", { "id" : "away-safeties" })

print favPrevGMInfo

【问题讨论】:

    标签: python python-2.7 web-scraping beautifulsoup


    【解决方案1】:

    将您最后的打印语句更改为 -

    print favPrevGMInfo[0].text
    

    或将上面的行更改为 -

    favPrevGMInfo = favPrevGMInfoSoup.find("td", { "id" : "away-safeties" }).text
    

    【讨论】:

      【解决方案2】:

      此站点未在原始 url 的获取请求中返回源,而是通过 ajax json 调用 - http://www.nfl.com/feeds-rs/videos/byGameCenter/2014091404.json?gameState=POST&maxResult=0&random=1434035648930

      您需要从此调用中获取数据。请使用网络选项卡来分析所有正在发出的请求。

      【讨论】:

      • 我已经更新了我的问题。我不知道该怎么做,所以我正在使用不同的网页。新网页的每个数字都附加了一个“id”标签,因此更容易。我只需要帮助从答案中删除 HTML。
      猜你喜欢
      • 2015-08-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-08-22
      • 2023-03-31
      • 2020-04-22
      • 2017-08-14
      • 2013-01-09
      相关资源
      最近更新 更多