【发布时间】:2018-02-28 12:38:29
【问题描述】:
我正在尝试使用 BeautifulSoup 从以下网页中抓取表格: https://www.pro-football-reference.com/boxscores/201702050atl.htm
import requests
from bs4 import BeautifulSoup
url = 'https://www.pro-football-
reference.com/boxscores/201702050atl.htm'
page = requests.get(url)
html = page.text
页面上的大部分表格都在评论标签内,因此无法直接访问。
print(soup.table.text)
返回:
1
2
3
4
OT
Final
via Sports Logos.net
About logos
New England Patriots
0
3
6
19
6
34
via Sports Logos.net
About logos
Atlanta Falcons
0
21
7
0
0
28
即缺少包含球员统计数据的主表格。我试图简单地使用删除评论标签
html = html.replace('<!--',"")
html = html.replace('-->',"")
但无济于事。如何访问这些已注释掉的表格?
【问题讨论】:
-
完全采取不同的处理路线。在 Chrome 浏览器中使用 selenium。 SO上有很多问题和答案可以指导您。
-
我没有看到任何页面上的表格在评论标签内。你能以某种方式展示吗?
-
@RomanPerekhrest 例如,页面下方四分之一处名为“传球、冲球和接球”的表格,其中包含球员的统计数据。当我在 chrome 中查看页面源代码时,该表似乎包含在从 HTML 代码第 864 行开始的注释形式中。不知道我错过了什么,我真的没有 HTML 经验......
标签: python web-scraping beautifulsoup