【发布时间】:2021-10-07 03:56:28
【问题描述】:
我是一个网络抓取新手,我正在寻找下一步该做什么的指示,或者可能是一个可行的解决方案,以抓取以下网页:https://www.capology.com/club/leicester/salaries/2019-2020/
我想为表格的每一行(玩家)提取以下内容:
- 玩家姓名,即 Jamie Vardy
- 每周总基本工资(以英镑计),即 140,000 英镑
- 年度基本工资总额(以英镑计),即 7,280,000 英镑
- 位置即F
- 年龄即 33 岁
- 国家英格兰
以下代码为我想要的 JavaScript 信息表创建“汤”:
import requests
from bs4 import BeautifulSoup
import json
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:75.0) Gecko/20100101 Firefox/75.0'}
url = 'https://www.capology.com/club/leicester/salaries/2019-2020/'
r = requests.get(url)
soup = BeautifulSoup(r.content, 'html.parser')
script = soup.find_all('script')[11].string # 11th script tag in the webpage
我可以看到分配给 script 变量的“汤”包含我需要的所有信息,但是,我正在努力提取作为 pandas DataFrame 所需的信息?
我随后想将此设置为分页,以在 17-18 的“五强”欧洲联赛(英超、意甲、西甲、德甲和法甲)中搜索每支球队、18-19、19-20 和 20-21(当前)季节。但是,这是最后阶段的解决方案,如果这是一个耗时的请求,我很乐意离开并尝试自己做。
一个可行的解决方案会很棒,但只是一些提示,这样我就可以离开并尽可能高效地自己学习这些东西。
非常感谢!
【问题讨论】:
标签: python pandas selenium web-scraping beautifulsoup