【发布时间】:2020-08-23 16:59:31
【问题描述】:
我在这里尝试操作一些字符串时遇到了一些问题。我正在从网站上抓取一些数据,我面临两个挑战:
-
我正在抓取不必要的数据,因为我的目标网站有多余的类命名。我的目标是隔离这些数据并将其删除,这样我就可以只保留我感兴趣的数据。
-
保留数据后,我需要拆分字符串以便将一些信息存储到特定变量中。
所以最初我打算使用一个简单的split() 函数并将每个新字符串存储到列表中,然后使用它来保留我想要的部分。不幸的是,每次我这样做时,我都会得到 3 个无法操作/拆分的单独列表。
代码如下:
from selenium import webdriver
from bs4 import BeautifulSoup
driver = webdriver.Chrome('\\Users\\rapha\\Desktop\\10Milz\\4. Python\\Python final\\Scrape\\chromedriver.exe')
driver.get("https://www.atptour.com/en/scores/2020/7851/MS011/match-stats")
content = driver.page_source
soup = BeautifulSoup(content, "html.parser" )
for infos in soup.find_all('h3', class_='section-title'):
title = infos.get_text()
title = ' '.join(title.split())
title_list = []
title_list = title.split(" | ")
print(title_list)
这里是“原始数据”检索
Player Results
Tournament Results
Salvatore Caruso VS. Brandon Nakashima | Indian Wells 2020
这就是我想要实现的目标
Variable_1 = Salvatore Caruso
Variable_2 = Brandon Nakashima
Variable 3 = Indian Wells
Variable 4 = 2020
您能告诉我如何在这里进行吗?
【问题讨论】:
标签: python python-3.x string list