【发布时间】:2019-04-22 10:35:26
【问题描述】:
我想在几个条件下对https://www.esportsearnings.com/tournaments 进行网络抓取,然后将其导出为 CSV。条件是:
- 我想要带有超链接的网络抓取文本(
<a href链接) - 我想在网络抓取数据时应用过滤器(例如抓取游戏 = Fortnite 的数据)
-
自动化多个网页(例如,在网页抓取第一页后,它应该自动抓取 2、3、4 等)
将 bs4 导入为 bs 导入 urllib.request 将熊猫导入为 pd
source = urllib.request.urlopen('https://www.esportsearnings.com/tournaments').read() 汤= bs.BeautifulSoup(来源,'lxml') table = soup.find('table') table_rows = table.find_all('tr')
对于 table_rows 中的 tr: td = tr.find_all('td') row = [i.text for i in td] 打印(行)
我是 python 新手,无法完成所有条件。上面写的代码只是废弃了数据。我想为多个页面自动化它并将其导出到 csv。 有人可以帮忙吗?
【问题讨论】:
-
你的问题是……?
-
如何自动化多页代码并导出为csv
标签: python html url web-scraping export-to-csv