【发布时间】:2021-11-23 22:30:53
【问题描述】:
我正在尝试在金融时报网站上抓取一些基金的历史数据表。其中一只基金的网址是:https://markets.ft.com/data/funds/tearsheet/historical?s=LU0526609390:EUR(其中 LU0526609390:EUR 是该基金的 ISIN)。我有 40 只基金的列表,我需要其历史数据,每个基金都有自己的 ISIN,但 url 始终遵循相同的模式:https://markets.ft.com/data/funds/tearsheet/historical?s='ISIN' 然后我需要将每个基金的数据保存在单独的“ISIN”中.csv 文件。
我似乎能够使用下面的代码获取所有基金的数据,但我很难将这些数据导出到基金特定的“ISIN”.csv 文件中。
此外,日期列中的值似乎重复了两次(即 2021 年 9 月 30 日星期四、2021 年 9 月 30 日星期四),我不明白为什么。
import requests
import pandas as pd
import csv
urls = ['https://markets.ft.com/data/funds/tearsheet/historical?s=LU0526609390:EUR', 'https://markets.ft.com/data/funds/tearsheet/historical?s=IE00BHBX0Z19:EUR', '......']
for url in urls:
html = requests.get(url).content
df_list = pd.read_html(html)
df = df_list[-1]
print(df)
df.to_csv('my data.csv')
【问题讨论】:
标签: csv web-scraping html-table