【发布时间】:2021-01-11 11:20:31
【问题描述】:
我正在尝试从维基百科中搜索一些名人的数据。我在获取数据方面没有问题,但是当我尝试将其导出到 csv 时,总是有一些条目会导致重大问题。基本上,对于大多数条目,输出 csv 的格式都很好,除了一些会导致我似乎无法克服的随机换行符。这是示例数据和代码:
# 1. pull out wiki pages
sample_names_list = [{'name': 'Mikhail Fridman', 'index': 11.0}, #will work fine
{'name': 'Roman Abramovich', 'index': 12.0}, #will cause issue
{'name': 'Marit Rausing', 'index': 13.0}] #has no wiki page, hence 'try' in loops below
# 1.1 get page title for each name in list
import wikipedia as wk
for person in sample_names_list:
try:
wiki_page = person['name']
person['wiki_page'] = wk.page(title = wiki_page, auto_suggest = True)
except: pass
# 1.2 get page content for each page title in list
for person in sample_names_list:
try:
person_page = person['wiki_page']
person['wiki_text'] = person_page.content
except: pass
# 2. convert to dataframe
import pandas as pd
sample_names_data = pd.DataFrame(sample_names_list)
sample_names_data.drop('wiki_page', axis = 1, inplace= True) #drop unnecessary col
# 3. export csv
sample_names_data.to_csv('sample_names_data.csv')
这是输出的屏幕截图,如您所见,其中一个条目中插入了随机换行符并分散在各处,没有明显的模式:
我试过摆弄sample_names_list 中的数据类型,我试过弄乱to_csv 的参数,我试过其他方法来导出csv。这些方法都不起作用。我是 python 新手,所以它很可能是一个非常明显的解决方案。非常感谢任何帮助!
【问题讨论】:
-
可能您使用
;作为 csv 分隔符,而 wiki 文本也有;。
标签: python pandas csv export-to-csv