【发布时间】:2020-06-10 15:26:40
【问题描述】:
我有多个不同部门的 .csv 文件,具有相同的标题(姓名、完整地址、部门),完整地址是一个大约 20 - 50 个单词的长字符串,它包括包括城市在内的所有详细信息。 我的每个 .CSV 文件都包含大约 100K 行,我在同一个文件夹中有大约 400 个这样的文件。
我想要做的是,我想为居住在纽约的所有员工(在阅读所有 csv 文件后)手动创建一个单独的 csv 文件(生成的文件应包含姓名、完整地址和部门)是不可能的,但我知道在 python 中是可能的。
谁能帮我解决这个问题?
【问题讨论】:
-
您是否已经创建了数据框?如果您需要解析城市,请添加您的数据样本,请阅读minimal reproducible example
-
我还没有创建数据框或任何代码。我只是个初学者。
-
一种可能的方法:在目录中生成 csv 文件列表。创建空列表 y。遍历文件列表。使用 csv 模块 (stackoverflow.com/a/13428432/503835) 逐行读取文件。检查字符串“new york”是否存在于行中,如果不重复,则存储在 y 中。完成读取后转换为数据框并保存到 csv。
-
@eNc 我必须考虑每个文件大约 400 MB,并且有 400 个这样的文件.. 所以一一阅读,它会导致我的系统崩溃吗?
标签: python python-3.x pandas csv