【发布时间】:2020-11-27 20:51:04
【问题描述】:
我正在尝试根据文件夹中的类标签和图像填充数据框。
我有一个包含 10,000 多张图像的文件夹,其名称结构如下:['leaflet_10000_1.jpg', 'leaflet_10000_2.jpg', 'leaflet_10001_1.jpg', 'leaflet_10001_2.jpg', 'leaflet_10002_1.jpg', 'leaflet_10002_2.jpg', 'leaflet_10003_1.jpg', 'leaflet_10003_2.jpg'
以及结构的随附 csv 文件:
ID,Location,Party,Representative/Candidate,Date
1000,Glasgow North,Liberal Democrats,,02-Apr-10
1001,Erith and Thamesmead,Labour Party,,02-Apr-10
我想创建一个新的 csv 文件,其中包含上述Party 的所有图像的路径。我可以使用以下命令将某一方从完整的 csv 文件中分离出来:
df_ = df.loc[df["Party"] == "Labour Party"]
这将为我提供我感兴趣的派对,但是我如何创建与其关联的所有图像的完整列表.. 从上面共享的图像列表中,可以看出 ID 1001 有 2 个图像关联它.. 这不是一个固定的数字,有些 ID 有 3 到 5 张相关联的图像。
如何让这个新数据框填充所有必需的路径?
我的想法是在每个文件名上应用str.split(name, '_'),然后根据所有结果搜索每个 ID,但是从那里去哪里?
【问题讨论】:
标签: python python-3.x pandas