【发布时间】:2018-09-24 02:35:47
【问题描述】:
我有一个关于将多个 Excel 文件组合在一起的一般性问题。通常,我会使用 pd.read_excel 读取文件然后 concat 加入。但是,在某些情况下,字段名称并不完全相同但相似。例如,
一张表将包含以下字段:Apple、Orange、Size、Id
另一张纸是:Apples, orange, Sizes, #
我使用了重命名列功能,但我必须检查和比较每个文件中的每个名称。我想知道是否有任何方法可以在不遍历所有字段名称的情况下组合它们。任何想法?谢谢!
【问题讨论】:
-
了解文件中的内容几乎没有什么好的捷径。如果您有数千个字段,您希望匹配非常相似的名称(可能使用 Levenshtein 距离)。但即使在这里,你对误报匹配的容忍度是多少?还是相反?这个问题只有知道了才能回答。否则,如果字段计数很短,则循环并打开文件,并将它们的名称存储在字典中,目的是创建现有字段名称的全局映射。
-
谢谢!我也是这么想的,但只是好奇是否有一些我不知道的新功能:)
-
@RCA 不完全是因为我只想将它们堆叠在一起而不是加入