Pandas - 比较两个 Csv 数据帧，但一个 csv 有问题答案

【问题标题】：Pandas - Comparing Two Csv Dataframes but one csv has issuePandas - 比较两个 Csv 数据帧，但一个 csv 有问题
【发布时间】：2019-02-05 07:31:42
【问题描述】：

我有两个 csv 数据框，我想做的是找到两个数据框不包含的唯一登录 ID。我面临的问题是以下代码运行但 df3 从 df1 返回所有行和列。我怀疑 df1 中的一行存在问题，但这是我需要您帮助的地方，请确定可能导致此问题的原因。

df1 中大约有 24000 行，df2 中大约有 8500 行。当我得到 df3 时，它从 df1 返回所有 24000 行，我知道这是不正确的，因为两者之间有共同的登录。请注意，df2 中的登录名位于“用户编号”列下。我的代码如下：

import pandas as pd
import numpy as np
import csv

fileLocationDf1 = "corpscore.csv"
fileLocationDf2 = "ENFI.csv"

createDf1 = pd.read_csv(fileLocationDf1)
createDf2 = pd.read_csv(fileLocationDf2, low_memory = False)

df3 = createDf1[~createDf1['login'].isin(createDf2['User Number'])]

df3.to_excel('Results.xlsx', sheet_name = 'Results')

【问题讨论】：

提供一些示例数据。
确保 dtypes 匹配，low_memory=False 可能会跳过一些类型转换，因此您最终可能会比较 isin 中的 'object' 和 'int' 左右，然后你会得到所有 @987654324 @ 用于索引。
还要检查df3.dtypes，您的系列可能不是同一类型，例如int 与 str 无法比较。

标签： python pandas

【解决方案1】：

检查您的数据。可能是您的数据类型不同。

看例子：

df1 = pd.DataFrame({'A': [1,2,3]})

df2 = pd.DataFrame({'A': ['2','5','6']})

df1[~df1['A'].isin(df2['A'])]
#   A
#0  1
#2  3

还有这个：

df2 = pd.DataFrame({'A': ['2','5a','6a'],
                    'B': list('def'),
                    'C': [1.7,0.3,2.8]})
df1[~df1['A'].isin(df2['A'])]
#   A
#0  1
#1  2
#2  3

这里发生的情况是.isin() 正在尝试将.isin() 中的整个系列转换为与您所调用的相同的dtype - 然后进行比较。

【讨论】：

完美 - df2 有一些登录名是字符串...非常感谢您的帮助。它工作......