【发布时间】:2019-02-05 07:31:42
【问题描述】:
我有两个 csv 数据框,我想做的是找到两个数据框不包含的唯一登录 ID。我面临的问题是以下代码运行但 df3 从 df1 返回所有行和列。我怀疑 df1 中的一行存在问题,但这是我需要您帮助的地方,请确定可能导致此问题的原因。
df1 中大约有 24000 行,df2 中大约有 8500 行。当我得到 df3 时,它从 df1 返回所有 24000 行,我知道这是不正确的,因为两者之间有共同的登录。请注意,df2 中的登录名位于“用户编号”列下。我的代码如下:
import pandas as pd
import numpy as np
import csv
fileLocationDf1 = "corpscore.csv"
fileLocationDf2 = "ENFI.csv"
createDf1 = pd.read_csv(fileLocationDf1)
createDf2 = pd.read_csv(fileLocationDf2, low_memory = False)
df3 = createDf1[~createDf1['login'].isin(createDf2['User Number'])]
df3.to_excel('Results.xlsx', sheet_name = 'Results')
【问题讨论】:
-
提供一些示例数据。
-
确保 dtypes 匹配,
low_memory=False可能会跳过一些类型转换,因此您最终可能会比较isin中的 'object' 和 'int' 左右,然后你会得到所有 @987654324 @ 用于索引。 -
还要检查
df3.dtypes,您的系列可能不是同一类型,例如int与str无法比较。