混淆重新：数据框警告切片的熊猫副本答案

【问题标题】：Confusion re: pandas copy of slice of dataframe warning混淆重新：数据框警告切片的熊猫副本
【发布时间】：2016-12-14 14:22:51
【问题描述】：

我查看了一堆与此问题相关的问题和答案，但我仍然发现我在我不期望的地方收到了切片警告的副本。此外，它出现在以前对我来说运行良好的代码中，这让我想知道某种更新是否可能是罪魁祸首。

例如，这是一组代码，我所做的只是将 Excel 文件读入 pandas DataFrame，并减少 df[[]] 语法中包含的列集。

 izmir = pd.read_excel(filepath)
 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60','MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5','MC_OLD_18>F>5',
               'MC_OLD_M_Child<5','MC_OLD_F_Child<5','MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery','Date to insert','Date of Entery']]

现在，我对这个izmir_lim 文件所做的任何进一步更改都会引发切片警告的副本。

izmir_lim['Age'] = izmir_lim.Age.fillna(0)
izmir_lim['Age'] = izmir_lim.Age.astype(int)

/Users/samillienfeld/anaconda/lib/python3.5/site-packages/ipykernel/main.py:2： SettingWithCopyWarning：试图在一个副本上设置一个值从 DataFrame 切片。尝试使用 .loc[row_indexer,col_indexer] = 取而代之的价值

我很困惑，因为我认为 df[[]] 列子集默认返回一个副本。我发现抑制错误的唯一方法是显式添加df[[]].copy()。我可以发誓过去我不必这样做，也没有引发切片错误的副本。

同样，我还有一些其他代码可以在数据帧上运行一个函数，以某种方式对其进行过滤：

def lim(df):
if (geography == "All"):
    df_geo = df
else:
    df_geo = df[df.center_JO == geography]

df_date = df_geo[(df_geo.date_survey >= start_date) & (df_geo.date_survey <= end_date)]

return df_date

df_lim = lim(df)

从现在开始，我对df_lim 的任何值所做的任何更改都会引发切片错误的副本。我发现的唯一解决方法是将函数调用更改为：

df_lim = lim(df).copy()

这对我来说似乎是错误的。我错过了什么？似乎这些用例应该默认返回副本，我可以发誓我上次运行这些脚本时没有遇到这些错误。
我只需要开始到处添加.copy() 吗？似乎应该有一种更清洁的方法来做到这一点。非常感谢任何见解或帮助。

【问题讨论】：

该警告类似于提醒izmir_lim 是一个副本。您在izmir_lim 中所做的更改不会反映在izmir 中。你没有做错什么。您可以设置izmir_lim.is_copy = None 来消除警告。

标签： python pandas chained-assignment

【解决方案1】：

 izmir = pd.read_excel(filepath)
 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
                    'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
                    'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
                    'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
                    'Date to insert','Date of Entery']]

izmir_lim 是izmir 的视图/副本。您随后尝试分配给它。这就是引发错误的原因。改用这个：

 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
                    'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
                    'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
                    'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
                    'Date to insert','Date of Entery']].copy()

每当您以下列方式从另一个数据框“创建”新数据框时：

new_df = old_df[list_of_columns_names]

new_df 的is_copy 属性将具有真实值。当您尝试分配给它时，pandas 会抛出 SettingWithCopyWarning。

new_df.iloc[0, 0] = 1  # Should throw an error

您可以通过多种方式克服这个问题。

选项 #1

new_df = old_df[list_of_columns_names].copy()

选项 #2（如 cmets 中的 @ayhan 建议）

new_df = old_df[list_of_columns_names]
new_df.is_copy = None

选项#3

new_df = old_df.loc[:, list_of_columns_names]

【讨论】：

你能帮我理解这样做的逻辑吗？ izmir_lim 是一个单独的数据框，还是 izmir 子集的视图？如果它只是一个视图，为什么 pandas 会以这种方式工作？在我的工作流程中，我总是希望在子集后制作一个完全独立的数据框，并能够随意操作过滤后的数据框。我想这似乎不需要 .copy() 到处都是必要的，但也许我只是不了解其他用例。
@SamLilienfeld pandas 设置为以这种方式工作，以尽可能提高内存效率。如果您总是想要新的独立数据框，请使用其中一个选项，您将拥有它。当我通过old_df[list_O_cols] 创建一个子集时，我才注意到它发生了。我经常old_df.loc[:, list_O_cols]，我没有问题。现在是选项 3。
很好 - .loc 方法和其他方法一样完美。仍然在.loc、.ix 索引器等方面找到我的方法并不总是很清楚在哪种情况下哪个是正确的。部分原因是我认为这些名字有点神秘。非常感谢！
即使在使用.loc 索引数据帧时，我仍然会继续以令人困惑的方式遇到此错误。例如，我正在创建一个过滤数据框，该数据框会删除具有空值的行，如下所示：df_no_none = df_trans.loc[df_trans.value.notnull()]。每当我操作df_no_none 时，我都会继续获取切片错误的副本。有什么想法吗？
选项 #1 (df[cols].copy()) 和 #3 (df.loc[:, cols]) 可能都可以工作但它们做的事情不同。前者制作副本，后者提供直接切片到原始数据帧。因此，使用#3 更改值也会更改原始数据帧，而使用#1 不会。