通过字典有效地替换熊猫系列中的值答案

【问题标题】：Replace values in a pandas series via dictionary efficiently通过字典有效地替换熊猫系列中的值
【发布时间】：2018-08-21 21:51:06
【问题描述】：

如何通过字典 d 替换 Pandas 系列中的值 s 已被多次询问和重新询问。

推荐的方法（1、2、3、4）是使用s.replace(d)，或者偶尔使用s.map(d)（如果您的所有系列值都在字典键中找到）。

但是，使用 s.replace 的性能通常非常慢，通常比简单的列表理解慢 5-10 倍。

替代方案s.map(d) 性能良好，但仅在字典中找到所有键时才推荐使用。

为什么s.replace 这么慢，如何提高性能？

import pandas as pd, numpy as np

df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()

##### TEST 1 #####

d = {i: i+1 for i in range(1000)}

%timeit df['A'].replace(d)                          # 1.98s
%timeit [d[i] for i in lst]                         # 134ms

##### TEST 2 #####

d = {i: i+1 for i in range(10)}

%timeit df['A'].replace(d)                          # 20.1ms
%timeit [d.get(i, i) for i in lst]                  # 243ms

注意：此问题未标记为重复，因为它正在寻找关于何时使用不同数据集的不同方法的具体建议。这在答案中是明确的，并且是其他问题中通常不涉及的一个方面。

【问题讨论】：

Remap values in pandas column with a dict的可能重复
@JohnE，你说得对，我在大约 1w 之后才找到你的答案。希望我给出的解释可以帮助人们通过源代码注意到行为何时（如果和何时）发生变化。随意将其标记为 dup :)。
不用担心，没关系，这里有太多东西被标记为欺骗 IMO ;-)

标签： python python-3.x pandas performance dictionary

【解决方案1】：

一个简单的解决方案是选择一种方法，该方法取决于对字典键覆盖值的完全程度的估计。

一般情况

如果所有值都已映射，则使用df['A'].map(d)；或
如果映射 >5% 的值，则使用 df['A'].map(d).fillna(df['A']).astype(int)。

很少，例如

使用df['A'].replace(d)

~5% 的“交叉点”特定于下面的基准测试。

有趣的是，一个简单的列表推导式在任何一种情况下的性能通常都低于map。

基准测试

import pandas as pd, numpy as np

df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()

##### TEST 1 - Full Map #####

d = {i: i+1 for i in range(1000)}

%timeit df['A'].replace(d)                          # 1.98s
%timeit df['A'].map(d)                              # 84.3ms
%timeit [d[i] for i in lst]                         # 134ms

##### TEST 2 - Partial Map #####

d = {i: i+1 for i in range(10)}

%timeit df['A'].replace(d)                          # 20.1ms
%timeit df['A'].map(d).fillna(df['A']).astype(int)  # 111ms
%timeit [d.get(i, i) for i in lst]                  # 243ms

说明

s.replace 之所以这么慢，是因为它不仅仅是映射字典。它处理一些边缘情况和可以说是罕见的情况，在任何情况下通常都需要更加小心。

这是摘自replace() in pandas\generic.py。

items = list(compat.iteritems(to_replace))
keys, values = zip(*items)
are_mappings = [is_dict_like(v) for v in values]

if any(are_mappings):
    # handling of nested dictionaries
else:
    to_replace, value = keys, values

return self.replace(to_replace, value, inplace=inplace,
                    limit=limit, regex=regex)

似乎涉及许多步骤：

将字典转换为列表。
遍历列表并检查嵌套字典。
将键和值的迭代器提供给替换函数。

这可以与map() in pandas\series.py 中的更精简的代码进行比较：

if isinstance(arg, (dict, Series)):
    if isinstance(arg, dict):
        arg = self._constructor(arg, index=arg.keys())

    indexer = arg.index.get_indexer(values)
    new_values = algos.take_1d(arg._values, indexer)

【讨论】：