【问题标题】:Replace values in a pandas series via dictionary efficiently通过字典有效地替换熊猫系列中的值
【发布时间】:2018-08-21 21:51:06
【问题描述】:

如何通过字典 d 替换 Pandas 系列中的值 s 已被多次询问和重新询问。

推荐的方法(1234)是使用s.replace(d),或者偶尔使用s.map(d)(如果您的所有系列值都在字典键中找到)。

但是,使用 s.replace 的性能通常非常慢,通常比简单的列表理解慢 5-10 倍。

替代方案s.map(d) 性能良好,但仅在字典中找到所有键时才推荐使用。

为什么s.replace 这么慢,如何提高性能?

import pandas as pd, numpy as np

df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()

##### TEST 1 #####

d = {i: i+1 for i in range(1000)}

%timeit df['A'].replace(d)                          # 1.98s
%timeit [d[i] for i in lst]                         # 134ms

##### TEST 2 #####

d = {i: i+1 for i in range(10)}

%timeit df['A'].replace(d)                          # 20.1ms
%timeit [d.get(i, i) for i in lst]                  # 243ms

注意:此问题未标记为重复,因为它正在寻找关于何时使用不同数据集的不同方法的具体建议。这在答案中是明确的,并且是其他问题中通常不涉及的一个方面。

【问题讨论】:

  • @JohnE,你说得对,我在大约 1w 之后才找到你的答案。希望我给出的解释可以帮助人们通过源代码注意到行为何时(如果和何时)发生变化。随意将其标记为 dup :)。
  • 不用担心,没关系,这里有太多东西被标记为欺骗 IMO ;-)

标签: python python-3.x pandas performance dictionary


【解决方案1】:

一个简单的解决方案是选择一种方法,该方法取决于对字典键覆盖值的完全程度的估计。

一般情况

  • 如果所有值都已映射,则使用df['A'].map(d);或
  • 如果映射 >5% 的值,则使用 df['A'].map(d).fillna(df['A']).astype(int)

很少,例如

  • 使用df['A'].replace(d)

~5% 的“交叉点”特定于下面的基准测试。

有趣的是,一个简单的列表推导式在任何一种情况下的性能通常都低于map

基准测试

import pandas as pd, numpy as np

df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()

##### TEST 1 - Full Map #####

d = {i: i+1 for i in range(1000)}

%timeit df['A'].replace(d)                          # 1.98s
%timeit df['A'].map(d)                              # 84.3ms
%timeit [d[i] for i in lst]                         # 134ms

##### TEST 2 - Partial Map #####

d = {i: i+1 for i in range(10)}

%timeit df['A'].replace(d)                          # 20.1ms
%timeit df['A'].map(d).fillna(df['A']).astype(int)  # 111ms
%timeit [d.get(i, i) for i in lst]                  # 243ms

说明

s.replace 之所以这么慢,是因为它不仅仅是映射字典。它处理一些边缘情况和可以说是罕见的情况,在任何情况下通常都需要更加小心。

这是摘自replace() in pandas\generic.py

items = list(compat.iteritems(to_replace))
keys, values = zip(*items)
are_mappings = [is_dict_like(v) for v in values]

if any(are_mappings):
    # handling of nested dictionaries
else:
    to_replace, value = keys, values

return self.replace(to_replace, value, inplace=inplace,
                    limit=limit, regex=regex)

似乎涉及许多步骤:

  • 将字典转换为列表。
  • 遍历列表并检查嵌套字典。
  • 将键和值的迭代器提供给替换函数。

这可以与map() in pandas\series.py 中的更精简的代码进行比较:

if isinstance(arg, (dict, Series)):
    if isinstance(arg, dict):
        arg = self._constructor(arg, index=arg.keys())

    indexer = arg.index.get_indexer(values)
    new_values = algos.take_1d(arg._values, indexer)

【讨论】:

    猜你喜欢
    • 2017-02-25
    • 1970-01-01
    • 2018-01-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-08-07
    • 1970-01-01
    • 2016-05-28
    相关资源
    最近更新 更多