如何获取多索引数据帧的前两个索引的字典答案

【问题标题】：How to get dict of first two indexes for multi index data frame如何获取多索引数据帧的前两个索引的字典
【发布时间】：2018-12-10 18:22:17
【问题描述】：

我有一个如下所示的数据框

我想知道是否存在一种最快的方法来在 pandas 中创建一个可以保存如下数据的 python dict

table = {2: [4, 5, 6, 7, 8 ...], 4: [1, 2, 3, 4, ...]}

这里的键是用户 ID，值是唯一的日期列表。

这可以在核心 python 的早期完成，但想知道是否有基于 pandas 或 numpy 的方法来快速计算。我需要一个快速的解决方案，当这个数据框变大时可以很好地扩展。

编辑 1：表演

所用时间：每个循环 14.3 毫秒 ± 134 微秒（7 次运行的平均值 ± 标准偏差，每次 100 次循环）

levels = pd.DataFrame({k: df.index.get_level_values(k) for k in range(2)})

table = levels.drop_duplicates()\
              .groupby(0)[1].apply(list)\
              .to_dict()

print(table)

所用时间：每个循环 17.4 毫秒 ± 105 微秒（7 次运行的平均值 ± 标准偏差，每次 100 次循环）

res.reset_index().drop_duplicates(['user_id','date']).groupby('user_id')['date'].apply(list).to_dict()

所用时间：每个循环 294 毫秒 ± 12.8 毫秒（7 次运行的平均值 ± 标准偏差，每次 1 个循环）

a = {k: list(pd.unique(list(zip(*g))[1])) 
     for k, g in groupby(df.index.values.tolist(), itemgetter(0))}
print (a)

所用时间：每个循环 15 毫秒 ± 187 微秒（7 次运行的平均值 ± 标准偏差，每次 100 次循环）

pd.Series(res.index.get_level_values(1), index=res.index.get_level_values(0)).groupby(level=0).apply(set).to_dict()

编辑 2：再次进行基准测试

错误的结果

idx = df.index.droplevel(-1).drop_duplicates()
l1, l2 = idx.levels
mapping = defaultdict(list)
for i, j in zip(l1, l2):
    mapping[i].append(j)

改进的时序：每个循环 14.6 ms ± 58.8 µs（平均值 ± 标准偏差，7 次运行，每次 100 个循环）

a = {k: list(set(list(zip(*g))[1])) 
     for k, g in groupby(res.index.values.tolist(), itemgetter(0))}

【问题讨论】：

是否可以为纯 python 解决方案添加计时？
我认为Brad Solomon 解决方案和我的第一个，我真的很好奇是否更快。谢谢。
@jezrael 已在问题中更新。

标签： python pandas numpy dataframe indexing

【解决方案1】：

我认为如果需要更好的性能，请使用itertools.groupby 和unique 来获得与原始数据相同顺序的返回列表。如果顺序不重要，请使用set:

df = pd.DataFrame({'A':list('abcdef'),
                   'B':[4,5,4,5,5,4],
                   'C':[7,8,9,4,2,3],
                   'D':[1,3,5,7,1,0],
                   'E':[5,3,6,9,2,4],
                   'F':list('aaabbb')}).set_index(['F','B', 'A'])

print (df)
       C  D  E
F B A         
a 4 a  7  1  5
  5 b  8  3  3
  4 c  9  5  6
b 5 d  4  7  9
    e  2  1  2
  4 f  3  0  4

from  itertools import groupby
from operator import itemgetter

a = {k: list(set(list(zip(*g))[1])) 
     for k, g in groupby(df.index.values.tolist(), itemgetter(0))}
print (a)
{'a': [4, 5], 'b': [5, 4]}

另一个熊猫解决方案：

d = df.reset_index().drop_duplicates(['F','B']).groupby('F')['B'].apply(list).to_dict()
print (d)
{'a': [4, 5], 'b': [5, 4]}

【讨论】：

set 的结果比pd.unique 好得多。你应该把它改回来
@MayukhSarkar - 谢谢。

【解决方案2】：

来自Jz的数据

pd.Series(df.index.get_level_values(0),index=df.index.get_level_values(1)).groupby(level=0).apply(set).to_dict()
Out[92]: {4: {'a', 'b'}, 5: {'a', 'b'}}

如果只需要list，可以加apply(list) PS：个人认为不需要这一步

pd.Series(df.index.get_level_values(0),index=df.index.get_level_values(1)).groupby(level=0).apply(set).apply(list).to_dict()
Out[93]: {4: ['b', 'a'], 5: ['b', 'a']}

【讨论】：

文，需要列表，而不是集合
@jezrael 已修复 ;-)
只有套装订购有问题，所以不确定是否有好的解决方案。
@jezrael 更改了顺序。
@jezrael 是的，订购并不重要。

【解决方案3】：

这是使用drop_duplicates + groupby 的一种解决方案。

levels = pd.DataFrame({k: df.index.get_level_values(k) for k in range(2)})

table = levels.drop_duplicates()\
              .groupby(0)[1].apply(list)\
              .to_dict()

print(table)

{1: [2, 3], 2: [8, 9]}

设置

df = pd.DataFrame([[1, 2, 0, 3], [1, 2, 1, 4], [1, 3, 1, 5],
                   [2, 8, 1, 3], [2, 8, 1, 4], [2, 9, 2, 5]],
                  columns=['col1', 'col2', 'col3', 'col4'])

df = df.set_index(['col1', 'col2', 'col3'])

print(df)

                col4
col1 col2 col3      
1    2    0        3
          1        4
     3    1        5
2    8    1        3
          1        4
     9    2        5

【讨论】：