【问题标题】:Sort and Flatten List/Dictionary of Data排序和展平数据列表/字典
【发布时间】:2021-04-02 09:52:18
【问题描述】:

我觉得这必须相当容易,但我发现自己为了理智而嵌套了太多循环。

给定这样的字典列表

[{'id': 101, 'value1': 'yes', 'value2': '',    'value3': '',    'value4': 'no' },
 {'id': 102, 'value1': '',    'value2': 'yes', 'value3': '',    'value4': 'no'},
 {'id': 103, 'value1': 'no',  'value2': '',    'value3': 'yes', 'value4': ''   },
 {'id': 104, 'value1': 'yes', 'value2': '',    'value3': 'no',  'value4': 'yes'},
 {'id': 105, 'value1': '',    'value2': 'yes', 'value3': 'yes', 'value4': ''   },
 {'id': 106, 'value1': 'yes', 'value2': '',    'value3': '',    'value4': ''   }]

我想创建值匹配或为空的字典列表。

期望的结果(列表的列表,但可以是列表/dict/whatever,注意有重复)

[[{'id': 101, 'value1': 'yes', 'value2': '',    'value3': '',    'value4': 'no' },
  {'id': 102, 'value1': '',    'value2': 'yes', 'value3': '',    'value4': 'no' },
  {'id': 105, 'value1': '',    'value2': 'yes', 'value3': 'yes', 'value4': ''   },
  {'id': 106, 'value1': 'yes', 'value2': '',    'value3': '',    'value4': ''   }],

 [{'id': 102, 'value1': '',    'value2': 'yes', 'value3': '',    'value4': 'no' },
  {'id': 103, 'value1': 'no',  'value2': '',    'value3': 'yes', 'value4': ''   },
  {'id': 105, 'value1': '',    'value2': 'yes', 'value3': 'yes', 'value4': ''   }],

 [{'id': 104, 'value1': 'yes', 'value2': '',    'value3': 'yes', 'value4': 'yes'},
  {'id': 106, 'value1': 'yes', 'value2': '',    'value3': '',    'value4': ''   }]]

我认为必须有某种方法可以使用 itertools groupby 来执行此操作,但我无法完全弄清楚。这个答案Sort and group a list of dictionaries 非常相似,但不完全是我需要的。如果它只是一个值,但倍数让我很合适,那将非常简单。有什么想法吗?

编辑:所以这个可怕的建筑工程。问题是我至少有 13 个字段 (value1...value13) 可以执行此操作,因此需要使其更灵活。

list = [ {'id': 101, 'value1': 'yes', 'value2': '',    'value3': '',    'value4': 'no' },
         {'id': 102, 'value1': '',    'value2': 'yes', 'value3': '',    'value4': 'no' },
         {'id': 103, 'value1': 'no',  'value2': '',    'value3': 'yes', 'value4': ''   },
         {'id': 104, 'value1': 'yes', 'value2': '',    'value3': 'no',  'value4': 'yes'},
         {'id': 105, 'value1': '',    'value2': 'yes', 'value3': 'yes', 'value4': ''   },
         {'id': 106, 'value1': 'yes', 'value2': '',    'value3': '',    'value4': ''   }]

final_list = []
matched = False
for dict1 in list:
    sub_list = []
    for dict2 in list:
        if dict1 == dict2:
            continue
        print(dict1)
        print(dict2)
        print('---')
        if ((dict1['value1'] == dict2['value1'] or dict1['value1'] == '' or dict2['value1'] == '') and
            (dict1['value2'] == dict2['value2'] or dict1['value2'] == '' or dict2['value2'] == '') and
            (dict1['value3'] == dict2['value3'] or dict1['value3'] == '' or dict2['value3'] == '') and
            (dict1['value4'] == dict2['value4'] or dict1['value4'] == '' or dict2['value4'] == '')):
            # so these two match
            # now make sure it doesn't conflict with the other entries already there
            if sub_list:
                subsublist = sub_list
                sub_conflict = False
                for dict3 in subsublist:
                    if dict2 == dict3:
                        continue
                    print("    ",dict2)
                    print("    ",dict3)
                    if ((dict2['value1'] == dict3['value1'] or dict2['value1'] == '' or dict3['value1'] == '') and
                        (dict2['value2'] == dict3['value2'] or dict2['value2'] == '' or dict3['value2'] == '') and
                        (dict2['value3'] == dict3['value3'] or dict2['value3'] == '' or dict3['value3'] == '') and
                        (dict2['value4'] == dict3['value4'] or dict2['value4'] == '' or dict3['value4'] == '')):
                        print('no conflict for this one')
                    else:
                        sub_conflict = True
                if not sub_conflict:
                    sub_list.append(dict2)
            else:
                sub_list.append(dict1)
                sub_list.append(dict2)
                print('appending both to list')
    #if not matched and [dict1 not in list3 for list3 in final_list]:
    # if not matched:
    #     print('not matched')
    #     sub_list=[dict1]
    sorted_list = sorted(sub_list, key=lambda k: k['id'])
    print('-------------------------------')
    final_list.append(tuple(sorted_list))

#print(*final_list)

final_final_list = []
for list in final_list:
    if list not in final_final_list:
        final_final_list.append(list)

for list in final_final_list:
    # print(list)
    for list2 in list:
        print(list2)
    print('')

【问题讨论】:

  • 您是如何对字典进行分组的?
  • 您的问题不清楚。你能解释一下如何从你发布的输入中获得预期的输出
  • 我实际上并没有得到那个结果,这只是我想要它做的一个例子。

标签: python sql sorting itertools


【解决方案1】:

假设您的字典列表称为dict_list,这样做

from itertools import product

values = ['yes', 'no']
num_value_fields = 4
keys = [f'value{i}' for i in range(1, num_value_fields + 1)]
results = []
for combo in product(values, repeat=num_value_fields):
    result = [d for d in dict_list if all(d[key] in {value, ''}
                                          for key, value in zip(keys, combo))]
    if len(result) > 1:
        results.append(result)

产生预期的输出

[[{'id': 105, 'value1': '', 'value2': 'yes', 'value3': 'yes', 'value4': ''},
  {'id': 106, 'value1': 'yes', 'value2': '', 'value3': '', 'value4': ''}],
 [{'id': 101, 'value1': 'yes', 'value2': '', 'value3': '', 'value4': 'no'},
  {'id': 102, 'value1': '', 'value2': 'yes', 'value3': '', 'value4': 'no'},
  {'id': 105, 'value1': '', 'value2': 'yes', 'value3': 'yes', 'value4': ''},
  {'id': 106, 'value1': 'yes', 'value2': '', 'value3': '', 'value4': ''}],
 [{'id': 104, 'value1': 'yes', 'value2': '', 'value3': 'no', 'value4': 'yes'},
  {'id': 106, 'value1': 'yes', 'value2': '', 'value3': '', 'value4': ''}],
 [{'id': 101, 'value1': 'yes', 'value2': '', 'value3': '', 'value4': 'no'},
  {'id': 102, 'value1': '', 'value2': 'yes', 'value3': '', 'value4': 'no'},
  {'id': 106, 'value1': 'yes', 'value2': '', 'value3': '', 'value4': ''}],
 [{'id': 101, 'value1': 'yes', 'value2': '', 'value3': '', 'value4': 'no'},
  {'id': 106, 'value1': 'yes', 'value2': '', 'value3': '', 'value4': ''}],
 [{'id': 104, 'value1': 'yes', 'value2': '', 'value3': 'no', 'value4': 'yes'},
  {'id': 106, 'value1': 'yes', 'value2': '', 'value3': '', 'value4': ''}],
 [{'id': 101, 'value1': 'yes', 'value2': '', 'value3': '', 'value4': 'no'},
  {'id': 106, 'value1': 'yes', 'value2': '', 'value3': '', 'value4': ''}],
 [{'id': 103, 'value1': 'no', 'value2': '', 'value3': 'yes', 'value4': ''},
  {'id': 105, 'value1': '', 'value2': 'yes', 'value3': 'yes', 'value4': ''}],
 [{'id': 102, 'value1': '', 'value2': 'yes', 'value3': '', 'value4': 'no'},
  {'id': 103, 'value1': 'no', 'value2': '', 'value3': 'yes', 'value4': ''},
  {'id': 105, 'value1': '', 'value2': 'yes', 'value3': 'yes', 'value4': ''}]]

?

【讨论】:

  • 真的很接近了!唯一的问题是重复(101、104 和 104、101),并且一些子集包含在其他子集中,例如 105、106 是一组,而 101、102、105、106 是一组,但这真的很容易清理。非常感谢!我能够使用 55 行代码而不是你的 8 行代码。
猜你喜欢
  • 2019-01-10
  • 2018-07-19
  • 2019-11-04
  • 2021-01-05
  • 2019-01-11
  • 1970-01-01
  • 1970-01-01
  • 2023-02-20
  • 1970-01-01
相关资源
最近更新 更多