如何根据Django中的某些字段查找重复记录答案

【问题标题】：How to find duplicate records based on certain fields in Django如何根据Django中的某些字段查找重复记录
【发布时间】：2019-01-18 07:45:59
【问题描述】：

我需要在查询集中创建新字段来标记记录是否重复。我将 2 个字段的连接值视为标识符。如果它们在查询集中（连接的字段）中出现的次数超过一次，则该记录被视为重复记录。

首先，在我的查询集上，我从现有的 2 个字段创建另一个字段，即案件编号和听证会日期。他们的输出字段名称是 dupe_id

    qs = file.objects.annotate(
            dupe_id=Concat(
                        F('case_no')
                        , F('hearing_date')
                        , output_field=CharField()
            )
        )

然后我测试这个 dupe_id 字段的计数。如果计数大于1，则认为是重复的

    dupes = qs.values('dupe_id').annotate(dupe_count=Count('dupe_id')).filter(dupe_count__gt=1)

此时，我现在有了另一个查询集，其中包含来自原始查询集的重复值。以下是从查询集类型的 dupe 对象中看到的记录。它还说明了找到该值的实例数

<QuerySet [{'dupe_id': 'Test Case No.2018-12-26', 'dupe_count': 3}, {'dupe_id': '123452018-12-26', 'dupe_count': 2}]>

现在这是我遇到一些困难的地方。我的想法是，我将在我的主查询集上做一个注释，我将使用 dupes 查询集来帮助识别需要标记为重复的记录。

我试过这个：

    qs = qs.annotate(
            dupe_id2 = Value(('duplicate' if dupes.filter(dupe_id__exact=Concat(F('case_no'), F('hearing_date')))[0] else '--'), output_field=CharField())
        )

这只是一个简单的测试，如果在 dupes 查询集中看到连接的值，则该字段将被标记为重复，如果没有则标记为“--”。

但它似乎没有按预期工作。即使我有 1 条不应该被标记为重复的记录，所有记录都被标记为重复。

我还使用条件表达式进行了检查，但我将无法使用我创建的 dupes 查询集。

如果有更可靠的方法将查询集中的记录标记为重复，请告诉我。

【问题讨论】：

为什么要投反对票？

标签： python django

【解决方案1】：

处理重复项的方法之一是使用以下算法：
SQL 中的 GroupBy > 查找重复项 > 循环重复项

from django.db.models import Max, Count

# Getting duplicate files based on case_no and hearing_date
files = File.objects.values('case_no', 'hearing_date') \
    .annotate(records=Count('case_no')) \
    .filter(records__gt=1)

# Check the generated group by query
print files.query

# Then do operations on duplicates
for file in files:
    File.objects.filter(
        case_no=file['case_no'],
        hearing_date=file['hearing_date']
    )[1:].update(duplicate=True)

【讨论】：

感谢您的建议。我也只是发现打印出生成的查询非常有帮助。现在我确定它似乎不起作用，在一个注释函数中。
请注意，您需要在此处使用.order_by() 来清除任何现有订单。如果你有一个模型集排序，这将成为 SQL GROUP BY 子句的一部分，这会破坏事情。

【解决方案2】：

事实证明，无法对查询集的注释函数执行条件操作。

我所做的是重写 get_context_data 函数，然后获取重复的键。返回的对象是一个查询集，因此我获取了所有 ID，然后将它们放入一个列表中，然后将它们存储到模板视图中可用的上下文中。

这就是我的 get_context_data 函数的样子，如果可以进一步改进，请告诉我。

def get_context_data(self, **kwargs):
    ctx = super(fileList, self).get_context_data(**kwargs)

    qs = file.objects.annotate(
            dupe_id=Concat(
                        F('case_no')
                        , F('hearing_date')
                        , output_field=CharField()
            )
        )

    dupes = qs.values('dupe_id').annotate(dupe_count=Count('dupe_id')).filter(dupe_count__gt=1)

    dupe_keys = []
    for dupe in dupes:
        dupe_keys.append(dupe['dupe_id'])

    ctx['dupe_keys'] = dupe_keys

    return ctx

现在在模板视图上，在查询集的 for 循环中，我刚刚创建了另一列，它检查查询集中的 id 是否在重复列表中可见，然后记录将具有重复的特殊标记或单元格将突出显示为用户可见的内容。

<td>{% if object.dupe_id in dupe_keys %} duplicate {% else %} not duplicate {% endif %}</td>

【讨论】：