【问题标题】:Python: finding duplicates in large jsonl filePython:在大型 jsonl 文件中查找重复项
【发布时间】:2019-10-10 18:30:23
【问题描述】:

我正在尝试在我的 jsonl 文件中查找所有包含相同标识符值的 json 对象。

所以如果我的数据看起来像:

{
   "data": {
      "value": 42,
      "url": "url.com",
      "details": {
         "timestamp": "07:32:29",
         "identifier": "123ABC"
         }
      },
   "message": "string"
}

我想找到每个具有相同标识符值的对象。该文件太大而无法一次加载,因此我逐行检查并仅存储标识符值。这样做的缺点是缺少具有该标识符的第一个对象(即,如果对象 A、B 和 C 都具有相同的标识符,我最终只会保存 B 和 C)。为了找到第一次出现的标识符,我尝试第二次通读该文件,以便仅在第一次找到每个重复的标识符时才找到它。这是我遇到一些问题的地方。

这部分按预期工作:

import gzip
import json_lines
import jsonlines
from itertools import groupby

identifiers=set()
duplicates=[]

with json_lines.open('file.jsonlines.gz') as f:
    for item in f:
        ID = item["data"]["details"]["identifier"]
        if ID in identifiers:
            duplicates.append(item)
        else:
            identifiers.add(ID)

dup_IDs={dup["data"]["details"]["identifier"] for dup in duplicates}

但是当我第二次阅读文件时:

with json_lines.open('file.jsonlines.gz') as f:
    for item in f:
        ID = item["data"]["details"]["identifier"]
        if ID in dup_IDs:
            duplicates.append(item)
            dup_IDs.remove(ID)
        else:
            continue

        if len(dup_IDs)==0:
            break
        else:
            continue

它运行了大约 30 分钟,最终导致我的计算机崩溃。我假设(希望)这是因为我的代码而不是我的计算机有问题,因为代码更容易修复。

【问题讨论】:

  • 我建议你应用数据库,它会在插入数据的过程中清除重复。
  • 你能测试我的代码吗?
  • 处理大量 JSON 数据,使用数据库的建议很好。我还可以推荐研究一下 Spark,它可以非常优雅地处理这个问题,并为你做线程/大数据缓存/优化。

标签: python jsonlines


【解决方案1】:

如果文件太大,我建议将数据上传到 SQL 数据库中,并使用 SQL 查询来过滤您需要的内容。

【讨论】:

  • 有没有办法在不先解压缩的情况下将 jsonl.gz 文件上传到我的数据库?该文件太大,无法在我的本地计算机上解压缩。
【解决方案2】:
import gzip
import json_lines
import jsonlines
from itertools import groupby

duplicates=[]
nb = {}
i = 0

with json_lines.open('file.jsonlines.gz') as f:
    for item in f:
        ID = item["data"]["details"]["identifier"]
        if ID in nb:
           if ID not in b:
               nb[ID]=int(i)
        else:
            nb[ID]=str(i)
        i +=1
i = 0
k = set(nb[i] for i in nb if isinstance(nb[i], int))
del nb
with json_lines.open('file.jsonlines.gz') as f:
    for item in f:
        if i in k:
           duplicates.append(item)
        i +=1
print(duplicates)

【讨论】:

    猜你喜欢
    • 2012-03-02
    • 1970-01-01
    • 2017-10-23
    • 2019-03-29
    • 1970-01-01
    • 1970-01-01
    • 2023-04-08
    • 2014-04-21
    • 2013-04-27
    相关资源
    最近更新 更多