从列描述中识别个人信息答案

【问题标题】：Identifying personnal information from column description从列描述中识别个人信息
【发布时间】：2020-07-28 08:48:17
【问题描述】：

我有一个关于识别 GDPR（通用数据保护条例）相关句子的问题。 Python、Java……中是否有工具/方法可以识别数据库列是否仅包含其描述中的个人身份信息？

我们可能会考虑使用词嵌入来获取给定句子的“most_similar”或“most_similar_cosmul”词，然后识别与 GDPR 相关的关键字（生物特征、个人、id、照片...），但结果取决于稳健性词嵌入模型。

提前谢谢你，

【问题讨论】：

标签： java python nlp privacy word-embedding

【解决方案1】：

GDPR 中没有“个人身份信息”之类的东西。术语（来自GDPR article 4(1)）是“个人数据”，定义为：

与已识别或可识别的自然人有关的任何信息

而且它本身并不需要进行识别才能获得资格。什么是“可识别自然人”？ GDPR 说：

可识别的自然人是可以直接或间接被识别的人，特别是通过参考诸如姓名、身份证号、位置数据、在线标识符或特定于物理的一个或多个因素的标识符该自然人的生理、遗传、心理、经济、文化或社会身份

在这里将常规“数据”转化为“个人数据”的关键是“一个或多个因素”短语。可以合理地将单个字段（例如电话号码）视为唯一标识一个人。邮政编码本身可能不会，但是当结合街道地址和名字时，我们将非常接近能够识别某人，因此所有其他数据都将成为“个人”。很难评估一组字段是否足以唯一识别某人 - 您可能认为名字和城市可能无法识别个人，给定“John”和“London”，但“Esmerelda”和“Ulaanbaatar”可能很容易追踪，而且“最坏的情况”很重要。

举一个更简单的例子：像#663399这样的颜色值本身只是普通的“数据”，不是“个人数据”，不受 GDPR 约束。在将该数据链接到个人的表中的字段中存储为“最喜欢的颜色”的完全相同的值是个人数据。城市表中的“城市”不是个人数据，但用户表中的“城市”字段是。

简而言之，您将无法为所欲为。您无法从名称中判断字段是否为个人数据，因为您没有足够的上下文。

【讨论】：

感谢您的回复。事实上，如果我们认为我的句子中确实有上下文。例如，“此字段收集用户出生证明中的信息”。删除停用词：“信息、位置、用户、出生、证书”后，这些列可能会包含个人信息。例如，我如何使用来自 Wikimedia 的外部预训练模型（gensim、fasttext...）将此列标记为包含个人信息？还有其他工具/技术吗？我考虑过使用单词相似度，然后定义一个“个人信息”区域
我只是认为您不能可靠地告诉它有用 - 没有什么可以阻止数据库命名其列“a”、“b”、“c”并将敏感数据存储在其中，或者有一些无害的东西——听起来像是有人粘贴了病史的“笔记”。我认为即使是人类也无法仅通过查看字段名称来形成可靠的意见，因此您将很难让机器来执行此操作。显而易见的事情可能很容易，但会有很多其他事情是不可能的。反过来说，听起来很私人的领域可能不是。
如果您已经有定义，可以为您提供有关单个字段的大量元数据，您可能可以将其标记为同时识别或不识别，在这种情况下机器学习是多余的。跨度>
非常感谢您的帮助。