差分隐私 - 爱码网

1概述

差分隐私本身只是一个定义，现有的这些机制只是帮助你设计满足差分隐私定义机制的标准技术。

差分隐私描述了数据持有者对数据主体的承诺：“无论您将数据用于任何研究或分析，都不会受到不利影响或其他影响。” 差分数据库机制可以使机密数据广泛用于准确的数据分析，而无需诉诸数据清洗，数据使用协议，数据保护计划，或其他受限方面。

任何个体的存在或不存在这个数据集中，差分隐私能确保输出（对查询的响应）在“本质上”发生的概率是相同的。这里，概率被差分隐私机制（由数据持有者控制）所做的随机选择所取代，这里术语“本质上”被抽象为参数 ϵ*。较小的 ϵ 将产生更好的隐私（和更不准确的响应）。

差分隐私是一个定义，而不是一个算法。

数据匿名存在的局限性：k-anonymity之类的无法做到完全保护隐私信息，理解了其他的定义的缺陷才能明白差分隐私提供的隐私保障是完备的。

差分隐私能中和联动攻击：因为差分隐私是数据访问机制的一个属性，并且与对手可用的辅助信息（背景知识）的存在或不存在无关。

重建攻击

2 计算模型

差分隐私机制是一种算法，它将一个数据库或一组全体数据类型 \mathcal{X}X （所有可能的数据库行）、随机位和一组查询（可选）作为输入，并生成一个输出字符串。希望可以对输出字符串进行解码，以便对查询产生相对准确的答案。如果没有出现任何查询，那么我们就处于非交互式的情况下，希望输出字符串可以被解释为将来的查询提供答案。

在某些情况下，我们可能要求输出字符串是合成数据库。这种合成数据库是由所有可能的数据库行（\mathcal{X}X）中得到的多集合组成。这种情况下的解码方法是对合成数据库进行查询，然后应用一些简单的变换，如缩放因子的乘法，使其近似于查询的真实答案。

隐私定义：在数据分析的背景下可以这样定义隐私，即：要求分析人员在分析完成后对数据集中的任何个人的了解不超过分析开始前的了解。