为开发人员开源生产数据？答案

【问题标题】：Open-source production data for developers?为开发人员开源生产数据？
【发布时间】：2009-02-13 20:28:32
【问题描述】：

我正在构建一个开放源代码、用户贡献内容的网站，我认为如果开发人员能够访问每晚的生产 SQL 转储，他们将更有可能从github 和它一起玩。

根据这个想法，我正在考虑：

根本不收集私人用户信息，对帐户使用 open-id，并大量使用 memcache 进行会话身份验证等操作。
在发布之前对敏感数据进行匿名处理

有时我会被“如果...不是很酷吗？”想法，所以我希望在这里进行健全性检查。这两种方法有什么明显的缺陷吗？这是一个理智的想法吗？

【问题讨论】：

标签： security open-source privacy

【解决方案1】：

一般来说，我认为你应该两者都做。您收集的任何私人数据对您来说都是一种责任，而不仅仅是因为您打算发布您的数据库。收集的越少越好。

不过，出于同样的原因，您可能意识到不只是 ID 和密码是敏感的。还记得the AOL search data leak 吗？还是 Netflix 数据库出版物？即使没有 ID，people managed to figure out the real identities 的某些帐户，只需将用户行为轨迹拼凑在一起，并将其与来自其他地方的数据对应起来。有些人对他们的搜索历史和电影租借感到尴尬。去图吧。

因此，我认为一般规则应该是尽可能少地收集，并将剩下的匿名化。即使您不存储与某个帐户对应的人的身份，您也可能想要打乱各种登录的操作。

另一方面，在某些情况下，您根本不关心这种隐私。例如，在维基百科中，您在网站上可以做的几乎所有事情都是公开的。至少，记录在数据库中的所有内容。如果信息已通过 API 提供，则将其隐藏在数据库下载中是没有意义的。

【讨论】：

【解决方案2】：

除了收集更少的数据和匿名化您收集的数据，您还可以为用户添加一个位/标志来选择他们的数据是否是包括与否。您可以将其设置为 CC 许可标志，以便在满足您的需求的同时为用户提供温暖的'n'fuzzies。

【讨论】：

我喜欢 CC 许可标志的想法。很酷。感谢您的回复。

【解决方案3】：

听起来是个好主意。您必须注意的一件事是安全性，因为黑客会知道您的数据库的确切架构。虽然这不是不可能处理的，但只要看看大多数开源项目。但是您需要更加强调安全性，因为现在可以更轻松地进行潜在的 SQL 注入。

另一件事是双重确保敏感数据是匿名的。此外，有些人可能（错误地）试图声称他们对用户提交的内容的版权受到侵犯，因此您可能需要指定 CC 许可证或其他东西，只是为了让一切更加清晰并防止未来的麻烦（即使您是对的） )。

【讨论】：

感谢您的回复。两者都很重要，CC 许可证是个好主意。
如果它是开源的，黑客无论如何都会知道你的数据库架构。只是可能需要更多的工作。