【问题标题】:Open-source production data for developers?为开发人员开源生产数据?
【发布时间】:2009-02-13 20:28:32
【问题描述】:

我正在构建一个开放源代码、用户贡献内容的网站,我认为如果开发人员能够访问每晚的生产 SQL 转储,他们将更有可能从github 和它一起玩。

根据这个想法,我正在考虑:

  • 根本不收集私人用户信息,对帐户使用 open-id,并大量使用 memcache 进行会话身份验证等操作。
  • 在发布之前对敏感数据进行匿名处理

有时我会被“如果...不是很酷吗?”想法,所以我希望在这里进行健全性检查。这两种方法有什么明显的缺陷吗?这是一个理智的想法吗?

【问题讨论】:

    标签: security open-source privacy


    【解决方案1】:

    一般来说,我认为你应该两者都做。您收集的任何私人数据对您来说都是一种责任,而不仅仅是因为您打算发布您的数据库。收集的越少越好。

    不过,出于同样的原因,您可能意识到不只是 ID 和密码是敏感的。还记得the AOL search data leak 吗?还是 Netflix 数据库出版物?即使没有 ID,people managed to figure out the real identities 的某些帐户,只需将用户行为轨迹拼凑在一起,并将其与来自其他地方的数据对应起来。有些人对他们的搜索历史和电影租借感到尴尬。去图吧。

    因此,我认为一般规则应该是尽可能少地收集,并将剩下的匿名化。即使您不存储与某个帐户对应的人的身份,您也可能想要打乱各种登录的操作。

    另一方面,在某些情况下,您根本不关心这种隐私。例如,在维基百科中,您在网站上可以做的几乎所有事情都是公开的。至少,记录在数据库中的所有内容。如果信息已通过 API 提供,则将其隐藏在数据库下载中是没有意义的。

    【讨论】:

      【解决方案2】:

      除了收集更少的数据匿名化您收集的数据,您还可以为用户添加一个位/标志来选择他们的数据是否是包括与否。您可以将其设置为 CC 许可标志,以便在满足您的需求的同时为用户提供温暖的'n'fuzzies。

      【讨论】:

      • 我喜欢 CC 许可标志的想法。很酷。感谢您的回复。
      【解决方案3】:

      听起来是个好主意。您必须注意的一件事是安全性,因为黑客会知道您的数据库的确切架构。虽然这不是不可能处理的,但只要看看大多数开源项目。但是您需要更加强调安全性,因为现在可以更轻松地进行潜在的 SQL 注入。

      另一件事是双重确保敏感数据是匿名的。此外,有些人可能(错误地)试图声称他们对用户提交的内容的版权受到侵犯,因此您可能需要指定 CC 许可证或其他东西,只是为了让一切更加清晰并防止未来的麻烦(即使您是对的) )。

      【讨论】:

      • 感谢您的回复。两者都很重要,CC 许可证是个好主意。
      • 如果它是开源的,黑客无论如何都会知道你的数据库架构。只是可能需要更多的工作。
      猜你喜欢
      • 1970-01-01
      • 2013-08-18
      • 1970-01-01
      • 1970-01-01
      • 2010-11-09
      • 2011-10-16
      • 1970-01-01
      • 1970-01-01
      • 2012-04-15
      相关资源
      最近更新 更多