众包可靠性测量 - 垃圾邮件/欺诈检测答案

【问题标题】：Crowdsourcing reliability measurements - spam/fraud detection众包可靠性测量 - 垃圾邮件/欺诈检测
【发布时间】：2011-11-04 13:29:00
【问题描述】：

我想从网站用户那里收集某种地理信息 - 对于给定的数据集，他们将标记复选框，指示该地点是否有给定财产。是否有任何工具/框架可以根据整个收集的数据集（以及可能的其他信息）检测欺诈或垃圾邮件提交？我想获得经过过滤的、更可靠的数据。

【问题讨论】：

现有众包工具有一些服务/工具/框架，例如 Amazon Mechanical Turk（顺便说一句，大多数都是非免费的）。您是否对此感兴趣，或者您想知道如何自己做？
@etov - 我考虑从收集的选票中提取“真相”，假设欺诈选票很小并且可以在统计上区分

【解决方案1】：

不确定这是否正是您所要求的，但以下是我使用 Amazon Turk 的一些提示：

有几篇学术论文涉及此类问题。 here 不错。此外，根据以下一般性建议，我创建了一个自定义过程来处理我的数据：

一个。包括一个未解决的问题，并过滤掉没有回答的案例。自动回答这样的问题更难，而且可能更耗时，因此对欺诈者来说吸引力更小。

b.如果可能，不要使用二进制刻度（即复选框），而是使用某个等级（例如 1-4 或 1-6）。这将为您提供更多数据。

c。如果可能，请过滤掉填写表格所花费的时间太短的情况。（如果您包含该开放式问题，则特别有用）

d。如果每个用户有多个输入，请检查重复的答案，以及始终给出远离平均答案的用户。如果每个用户只提交一个“表单”，请考虑在其中放入多个元素/问题，这样每个用户都会收到多个提交。

e。如果每个用户或用户 ID 只有一次提交，则您的选择会受到更多限制。如果您有足够的数据，我可以建议过滤掉异常值（例如，数据点与平均值相差 3 个标准差）。

f。在所有过滤之后，检查数据中的一致性或不一致性（例如，通过检查数据点中有多少比例落在平均值的 x 标准偏差内）。如果有一致意见，则使用平均值；如有分歧，请收集更多数据。

希望对你有帮助，

【讨论】：