【问题标题】:Crowdsourcing reliability measurements - spam/fraud detection众包可靠性测量 - 垃圾邮件/欺诈检测
【发布时间】:2011-11-04 13:29:00
【问题描述】:

我想从网站用户那里收集某种地理信息 - 对于给定的数据集,他们将标记复选框,指示该地点是否有给定财产。是否有任何工具/框架可以根据整个收集的数据集(以及可能的其他信息)检测欺诈或垃圾邮件提交?我想获得经过过滤的、更可靠的数据。

【问题讨论】:

  • 现有众包工具有一些服务/工具/框架,例如 Amazon Mechanical Turk(顺便说一句,大多数都是非免费的)。您是否对此感兴趣,或者您想知道如何自己做?
  • @etov - 我考虑从收集的选票中提取“真相”,假设欺诈选票很小并且可以在统计上区分

标签: statistics classification gis crowdsourcing fraud-prevention


【解决方案1】:

不确定这是否正是您所要求的,但以下是我使用 Amazon Turk 的一些提示:

有几篇学术论文涉及此类问题。 here 不错。 此外,根据以下一般性建议,我创建了一个自定义过程来处理我的数据:

一个。包括一个未解决的问题,并过滤掉没有回答的案例。自动回答这样的问题更难,而且可能更耗时,因此对欺诈者来说吸引力更小。

b.如果可能,不要使用二进制刻度(即复选框),而是使用某个等级(例如 1-4 或 1-6)。这将为您提供更多数据。

c。如果可能,请过滤掉填写表格所花费的时间太短的情况。 (如果您包含该开放式问题,则特别有用)

d。如果每个用户有多个输入,请检查重复的答案,以及始终给出远离平均答案的用户。 如果每个用户只提交一个“表单”,请考虑在其中放入多个元素/问题,这样每个用户都会收到多个提交。

e。如果每个用户或用户 ID 只有一次提交,则您的选择会受到更多限制。如果您有足够的数据,我可以建议过滤掉异常值(例如,数据点与平均值相差 3 个标准差)。

f。在所有过滤之后,检查数据中的一致性或不一致性(例如,通过检查数据点中有多少比例落在平均值的 x 标准偏差内)。如果有一致意见,则使用平均值;如有分歧,请收集更多数据。

希望对你有帮助,

【讨论】:

  • 我正在考虑自定义数据收集和过滤(不使用 MTurk),但所有建议也非常有价值,谢谢!
猜你喜欢
  • 2014-01-18
  • 2020-07-18
  • 1970-01-01
  • 2016-05-07
  • 1970-01-01
  • 2011-09-18
  • 2011-04-04
  • 2021-04-11
相关资源
最近更新 更多