【问题标题】:Simple interface for tagging research data?用于标记研究数据的简单界面?
【发布时间】:2010-12-16 22:57:11
【问题描述】:

在构建自动分类文本的系统之前,我需要手动将一大堆样本分类为训练/评估集。 是否有一些现有的工具可以让我手动标记数千个项目而不会太痛苦?如果没有,什么是最快捷的方式?

例如,假设您有一堆 Twitter 消息。您想将它们放在特定的桶中:快乐、悲伤、有趣、愤怒和垃圾邮件。有些东西放在多个桶里。您可以将所有内容转储到文件中并使用 vi 插入一些标签,但这很容易出错并且有点慢。更重要的是,拥有一个漂亮的界面意味着也许你可以说服你的同事去做一堆工作。 Web、GUI 或控制台无关紧要;只要它快速简单。有这样的吗?

我希望是的,尽管我在 Google 上找不到任何东西。如果我必须构建一些东西,有没有一个好的起点?从翻找来看,我的第一印象是 Rails + jQuery +acts_as_taggable_on + jQuery Tokenizing Autocomplete 似乎还可以,但我对其他事情持开放态度。

【问题讨论】:

  • 不错的选择! Rails + jQuery +acts_as_taggable_on + jQuery 标记自动完成

标签: jquery ruby-on-rails tagging


【解决方案1】:

我认为 Rails + jQuery +acts_as_taggable_on + jQuery Tokenizing Autocomplete,就像你提到的那样是一个不错的选择!

【讨论】:

    【解决方案2】:

    Amazon Mechanical Turk https://www.mturk.com/mturk/welcome 专为您描述的用例而设计。它允许您上传数据、创建表单,然后将您的分类分包给人们,然后生成一个返回文件。

    【讨论】:

    • 谢谢!在这种情况下,我们需要在内部进行初始分类,这样我们才能发现正确的桶。 MTurk 对于可以快速向其他人解释的简单任务很有用,但稍后会出现。此外,MTurk 需要花钱并且存在严重的质量控制问题,所以它并不像人们想象的那么容易:behind-the-enemy-lines.blogspot.com/2010/12/…
    【解决方案3】:

    为什么不简单地使用 Excel(或任何其他电子表格程序)?

    只需将消息(要标记)放在第一列中,然后创建小宏以允许用户(您/同事/...)单击相邻的单元格以选择其中一个存储桶。如果要将消息放入多个桶中,让用户单击下一个相邻单元格以选择另一个桶。 (如果需要,您可以通过限制可以编辑的单元格数量来修复所选存储桶的最大数量。

    然后,您将以一种非常容易上传到数据库进行进一步处理的格式标记所有消息。

    这里没有什么高科技,这对可能不懂计算机的同事来说是件好事。每个人都知道如何将数据输入电子表格!

    【讨论】:

    • 合理的概念!就我而言,并不是每个人都运行微软喜欢的操作系统,而且我对 OpenOffice 宏一无所知。不过,谢谢你的建议。
    • 如果您喜欢电子表格的想法,为什么不直接使用 Google 文档中的电子表格呢?如果您的存储桶名称简单(单个字母/数字)并且数量很少,则也不需要宏。
    【解决方案4】:

    如果您想使用高科技(与我之前的低科技 Excel 答案相比),您可以使用 Weka Tools,其中“...包含用于数据预处理、分类、回归、聚类、关联规则的工具和可视化。它也非常适合开发新的机器学习方案。”

    【讨论】:

    • 你确定这有用于手动分类训练集的东西吗?我以前用过 Weka,只记得机器学习工具。我认为这里的“分类”是我稍后会做的那种自动分类,而不是必须先做的手动分类。
    • 对不起,你可能是对的。我已经有一段时间没有使用它了,但请记住,它具有将数据(文件)分组到集合中的选项,作为预处理的一部分。但是现在看最近的文档,可能不是你需要的。
    【解决方案5】:

    就我而言,我最终使用 Ruby 的 HighLine 模块为命令行界面构建了一些东西。它不像基于 Web 的界面那么花哨,但构建起来很简单,并且由于其单字符模式,使用起来非常快。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-10-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-10-09
      • 2014-04-27
      相关资源
      最近更新 更多