【问题标题】:At what point should NLP processing occur?NLP 处理应该在什么时候进行?
【发布时间】:2012-04-04 15:46:34
【问题描述】:

在一个完美的世界中,我可以随时获得大量数据,而无需花费任何时间来请求和接收这些数据。但在实际应用程序(如 google 或 facebook)的上下文中,您有大量数据存储在需要时间查询的数据库中,然后您尝试处理这些数据以得出有意义的结论/关系。

在 sql 中对大量数据进行计数和排序的上下文中,您会将数据存储在汇总表中以避免处理......并且只需使用 cron 更新这些表。但是统计分析和nlp好像不一样。

问题是,实际的统计/nlp/etc 分析应该在数据生命周期的哪个阶段进行?

【问题讨论】:

    标签: database statistics nlp artificial-intelligence


    【解决方案1】:

    您通常执行此操作的方式是收集数据,将其放入某种数据库(SQL 或 NoSQL),然后如果数据量很大,则将其转储到 hadoop 网格中进行处理;否则做你通常做的任何事情。然后你有工作分析这些数据并将结果反馈给你。

    获取数据 -> 存储 -> 转储 -> 分析 -> 使用离线分析结果

    在实际数据库上处理数据并不能很好地工作。

    【讨论】:

    • 当然,但大概分析很小,可能是统计模型或权重向量,您可以将其应用于新数据。
    • 让我们假设我们正在谈论一项大型分析——问题的关键在于何时进行大型分析。以及如何在不运行的情况下做到这一点。想想谷歌的搜索“索引”
    • 你没有在索引时这样做,这是肯定的。假设您是一个大型搜索引擎——您认为在索引时间内您有多少毫秒用于 NLP?您通常每天或每周一次将其作为 hadoop 作业执行,然后使用该信息通知用户查询到您的索引。
    【解决方案2】:

    当你说 NLP 时,这取决于你的想法。当几十条推文/状态更新存储在某个地方时,您就可以开始阅读和分析它们了。在进行 NLP 时重复查询您唯一的生产服务器可能不是一个好主意——您可能希望转储所有数据并从那里工作。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2011-06-23
      • 1970-01-01
      • 2010-09-28
      • 2013-08-18
      • 1970-01-01
      • 2010-09-19
      • 2021-04-04
      相关资源
      最近更新 更多