NLP 处理应该在什么时候进行？答案

【问题标题】：At what point should NLP processing occur?NLP 处理应该在什么时候进行？
【发布时间】：2012-04-04 15:46:34
【问题描述】：

在一个完美的世界中，我可以随时获得大量数据，而无需花费任何时间来请求和接收这些数据。但在实际应用程序（如 google 或 facebook）的上下文中，您有大量数据存储在需要时间查询的数据库中，然后您尝试处理这些数据以得出有意义的结论/关系。

在 sql 中对大量数据进行计数和排序的上下文中，您会将数据存储在汇总表中以避免处理......并且只需使用 cron 更新这些表。但是统计分析和nlp好像不一样。

问题是，实际的统计/nlp/etc 分析应该在数据生命周期的哪个阶段进行？

【问题讨论】：

【解决方案1】：

您通常执行此操作的方式是收集数据，将其放入某种数据库（SQL 或 NoSQL），然后如果数据量很大，则将其转储到 hadoop 网格中进行处理；否则做你通常做的任何事情。然后你有工作分析这些数据并将结果反馈给你。

获取数据 -> 存储 -> 转储 -> 分析 -> 使用离线分析结果

在实际数据库上处理数据并不能很好地工作。

【讨论】：

当然，但大概分析很小，可能是统计模型或权重向量，您可以将其应用于新数据。
让我们假设我们正在谈论一项大型分析——问题的关键在于何时进行大型分析。以及如何在不运行的情况下做到这一点。想想谷歌的搜索“索引”
你没有在索引时这样做，这是肯定的。假设您是一个大型搜索引擎——您认为在索引时间内您有多少毫秒用于 NLP？您通常每天或每周一次将其作为 hadoop 作业执行，然后使用该信息通知用户查询到您的索引。

【解决方案2】：

当你说 NLP 时，这取决于你的想法。当几十条推文/状态更新存储在某个地方时，您就可以开始阅读和分析它们了。在进行 NLP 时重复查询您唯一的生产服务器可能不是一个好主意——您可能希望转储所有数据并从那里工作。

【讨论】：