【问题标题】:Big data architecture for industry (sensor data )工业大数据架构(传感器数据)
【发布时间】:2015-04-04 03:34:15
【问题描述】:

我收到了一个新项目,看起来对我自己来说很有趣。 我需要存储来自工业 PLC(控制工厂内的机器)的所有数据,并且 plc 中的每个事件都会生成一个输出,需要保存以供数据分析后使用。 我想知道什么是这种类型的数据(时间序列)的完美匹配,以创建一个孔架构来管理数据 IO,目前只查询它的图形(稍后将应用机器学习分析进行预测性维护)。

我不知道我的工作方向是否正确,如果能从该领域的专家那里获得一些知识会很好。

  1. IO 制作人(这是一个自己制作的项目,不能更改)
  2. IO 事件层 --> apache kafka 是否是管理来自许多不同计算机(收集到 plc)的大量信号以及管理保存到 nosql 数据库的数据的选项。 (它适合那个?任何更好的选择)
  3. nosql数据库-->选择Cassandra进行时序存储这一点比较清楚。
  4. 查询 nosql 数据--> 我们选择 spark 进行快速查询,然后进行一些数据分析。

我比较怀疑的层是在存储之前管理io数据的层,我严重怀疑kafka是否是正确的选择。

感谢您的阅读,抱歉我的英语不好;)请随时发表您的观点。

【问题讨论】:

  • 嗨! Stack Overflow 不是进行此类设计讨论的好地方。更集中、非主观的技术问题更有可能在这里得到好的答案。对于这样的设计问题,我建议使用上述项目的用户邮件列表。特别是 users@kafka.apache.org。
  • 感谢您的回复,如果您直接向确定的项目论坛提问,那么问题多次将是“这是您必须这样做的最佳选择”,因为我更愿意在更不可知论的论坛。不过谢谢你回复我
  • 是的,我能理解。另一个想法是,如果你在这里没有得到很好的回应,你可以试试softwarerecs.stackexchange.com

标签: cassandra apache-spark bigdata apache-kafka


【解决方案1】:

我们有一个基于传感器数据的类似项目。我们每天有大约 30 GB 的数据。我们使用 kafka 流式传输数据并将其存储在 hdfs 中。我们有一套 python(numpy、pandas 和 pyspark)以及 spark 用于任何数据处理,基本上用于预测部分。 至于你对 kafka 的怀疑……它有能力处理大型数据集。另一个好处是 kafka 可以处理多个来源并且更容易扩展。 就数据存储而言,我建议您使用 HDFS,因为它可以通过多种方式来使用数据。如果将来需要,您可以利用 hive 或 hbase。

【讨论】:

    猜你喜欢
    • 2015-07-07
    • 2015-12-08
    • 2017-05-24
    • 1970-01-01
    • 2019-04-02
    • 2019-02-06
    • 1970-01-01
    • 2015-01-15
    • 1970-01-01
    相关资源
    最近更新 更多