【发布时间】:2015-04-04 03:34:15
【问题描述】:
我收到了一个新项目,看起来对我自己来说很有趣。 我需要存储来自工业 PLC(控制工厂内的机器)的所有数据,并且 plc 中的每个事件都会生成一个输出,需要保存以供数据分析后使用。 我想知道什么是这种类型的数据(时间序列)的完美匹配,以创建一个孔架构来管理数据 IO,目前只查询它的图形(稍后将应用机器学习分析进行预测性维护)。
我不知道我的工作方向是否正确,如果能从该领域的专家那里获得一些知识会很好。
- IO 制作人(这是一个自己制作的项目,不能更改)
- IO 事件层 --> apache kafka 是否是管理来自许多不同计算机(收集到 plc)的大量信号以及管理保存到 nosql 数据库的数据的选项。 (它适合那个?任何更好的选择)
- nosql数据库-->选择Cassandra进行时序存储这一点比较清楚。
- 查询 nosql 数据--> 我们选择 spark 进行快速查询,然后进行一些数据分析。
我比较怀疑的层是在存储之前管理io数据的层,我严重怀疑kafka是否是正确的选择。
感谢您的阅读,抱歉我的英语不好;)请随时发表您的观点。
【问题讨论】:
-
嗨! Stack Overflow 不是进行此类设计讨论的好地方。更集中、非主观的技术问题更有可能在这里得到好的答案。对于这样的设计问题,我建议使用上述项目的用户邮件列表。特别是 users@kafka.apache.org。
-
感谢您的回复,如果您直接向确定的项目论坛提问,那么问题多次将是“这是您必须这样做的最佳选择”,因为我更愿意在更不可知论的论坛。不过谢谢你回复我
-
是的,我能理解。另一个想法是,如果你在这里没有得到很好的回应,你可以试试softwarerecs.stackexchange.com。
标签: cassandra apache-spark bigdata apache-kafka