工业大数据架构（传感器数据）答案

【问题标题】：Big data architecture for industry (sensor data )工业大数据架构（传感器数据）
【发布时间】：2015-04-04 03:34:15
【问题描述】：

我收到了一个新项目，看起来对我自己来说很有趣。我需要存储来自工业 PLC（控制工厂内的机器）的所有数据，并且 plc 中的每个事件都会生成一个输出，需要保存以供数据分析后使用。我想知道什么是这种类型的数据（时间序列）的完美匹配，以创建一个孔架构来管理数据 IO，目前只查询它的图形（稍后将应用机器学习分析进行预测性维护）。

我不知道我的工作方向是否正确，如果能从该领域的专家那里获得一些知识会很好。

IO 制作人（这是一个自己制作的项目，不能更改）
IO 事件层 --> apache kafka 是否是管理来自许多不同计算机（收集到 plc）的大量信号以及管理保存到 nosql 数据库的数据的选项。（它适合那个？任何更好的选择）
nosql数据库-->选择Cassandra进行时序存储这一点比较清楚。
查询 nosql 数据--> 我们选择 spark 进行快速查询，然后进行一些数据分析。

我比较怀疑的层是在存储之前管理io数据的层，我严重怀疑kafka是否是正确的选择。

感谢您的阅读，抱歉我的英语不好；）请随时发表您的观点。

【问题讨论】：

嗨！ Stack Overflow 不是进行此类设计讨论的好地方。更集中、非主观的技术问题更有可能在这里得到好的答案。对于这样的设计问题，我建议使用上述项目的用户邮件列表。特别是 users@kafka.apache.org。
感谢您的回复，如果您直接向确定的项目论坛提问，那么问题多次将是“这是您必须这样做的最佳选择”，因为我更愿意在更不可知论的论坛。不过谢谢你回复我
是的，我能理解。另一个想法是，如果你在这里没有得到很好的回应，你可以试试softwarerecs.stackexchange.com。

标签： cassandra apache-spark bigdata apache-kafka

【解决方案1】：

我们有一个基于传感器数据的类似项目。我们每天有大约 30 GB 的数据。我们使用 kafka 流式传输数据并将其存储在 hdfs 中。我们有一套 python（numpy、pandas 和 pyspark）以及 spark 用于任何数据处理，基本上用于预测部分。至于你对 kafka 的怀疑……它有能力处理大型数据集。另一个好处是 kafka 可以处理多个来源并且更容易扩展。就数据存储而言，我建议您使用 HDFS，因为它可以通过多种方式来使用数据。如果将来需要，您可以利用 hive 或 hbase。

【讨论】：