结构化和非结构化数据与大规模数据处理引擎的集成[关闭]答案

【问题标题】：Structured and unstructured data integration with large scale data processing engine [closed]结构化和非结构化数据与大规模数据处理引擎的集成[关闭]
【发布时间】：2015-04-12 18:13:34
【问题描述】：

Spark、apache flink 等数据处理引擎如何将结构化、半结构化和非结构化数据整合在一起并影响计算？

【问题讨论】：

“太宽泛”：可能的答案太多，或者对于这种格式来说，好的答案太长了。请添加详细信息以缩小答案范围或隔离可以在几段中回答的问题。

标签： apache-spark bigdata data-processing data-integration apache-flink

【解决方案1】：

Flink 或 Spark 等通用数据处理引擎允许您定义自己的数据类型和函数。

如果您有非结构化或半结构化数据，您的数据类型可以反映这些属性，例如，通过使某些信息可选或使用灵活的数据结构（嵌套类型、列表、映射等）对其进行建模。您的用户定义函数应该知道某些信息可能并不总是存在并且知道如何处理这种情况。

因此，处理半结构化或非结构化数据并不是免费的。必须明确指定。事实上，这两个系统都将重点放在用户定义的数据和函数上，但最近添加了 API 来简化结构化数据的处理（Flink：Table API，Spark：DataFrames）。

【讨论】：

我可以分别处理结构化和非结构化数据，然后在最后加入它们（输出）！
如果这是一个问题，是的，你可以。