使用 python 或 hadoop 进行数据分析？答案

【问题标题】：Data analytics using python or hadoop?使用 python 或 hadoop 进行数据分析？
【发布时间】：2018-07-30 04:41:28
【问题描述】：

hadoop 或 python 哪种技术可以有效地分析数据？哪种技术是上述两者之间的速度？

【问题讨论】：

【解决方案1】：

所以 Hadoop 主要使用 spark。如果您用于分析或处理数据的底层框架包含 Spark，那么您最好使用 Scala、PySpark 或 R。单独使用 python 不会给您带来 Spark 的好处，这会使数据分析更快以及各种转换关于大数据。所以无论你用什么，都是关于使用火花的。

Scala 或 PySpark：两者都包含几乎所有这些功能。

【讨论】：

【解决方案2】：

在分析数据并将速度作为标准时，有两个关键因素决定了速度：您拥有的数据量以及数据所在的位置。

如果您有Big Data，请考虑使用 Hadoop 或 Spark 对其进行分析。这将使它更快，并且您将不依赖于加载时间。如果您有几 GB 的数据，最好使用 python，但它仍然可能会减慢您的机器速度。

现在要解决数据的位置，如果您有自己的数据，那么 python 是最好的方法。如果您的数据位于云服务器中，那么Azure、GCP 甚至AWS 都可以使用大数据工具来简化数据探索。这三个云系统都有可供使用的大数据工具。

所以在速度方面，它真的取决于两个约束。如果您拥有大数据并且您的数据位于云系统中。考虑使用 Hadoop 分析您的数据。如果您只有几 GB 的数据并且在本地，请使用 python 来分析您的数据。

【讨论】：