【发布时间】:2018-07-30 04:41:28
【问题描述】:
hadoop 或 python 哪种技术可以有效地分析数据?哪种技术是上述两者之间的速度?
【问题讨论】:
标签: anaconda data-science data-analysis
hadoop 或 python 哪种技术可以有效地分析数据?哪种技术是上述两者之间的速度?
【问题讨论】:
标签: anaconda data-science data-analysis
所以 Hadoop 主要使用 spark。如果您用于分析或处理数据的底层框架包含 Spark,那么您最好使用 Scala、PySpark 或 R。单独使用 python 不会给您带来 Spark 的好处,这会使数据分析更快以及各种转换关于大数据。所以无论你用什么,都是关于使用火花的。
Scala 或 PySpark:两者都包含几乎所有这些功能。
【讨论】:
在分析数据并将速度作为标准时,有两个关键因素决定了速度:您拥有的数据量以及数据所在的位置。
如果您有Big Data,请考虑使用 Hadoop 或 Spark 对其进行分析。这将使它更快,并且您将不依赖于加载时间。如果您有几 GB 的数据,最好使用 python,但它仍然可能会减慢您的机器速度。
现在要解决数据的位置,如果您有自己的数据,那么 python 是最好的方法。如果您的数据位于云服务器中,那么Azure、GCP 甚至AWS 都可以使用大数据工具来简化数据探索。这三个云系统都有可供使用的大数据工具。
所以在速度方面,它真的取决于两个约束。如果您拥有大数据并且您的数据位于云系统中。考虑使用 Hadoop 分析您的数据。如果您只有几 GB 的数据并且在本地,请使用 python 来分析您的数据。
【讨论】: