【问题标题】:Data analytics using python or hadoop?使用 python 或 hadoop 进行数据分析?
【发布时间】:2018-07-30 04:41:28
【问题描述】:

hadoop 或 python 哪种技术可以有效地分析数据?哪种技术是上述两者之间的速度?

【问题讨论】:

    标签: anaconda data-science data-analysis


    【解决方案1】:

    所以 Hadoop 主要使用 spark。如果您用于分析或处理数据的底层框架包含 Spark,那么您最好使用 Scala、PySpark 或 R。单独使用 python 不会给您带来 Spark 的好处,这会使数据分析更快以及各种转换关于大数据。所以无论你用什么,都是关于使用火花的。

    Scala 或 PySpark:两者都包含几乎所有这些功能。

    【讨论】:

      【解决方案2】:

      在分析数据并将速度作为标准时,有两个关键因素决定了速度:您拥有的数据量以及数据所在的位置。

      如果您有Big Data,请考虑使用 Hadoop 或 Spark 对其进行分析。这将使它更快,并且您将不依赖于加载时间。如果您有几 GB 的数据,最好使用 python,但它仍然可能会减慢您的机器速度。

      现在要解决数据的位置,如果您有自己的数据,那么 python 是最好的方法。如果您的数据位于云服务器中,那么AzureGCP 甚至AWS 都可以使用大数据工具来简化数据探索。这三个云系统都有可供使用的大数据工具。

      所以在速度方面,它真的取决于两个约束。如果您拥有大数据并且您的数据位于云系统中。考虑使用 Hadoop 分析您的数据。如果您只有几 GB 的数据并且在本地,请使用 python 来分析您的数据。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2016-07-04
        • 2011-05-14
        • 1970-01-01
        相关资源
        最近更新 更多