【发布时间】:2016-10-12 13:48:57
【问题描述】:
我一直在使用 Python 和 Python 的 Scikit-learn 机器学习 API 研究机器学习 KNN(K 最近邻)算法。
我使用 python 和 Scikit-learn 创建了带有玩具数据集的示例代码,我的 KNN 工作正常。但正如我们所知,Scikit-learn API 是为在单机上工作而构建的,因此一旦我将我的玩具数据替换为数百万个数据集,它就会降低我的输出性能。
我已经搜索了许多选项、帮助和代码示例,它们将使用 Spark 和 Scikit-learn API 并行分发我的机器学习处理,但我没有找到任何合适的解决方案和示例。
您能否告诉我如何使用 Apache Spark 和 Scikit-learn API 的 K 最近邻实现并提高我的性能?
提前致谢!!
【问题讨论】:
-
您的问题非常广泛。但是,我认为这篇文章可能会对您有所帮助Auto scaling sci-kit learn with Apache Spark
-
嗨@AlbertoBonsanto,我已经浏览了您提供的链接,但我没有找到如何使用 Spark 扩展我的 Scikit-learn KNN。我还通过 Spark 官方网站上提供的 Scikit-learn 第三方包进行了 gobe,但我不确定 API 并且没有找到适当示例的太多帮助。
标签: python scala apache-spark machine-learning scikit-learn