哪种机器学习算法更适合这种情况答案

【问题标题】：what machine learning algorithm could be better for this scenario哪种机器学习算法更适合这种情况
【发布时间】：2018-09-22 23:52:51
【问题描述】：

我有一个由大约 1500 万个观察值组成的数据集，其中大约 3% 来自兴趣类。我可以在 pc 中训练模型，但我需要在树莓派 pi3 中实现分类器。由于覆盆子的内存如此有限，什么算法代表它的负载最小？

附加信息：数据集很难区分。例如，无论是架构还是激活函数，ANN 都无法超过兴趣类别 80% 的检测率。随机森林已经展示了出色的性能，但所需的树和节点的数量对于在微控制器上实现是不可行的。

提前谢谢你。

【问题讨论】：

【解决方案1】：

您可能会在随机森林方法中修剪树，以便平衡分类器性能与内存/处理能力要求。

另外，我怀疑您的训练/测试集非常不平衡，所以我想知道您是否使用了在这种情况下建议的任何方法（例如 SMOTE、ADASYN 等）。如果是 python，我强烈建议查看 imbalanced-learn 库。使用这种方法可以减少分类器的大小，并具有可接受的良好性能，您将能够适合在目标设备上运行。

最后但同样重要的是，这个问题可以很容易地转到Cross Validated 或Data Science 网站。

【讨论】：