【发布时间】:2018-08-18 02:22:29
【问题描述】:
这可能是一个愚蠢的问题,但我是 ML 新手,似乎找不到明确的答案。
我在 Python 网络应用上实现了 ML 算法。
现在我将算法使用的数据存储在离线 CSV 文件中,每次运行算法时,它都会分析所有数据(每次使用算法时都会添加一条新数据)。
抱歉,如果我太含糊了,但我想知道通常应该如何正确实施数据和算法,以便:
数据未存储在 CSV 中(我是否像存储任何其他类型的数据一样将其简单地存储在数据库中?)
使用了某种形式的预处理,以便 ML 算法不必在每次使用时重复分析相同的数据(或者是否必须在每次使用算法?)。
【问题讨论】:
-
这个问题确实可能太笼统,无法给出答案,对您的问题的具体情况有了解(算法和预处理是什么,数据的性质和大小等)。 ) 会有所帮助。对于1)数据存储或多或少独立于算法,原则上您可以选择更方便的方式,只需考虑是否必须/可以一次将所有数据存储在内存中。对于2),这取决于预处理涉及的内容,可能只做增量计算,也可能不做。
-
回答 2.) 你可以看看 Online Machine Learning 和 Bayesian Inference。这些方法不需要存储数据,因此 1.) 已过时。
标签: python python-3.x algorithm machine-learning