【发布时间】:2016-06-05 05:09:55
【问题描述】:
我知道一些分类算法,例如决策树,但我无法将它们中的任何一个用于我手头的问题。
我有一个数据集,其中每一行都包含有关购买的信息。它的列是:
- customer id
- store id where the purchase took place
- date and time of the event
- amount of money spent
我正在尝试做一个预测,根据谁、何地和何时的信息,预测将要花多少钱。
有哪些可能的方法来做到这一点?有什么著名的算法吗?
另外,我目前正在学习 RapidMiner,并且正在试验它的一些功能。我在那里尝试过的所有东西都不允许我有一个实数(花费的金额)作为标签。也许我做错了什么?
【问题讨论】:
-
您要做的不是分类而是回归。我建议你对回归是什么做一些进一步的研究。为了帮助您入门,请查看“线性回归”。
-
我同意 Robin 的观点,即回归是模型连续数值的正常方法。但是对于给定的问题,分类方法也是可行的。您可以尝试的不是模拟确切的支出金额,而是预测一系列价格(例如高、低、中)。为此,您可以使用 RapidMiner 中的分箱运算符,然后使用分类器运算符。
标签: machine-learning classification regression data-mining rapidminer