如何对预测数据进行分类答案

【问题标题】：how to do classification over forecast data如何对预测数据进行分类
【发布时间】：2017-07-08 23:55:12
【问题描述】：

我是机器学习领域的新手，我有一个这种结构的 excel 表：

Columns = {date, ..., Inflation}

第一列是日期，接下来的列是数字，最后一列是小数的通货膨胀。

date ... Inflation
01/06/2016 ... -0.07363739
01/07/2016 ... -0.07363741

问题是我被要求对这些预测数据应用一些分类算法，例如（朴素贝叶斯、kNN、SVM，也许还有其他），并比较这些算法的准确性。

我不明白的是如何从分类的角度处理这些数据？

我用 R 对数据做了一些时间序列，它工作了，但我仍然不能应用分类算法：

dft <- read_excel("./data.xlsx",
                          sheet = 1)
df <- ts(dft$inflation, frequency=12, start=c(2016,6))
plot.ts(df)
fit <- HoltWinters(df, beta=FALSE, gamma=FALSE)

对于如何使用这些数据进行 R 分类有什么帮助吗？任何帮助表示赞赏

数据样本：https://drive.google.com/open?id=0B1gJg-F8Gb76a1N3NVBXNFd1bjg

【问题讨论】：

你应该更具体一些，你到底想预测什么？顾名思义，分类对类起作用。如果你想预测一个连续变量，你正在做回归。请添加有关您的问题到底是什么的更多详细信息。
目标变量是“通货膨胀”，所以这是我们需要预测的，我可以分享部分数据吗？

标签： r classification

【解决方案1】：

您可以分享一些数据示例行。所以基本上你所拥有的是一个回归问题。所以要么你对它进行分类，例如将其分类到某些类别或使用回归方法，例如线性回归/惩罚回归、支持向量回归等。

在 R 中，您可以手动对变量进行分类（也有包），如下所示：

cut_off_high = 0.88
cut_off_low = 0.55

high_inflation = sample_dataframe[which(sample_dataframe$inflation > cut_off),]
medium_inflation = sample_dataframe[which(sample_dataframe$inflation > cut_off_low & sample_dataframe$inflation <= cut_off_high),]
low_inflation = sample_dataframe[which(sample_dataframe$inflation < cut_off_low),]

high_inflation$inflation = "High"
medium_inflation$inflation = "Medium"
low_inflation$inflation = "Low"

现在这只是一个示例，因此您可以理解分箱的概念，实际上您可能希望使用类似的东西，例如Categorize continuous variable with dplyr.

我希望这能回答您的问题，即如何在数据集上使用分类。但是，由于您似乎对 ML 了解不多，我建议您坚持使用一些简单的回归算法，这样您也可以避免多类分类问题。

一个简单的开始是：

linear_regression_model = lm(inflation ~ variable_name_1 + variable_name_2 + .. + variable_name_n, data = your_data_frame)

但是，如果您超越简单模型，您将不得不面对超参数、交叉验证等，在应用它们之前您应该了解这些（您还应该了解某个模型的作用，以便知道应用哪个模型）。

我想 stackoverflow 不能替代教育，我强烈建议你在搞乱模型和你根本不了解的东西之前先好好教育自己。

如果您有具体问题，请随时提出。

【讨论】：

感谢您的回答和向我详细介绍了许多事情。我编辑了问题并包含了数据。我也明白你的分箱点，使连续变量成为分类变量并继续构建模型。我希望数据也能更多地描述如何建立预测模型的过程。谢谢！