【发布时间】:2012-05-30 01:44:53
【问题描述】:
我有一组过去 5 年的数据。大约 7000 行数据,其特征为二进制 {yes/no} 或多分类 {product A, B, C} 总共约 20 多个特征。
我正在尝试制定一个程序(或一次分析项目)来根据此历史数据确定(预测)产品发货日期(发货延迟天数)。我有 2 列表示产品计划何时发货,另一列表示产品何时实际发货!目前。
我想知道如何制定一个预测程序,根据历史数据确定产品的新数据输入何时预计发货。我不在乎得到一个具体的日期,甚至只是一个可以告诉我要添加的延迟天数的程序......
不久前我参加了 ML 课程,但我不知道如何开始这样的课程。有什么建议吗?再加上我能想到的最接近的事情是使用 NN 的图像识别任务。但这太容易了,我必须处理日期而不是像素白色/黑色......我以前使用过 Matlab(我仍然知道如何使用它)但我刚刚下载了 Weka 数据挖掘工具。
我正在考虑一个神经网络,但我不知道如何设置它以让我的程序从输入的发货日期给我一个预期的延迟时间(天数/月)。
基本上,
我想输入(尺寸 = 5,产品 = A,....,预计发货日期 = 1 月 1 日)
根据历史趋势,程序返回天数作为延迟添加到我的预期发货日期...
对于如何以正确/最简单/最好的方式开始这样的事情有任何帮助......在此先感谢。
【问题讨论】:
-
鉴于您的数据非常离散,我建议使用决策树。你可以使用 Weka :)
-
感谢@Ansari,Anony-Mousse。我试着和 Weka 玩了一下。真正让我困惑的部分是如何处理“日期”方面。由于我的数据的每一部分都是离散的,并且我有这个日期部分,我试图预测。我该如何治疗?我是否将其视为连续变量,离散变量...这是让我感到困惑的最大事情。在处理时间因素时,你有什么我应该阅读的吗?再次感谢
-
如果您认为日期本身在确定延迟方面没有任何作用,那么我只会处理延迟(天数)而不是日期。如果您认为日期确实会影响某些事情,您可以从日期中提取星期几、月份、星期数等内容,并将它们视为变量来构建树或回归。如果你建造一棵树,它应该弄清楚它们是否重要。
-
谢谢@Ansari 我会研究决策树。日期无所谓。我已将日期转换为一年中的某一天。对于没有明确使用决策树的人,您不会碰巧有任何建议阅读(论文,教程)吗?我现在正在研究它们,并将尽我所能使用 Weka。我也不熟悉如何使用 Weka Experimenter 进行预测..
-
一年中的一天可能是一个太细的参数,无法拆分。我还建议每月或每周的某一天,只是为了看看这些变量中是否有任何信号。决策树现在相当古老且稳定,因此您可以在网上找到很多。当然,您也可以阅读传统的机器学习教科书(Mitchell、Russell/Norvig 等)。至于Weka,时间有点久了,具体记不太清了,应该比较简单。
标签: matlab machine-learning data-mining weka data-analysis