Java Spark Naive Bayes - 预测未来时间戳答案

【问题标题】：Java Spark Naive Bayes - predict for future timestampJava Spark Naive Bayes - 预测未来时间戳
【发布时间】：2021-09-26 18:50:09
【问题描述】：

关于使用 SparkML 和朴素贝叶斯进行预测/预测的小问题。

我有一个很简单的数据集，就是时间戳，代表一天，当天卖出了多少煎饼：

dataSetPancakes.show();

+----------+-----+
|      time|label|
+----------+-----+
|1622505600|    1|
|1622592000|    0|
|1622678400|    3|
|1622764800|    1|
|1622851200|    1|
|1622937600|    1|
|1623024000|    1|
|1623110400|    2|
|1623196800|    2|
|1623283200|    0|
+----------+-----+
only showing top 10 rows"

很简单，我就是想预测一下明天，后天等会卖多少煎饼……

因此，我尝试了朴素贝叶斯模型，按照这里的教程https://spark.apache.org/docs/latest/ml-classification-regression.html#naive-bayes，我写道：

       VectorAssembler vectorAssembler = new VectorAssembler().setInputCols(new String[]{"time"}).setOutputCol("features");
        Dataset<Row> vectorData = vectorAssembler.transform(dataSetPancakes);
 NaiveBayes naiveBayes = new NaiveBayes();
        NaiveBayesModel model = naiveBayes.fit(vectorData);
        Dataset<Row> predictions = model.transform(vectorData);
        predictions.show();
    model.predict(new DenseVector(new double[]{getTomorrowTimestamp()})));

我什至会看到如下结果：

-RECORD 0--------------------------------------------------------------------------------------------------------------
 time          | 1622505600                                                                                            
 label         | 1                                                                                                     
 features      | [1.6225056E9]                                                                                         
 rawPrediction | [-0.9400072584914714,-1.0831081021321447,-1.702147310538368,-2.5494451709255714,-4.564348191467836]   
 probability   | [0.39062499999999994,0.33854166666666663,0.18229166666666666,0.07812500000000001,0.01041666666666667] 
 prediction    | 0.0                                                                                                   
-RECORD 1--------------------------------------------------------------------------------------------------------------
 time          | 1622592000                                                                                            
 label         | 0                                                                                                     
 features      | [1.622592E9]                                                                                          
 rawPrediction | [-0.9400072584914714,-1.0831081021321447,-1.702147310538368,-2.5494451709255714,-4.564348191467836]   
 probability   | [0.39062499999999994,0.33854166666666663,0.18229166666666666,0.07812500000000001,0.01041666666666667] 
 prediction    | 0.0

但至于预测本身，不幸的是，它总是显示明天的 0.0。

请问这个问题的根本原因是什么？

谢谢

【问题讨论】：

标签： java apache-spark machine-learning naivebayes

【解决方案1】：

您不应使用用于预测的相同数据集进行训练。否则，你不会做任何预测。

Dataset<Row>[] splits = vectorData.randomSplit(new double[]{0.6, 0.4}, 1234L);
Dataset<Row> train = splits[0];
Dataset<Row> test = splits[1];

此外，算法绝对有可能得知任何一天的可能结果为 0。您应该知道，日期与销售计数之间没有真正的关系。日期不会重复出现，因此无法做出真正的预测。贝叶斯算法也没有掌握这些条目实际上是一系列事件。它只是计算“特征”值例如“1622505600”时“标签”的可能值有多高。

我建议将星期几之类的功能作为功能，因为这些功能会重复出现，并且查看工作日的销售额特别高会更有意义。

或者，您可以为其提供第二个功能，例如昨天的销售。这将允许算法在前一天实际进行预测。

【讨论】：