为时间序列分类选择正确的参数答案

【问题标题】：Selecting correct parameters for time series classification为时间序列分类选择正确的参数
【发布时间】：2018-05-08 12:57:26
【问题描述】：

我在研究数据源方面面临着巨大挑战。基本上我有六种类型的事件注册用于后期处理。此事件与进程中使用的一种离子以及事件在设备上发生的位置有关。图 1 显示了每种偶数类型的平均曲线。

图片 1

我的目标是对寻找这条曲线的离子类型进行分类，为了研究这条曲线，我使用从每条曲线中提取的四个参数：peak value [max value]、middle length[red line]、Rising time[green] 和 Base length [ blue]，如图所示图 2。

图片 2

我正在使用两种类型的算法来尝试对曲线进行分类，K-means 和 LDA，但此时的结果还不清楚，我没有好的聚类和分类器，我也运行了一个 @ 987654331@算法和a得到了更好的结果，但不是很满意。我相信参数不是很好的选择。我如何才能很好地指示良好的参数？如何为我的分类器选择正确的参数？在这种情况下有什么好的做法可以使用？

【问题讨论】：

您还没有真正说明为什么要使用这四个参数进行曲线拟合。它们是设备的预定义输出吗？基本上你有四个约束，所以它实际上是一个三阶多项式，对吧？但在我看来，至少对于您展示的小数据集来说，二阶多项式似乎就足够了。
@TomAnderson，我正在尝试获取一个模型来对这些事件进行分类。我的第一种方法是提取这些参数并将这些值应用于聚类算法，试图找到这些参数与事件类型之间的某种相关性。我现在的问题是，如何衡量分类过程中这些参数的质量？

标签： time-series classification k-means lda self-organizing-maps

【解决方案1】：

一种方法是设计一个比较两件事的实验。例如，您想知道参数是否良好。尝试一组不同的四个参数，例如四个固定时间间隔的幅度（例如，20ms、30ms、40ms 和 50ms 的幅度）。当您将原始参数集与新参数集进行比较时，您将得到结果表明在测试条件下一种方法优于另一种方法。也许一组为分类任务提供了比另一组更多的相关信息。

这假设您有一些已知分类的数据。最好使用与测试集分开的不同训练集。

或者，如果您的实验只是 kmeans 与 LDA，哪一个效果更好？好多少？你知道为什么吗？

最后，您将进行大量实验，每个实验都会比较两件事。它可能会帮助您描述您的发现。

【讨论】：