如何在我的时间序列数据上使用 Theanets LSTM RNN？答案

【问题标题】：How do I use Theanets LSTM RNN's on my time series data?如何在我的时间序列数据上使用 Theanets LSTM RNN？
【发布时间】：2016-07-04 03:49:15
【问题描述】：

我有一个由一列组成的简单数据框。该列中有 10320 个观察值（数字）。我正在通过将数据插入到每个具有 200 个观察窗口的绘图中来模拟时间序列数据。这是绘图的代码。

import matplotlib.pyplot as plt
from IPython import display
fig_size = plt.rcParams["figure.figsize"]
import time
from matplotlib.backends.backend_agg import FigureCanvasAgg as FigureCanvas
fig, axes = plt.subplots(1,1, figsize=(19,5))
df = dframe.set_index(arange(0,len(dframe)))
std = dframe[0].std() * 6
window = 200
iterations = int(len(dframe)/window)
i = 0
dframe = dframe.set_index(arange(0,len(dframe)))
while i< iterations:
    frm = window*i
    if i == iterations:
        to = len(dframe)
    else:
        to = frm+window
    df = dframe[frm : to]
    if len(df) > 100:
        df = df.set_index(arange(0,len(df)))
        plt.gca().cla() 
        plt.plot(df.index, df[0])
        plt.axhline(y=std, xmin=0, xmax=len(df[0]),c='gray',linestyle='--',lw = 2, hold=None)
        plt.axhline(y=-std , xmin=0, xmax=len(df[0]),c='gray',linestyle='--', lw = 2, hold=None)
        plt.ylim(min(dframe[0])- 0.5 , max(dframe[0]) )
        plt.xlim(-50,window+50)
        display.clear_output(wait=True)
        display.display(plt.gcf()) 
        canvas = FigureCanvas(fig)
        canvas.print_figure('fig.png', dpi=72, bbox_inches='tight')
    i += 1
plt.close()

这会模拟实时数据流并将其可视化。我想要的是将 theanets RNN LSTM 应用于数据以检测无监督的异常。因为我是在无人监督的情况下进行的，所以我认为我不需要将数据分成训练集和测试集。到目前为止，我还没有找到任何对我有意义的东西，并且已经在谷歌上搜索了大约 2 个小时。只是希望大家能帮上忙。我也想将 RNN 的预测输出放在图上，并定义一个阈值，如果误差太大，这些值将被识别为异常。如果您需要更多信息，请发表评论并告诉我。谢谢！

【问题讨论】：

标签： theano lstm recurrent-neural-network

【解决方案1】：

阅读

与神经元一样，LSTM 网络是由互连的LSTM Blocks 构建的，其训练是通过BackPropogation Through Time 完成的。
使用时间序列的经典异常检测需要预测未来的时间序列输出（在一个或多个点），并在这些点上找到具有真实值的错误。 预测误差高于阈值将反映和大量

解决方案

说了这么多

你必须训练网络，所以你需要训练集和测试集两者
使用 N 个输入预测 M 个输出（通过实验确定 N 和 M - 训练误差较低的值）
滚动输入数据中 (N+M) 个元素的窗口，并使用此 (N+M) 个项目的数据数组也称为框架来训练或测试网络。
通常，我们将 90% 的起始序列用于训练，10% 用于测试。

这个方案会失败，好像训练不正确，会有非异常的错误预测错误。所以请确保提供足够的训练，最重要的是随机训练帧并考虑所有变化。

【讨论】：