【发布时间】:2020-02-26 16:42:29
【问题描述】:
我想为客户行为构建 LSTM 自动编码器模型并检测异常情况。活动数据集如下所示:
customer_id features
C1 [[1,2,1,0,1],[2,2,1,1,0],[1,2,3,1,1],[0,3,2,1,1]]
C2 [[2,1,1,4,1],[3,2,1,1,4],[2,2,3,1,2]]
..............................................
Cn [[2,3,1,4,1],[2,1,1,1,0],[4,2,2,1,2],[3,3,2,1,1], [2,3,2,1,2], [1,3,2,2,1]]
这里,所有样本的特征数量都是相同的,即 5。但是,没有。不同客户的样品数量不同。有 N 个客户。
在这种情况下,如何分离训练和测试数据以及如何重塑 LSTM 模型的输入数据?
截至目前,
- 我正在考虑例如每个客户数据中 80% 的样本作为训练,其余样本作为测试。
- 尝试将输入重塑为:(no_of_customers, timesteps, no_of_features) = (n, #no_of_samples, 5) .不支持此数组,因为我们不能拥有具有不同时间步长的 numpy 数组。
【问题讨论】:
-
我写了一个答案,看看能不能解决你的问题。
标签: keras deep-learning lstm recurrent-neural-network autoencoder