【发布时间】:2021-03-09 02:16:07
【问题描述】:
大多数机器学习应用程序的教科书示例使用 2D design matrix 来存储训练数据。例如,iris dataset 是四个单值数字特征的集合。但是,如果其中一个特征是时间序列,即带时间戳的数字特征系列怎么办?可以将这些特征值中的每一个存储在字典中,其中键是时间戳,
time_dep_feature = {'20200103 08:20:04': 5, '20200103 16:54:10': 2, '20200215 14:31:16': 7, ···}
那么问题是设计矩阵的其余部分是二维的,而time_dep_feature 在第三维中上升。上面的字典解决方案很容易被 Python 读取,但仍然很麻烦,特别是如果想要使用可扩展解决方案的强大功能,例如 tf.data.Dataset。 (后者确实允许 N 维设计矩阵/张量,但不清楚它如何跟踪 time_dep_feature 列中的时间戳索引。)
嵌套此类结构化数据的最新技术是什么?显然,必须存在比将 Python 可读字符串存储为上面的字典示例更复杂的东西。
PS:TensorFlow 的 tf.RaggedTensor 似乎是最接近解决方案的东西,但问题是我不太清楚如何存储时间戳,因为它不摄取字典。
【问题讨论】:
标签: python tensorflow machine-learning dataset tensorflow-datasets