在不丢失 ML 模型信息的情况下减少元组列表答案

【问题标题】：Reduce a list of tuples without losing information for ML model在不丢失 ML 模型信息的情况下减少元组列表
【发布时间】：2021-02-19 17:50:48
【问题描述】：

我有一个流式流，它部分由一个可以有 1 个或多个元素的 tuple4 列表组成，让我们举一些例子：

1)"st_li_list":[{"f0":3,"f1":4,"f2":1,"f3":12,"arity":4},{"f0":1," f1":3,"f2":1,"f3":3,"arity":4},{"f0":15,"f1":12,"f2":1,"f3":180," arity":4}]}' 2)"st_li_list":[{"f0":1,"f1":24,"f2":8,"f3":24,"arity":4},{"f0":50,"f1": 11,"f2":1,"f3":550,"arity":4},{"f0":2,"f1":10,"f2":3,"f3":20,"arity": 4},{"f0":15,"f1":10,"f2":1,"f3":150,"arity":4}, {"f0":4,"f1":6,"f2 ":2,"f3":24,"arity":4},{"f0":1,"f1":3,"f2":1,"f3":3,"arity":4}]} ' 3)"st_li_list":[{"f0":15,"f1":12,"f2":1,"f3":180,"arity":4}]}'

如您所见，list1_ 有 3 个元素，list2_ 有 6 个，而 list_3 只有一个。我想做一些标准化或编码，让我创建一个类似于“摘要”的向量，但始终保持相同的大小来提供 ML 模型而不会丢失任何信息。 list_1 具有 3 个元素的事实对于可能具有“3”的“摘要向量”在列表中具有第一个元素，然后是......？（任何长度都可以，所以即使是 100 个元素也可以）

我不想为每个参数设置一个特定的范围，因为它会强制设置一个可能错误的范围。

非常感谢任何关于如何在 Python 中实现这一点的超级聪明的解决方案！也许有一些算法可以做到这一点？

【问题讨论】：

标签： python machine-learning math logic artificial-intelligence

【解决方案1】：

要么将整个序列输入 NN，要么需要将每个序列总结为固定长度的特征向量。执行此操作的方法取决于信息所代表的内容，通常您可以使用：

值的数量
最小值/最大值，
平均值/中位数，
标准开发。
分位数

但是，例如，如果序列代表一种进化，那么计算平均/整体增加/减少率可能是有意义的。如果它们代表对象之间的某种坐标，那么计算平均/总距离可能是有意义的。等等。

【讨论】：

流中的每条消息都有 30 个变量 + 我想总结的向量。不是进化，但有一些尖峰和异常值使向量很长。我真的很想一直考虑一个固定长度的向量，但是最小值/最大值、平均值/中值、标准偏差都不是很好，我尝试了几个选项，但也许我应该遵循分位数作为获得的最佳方法这个排序，我会尝试思考一些事情！感谢您的帮助！