【问题标题】:Reduce a list of tuples without losing information for ML model在不丢失 ML 模型信息的情况下减少元组列表
【发布时间】:2021-02-19 17:50:48
【问题描述】:

我有一个流式流,它部分由一个可以有 1 个或多个元素的 tuple4 列表组成,让我们举一些例子:

1)"st_li_list":[{"f0":3,"f1":4,"f2":1,"f3":12,"arity":4},{"f0":1," f1":3,"f2":1,"f3":3,"arity":4},{"f0":15,"f1":12,"f2":1,"f3":180," arity":4}]}' 2)"st_li_list":[{"f0":1,"f1":24,"f2":8,"f3":24,"arity":4},{"f0":50,"f1": 11,"f2":1,"f3":550,"arity":4},{"f0":2,"f1":10,"f2":3,"f3":20,"arity": 4},{"f0":15,"f1":10,"f2":1,"f3":150,"arity":4}, {"f0":4,"f1":6,"f2 ":2,"f3":24,"arity":4},{"f0":1,"f1":3,"f2":1,"f3":3,"arity":4}]} ' 3)"st_li_list":[{"f0":15,"f1":12,"f2":1,"f3":180,"arity":4}]}'

如您所见,list1_ 有 3 个元素,list2_ 有 6 个,而 list_3 只有一个。我想做一些标准化或编码,让我创建一个类似于“摘要”的向量,但始终保持相同的大小来提供 ML 模型而不会丢失任何信息。 list_1 具有 3 个元素的事实对于可能具有“3”的“摘要向量”在列表中具有第一个元素,然后是......? (任何长度都可以,所以即使是 100 个元素也可以)

我不想为每个参数设置一个特定的范围,因为它会强制设置一个可能错误的范围。

非常感谢任何关于如何在 Python 中实现这一点的超级聪明的解决方案!也许有一些算法可以做到这一点?

【问题讨论】:

    标签: python machine-learning math logic artificial-intelligence


    【解决方案1】:

    要么将整个序列输入 NN,要么需要将每个序列总结为固定长度的特征向量。执行此操作的方法取决于信息所代表的内容,通常您可以使用:

    • 值的数量
    • 最小值/最大值,
    • 平均值/中位数,
    • 标准开发。
    • 分位数

    但是,例如,如果序列代表一种进化,那么计算平均/整体增加/减少率可能是有意义的。 如果它们代表对象之间的某种坐标,那么计算平均/总距离可能是有意义的。等等。

    【讨论】:

    • 流中的每条消息都有 30 个变量 + 我想总结的向量。不是进化,但有一些尖峰和异常值使向量很长。我真的很想一直考虑一个固定长度的向量,但是最小值/最大值、平均值/中值、标准偏差都不是很好,我尝试了几个选项,但也许我应该遵循分位数作为获得的最佳方法这个排序,我会尝试思考一些事情!感谢您的帮助!
    猜你喜欢
    • 1970-01-01
    • 2012-10-28
    • 1970-01-01
    • 1970-01-01
    • 2012-04-14
    • 2015-01-10
    • 1970-01-01
    • 2011-05-02
    • 2023-03-12
    相关资源
    最近更新 更多