【问题标题】:Does vaex data frame doesn't support data generationvaex 数据框是否不支持数据生成
【发布时间】:2021-05-05 07:50:51
【问题描述】:

我有一个带有架构的数据集,

BIKE_ID REGN_NUMBER ENGINE_NUMBER CHASSIS_NUMBER BUYED_YEAR
1 XN67TY567 34567ABGN65 145089 2011
2 XN67TM567 34567ABGT65 145085 2011
3 XN67TM569 34567VBGT65 1450867 2013
. . . . .
. . . . .
2870763 XN56RTMN 34786VHGT65 14501236 2016

现在我想生成从 28,70,764 到大约 3,28,70,764 的数据,即生成大约 3000 万行 所以在 pandas 中我们可以使用下面的方法。

val = 2870764
df3['POLICY_ID'] = range(val ,val+30000000) 

但由于它是 pandas 无法生成的大量数据,所以有什么方法可以通过在 Vaex 中解决这个问题。

但是 Vaex 给我一个错误 ValueError: range(2870764, 5870764) 不是字符串或表达式类型,而是

那么,谁能建议我在 Vaex 中是否可以这样做。

【问题讨论】:

    标签: bigdata data-generation vaex


    【解决方案1】:

    是的,vaex 有一个名为 vrange 的函数,它完全可以满足您的需求,而且不占用内存。

    例子:

    import vaex
    
    df = vaex.example()
    df
    

    这是一个包含 330,000 行的数据框(在撰写本文时使用示例数据集)。我们可以使用vaex.vrange 生成一个新列POLICY_ID

    df["POLICY_ID"] = vaex.vrange(0, len(df))
    

    vrange 文档:https://vaex.io/docs/api.html#vaex.vrange

    【讨论】:

      猜你喜欢
      • 2015-09-17
      • 2022-07-02
      • 2013-12-07
      • 1970-01-01
      • 2011-03-11
      • 2020-08-18
      • 2010-09-07
      • 2016-11-10
      相关资源
      最近更新 更多