【问题标题】:how to load modin dataframe from pyarrow or pandas如何从 pyarrow 或 pandas 加载 modin 数据帧
【发布时间】:2020-12-21 14:50:23
【问题描述】:

由于 Modin 不支持从 s3 上的多个 pyarrow 文件加载,所以我使用 pyarrow 来加载数据。


    import s3fs
    import modin.pandas as pd
    from pyarrow import parquet
    
    s3 = s3fs.S3FileSystem(
        key=aws_key,
        secret=aws_secret
    )

    table = parquet.ParquetDataset(
        path_or_paths="s3://bucket/path", 
        filesystem=s3,
    ).read(
        columns=["hotelId", "startDate", "endDate"]
    )

    # to get a pandas df the next step would be table.to_pandas()

如果我知道想要将数据放入 Modin df 中进行并行计算,而不必写入和读取 csv?有没有办法直接从 pyarrow.Table 或至少从 pandas 数据框构造 Modin df?

【问题讨论】:

    标签: pyarrow modin


    【解决方案1】:

    您不能直接从 pyarrow.Table 构造 Modin 数据框,因为 pandas 不支持,而 Modin 仅支持 pandas API 的子集。但是,该表有一种将其转换为 pandas 数据框的方法,您可以从中构建 Modin 数据框。在您的代码中使用table

    import modin.pandas as pd
    modin_dataframe = pd.Dataframe(table.to_pandas())
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-01-16
      • 2019-07-25
      • 2022-04-26
      • 2019-05-07
      • 2023-01-24
      • 2013-06-10
      • 2020-09-16
      • 1970-01-01
      相关资源
      最近更新 更多