【发布时间】:2018-06-25 13:55:59
【问题描述】:
我正在尝试在 python 中实现 k-means 聚类算法的核心处理版本。我从这个 git 项目K-Mean Parallel...Dask...
中了解了 dask我使用相同的 git 项目,但我试图加载我的二进制文件形式的数据。二进制文件包含每个具有 1024 个浮点特征的数据点。
我的问题是,如果数据非常大,即大于可用内存本身,我该如何加载?我尝试使用 numpy 的 fromFile 函数,但我的内核不知何故死了。我的一些问题是:
问。是否可以将数据加载到从其他来源创建的 numpy 中(该文件不是由 numpy 而是由 c 脚本创建的)?
问。是否有可以直接从二进制文件加载数据的 dask 模块?我见过使用 csv 文件,但与二进制文件无关。
【问题讨论】:
标签: python