pytables

PyTables,在不打开 hdf5 文件的情况下创建表

是否可以在不打开或创建 hdf5 文件的情况下创建 PyTables 表? 我的意思是,我需要的是在不同的进程中创建一个表(实际上非​​常多的表),使用这些表并在经过一些计算后才将表存储到一个 hdf5 文件中(并确保只有一个进程一次执行存储)。 原则上,我可以对普通 Python 数据(数组字符串等)进行所有计算并最终执行存储。但是,为什么我会很高兴从一开始就使用 PyTables 是完整性... »

PyTable 表拆分

我有一个如下格式的 PyTable 表: /neg/data.cols (Cols), 5 columns data (Column(8909, 256, 256), ('<f4', (256, 256))) filename (Column(8909,), |S100) id (Column(8909,), uint32) label (Column(8909,), uin... »

读取 .h5 文件非常慢

我的数据以 .h5 格式存储。我使用数据生成器来拟合模型,它非常慢。下面提供了我的代码的 sn-p。 def open_data_file(filename, readwrite="r"): return tables.open_file(filename, readwrite) data_file_opened = open_data_file(os.path.abspath("../... »

追加大型 Pytables HDF5 文件的最快方法

我使用多处理来生成大量非常大的 Pytables (H5) 文件——如果在单次扫描中读取,大到足以产生内存问题。这些文件中的每一个都是使用tb.create_table 创建的,以允许 3 列具有混合数据类型——前两列是整数,第三列是浮点数(例如 here)。每个文件的总行数可以不同。 我想将这些 H5 文件合并为一个 H5 文件;所有单独的 H5 都有 datset_1 需要附加到新 H5 文件... »

Python 3.9.1 的表包?

这是我在这里的第一个问题。非常感谢您的支持。 我在 64 位 Windows 10 机器上使用 Python 3.9.1,我一直在尝试通过 pip install tables 安装 tables 包,但我总是收到以下错误: pip install tables Collecting tables Using cached tables-3.6.1.tar.gz (4.6 MB) ER... »

如何获得比 numpy.dot 更快的代码用于矩阵乘法?

这里Matrix multiplication using hdf5 我使用 hdf5 (pytables) 进行大矩阵乘法,但我很惊讶,因为使用 hdf5 它比使用普通 numpy.dot 并在 RAM 中存储矩阵更快,这是什么原因?< /p> 也许python中有一些更快的矩阵乘法函数,因为我仍然使用numpy.dot进行小块矩阵乘法。 这里有一些代码: 假设矩阵可以放入 RAM:在矩阵... »

在 numpy 中处理非常大的矩阵

我有一个转换矩阵,我想为其计算一个稳态向量。我使用的代码改编自this question,它适用于正常大小的矩阵: def steady_state(matrix): dim = matrix.shape[0] q = (matrix - np.eye(dim)) ones = np.ones(dim) q = np.c_[q, ones] qtq = n... »

使用 h5py 保存混合结构化数据

我有一个包含 100,000 个条目的数据集,每个表单: { attr1 float[300] attr2 float[300] attr3 float[300] attr4 float attr5 float attr6 float } 将其存储在.hdf5 文件中的最有效方法是什么? ... »

缺少可选依赖项“表”。在熊猫 to_hdf

以下代码给了我错误。 import pandas as pd df = pd.DataFrame({'a' : [1,2,3]}) df.to_hdf('temp.h5', key='df', mode='w') 这给了我错误。 缺少可选依赖项“表”。使用 pip 或 conda 安装表。 我已经试过了 ImportError HDFStore requires PyTabl... »

如何合并多个 .h5 文件?

网上所有的东西都太复杂了。我的数据库很大,我将其部分导出。我现在有三个 .h5 文件,我想将它们组合成一个 .h5 文件以供进一步工作。我该怎么做? ... »

pytables 的 DLL 加载失败

运行包含 pytables 的代码时出现以下错误: Traceback (most recent call last): File "C:\Users\pierr\python354\lib\site-packages\pandas\io\pytables.py", line 469, in __init__ import tables # noqa File "C:\Users\pierr\... »

Anaconda Pandas 在 Python 3.6.x 上读取 hdf 文件时中断

我正在使用带有 Python 3.6.8 的 Anaconda 环境,使用 conda create -n temp pandas pytables h5py python=3.6.8 创建。当我尝试读取.h5 文件时: f = pd.read_hdf(filename, key) 我得到一个ValueError 异常: Traceback (most recent call last):... »

表和 HDF5 python 包的问题

这个问题以前经常看到,但我找不到帮助我解决问题的答案。确实,我是 iTerm 的初学者,对 HDF5 了解不多。 这是我的代码: import os import pandas as pd def load_hdf(filename): """ Load the first key of an HDF file """ hdf = pd.HDFStore(f... »

获取 Pytables 一维数组中的值索引

我现在正在为大学编写代码,它可以处理大量数据,使用带有各种矩阵/矩阵的 Pytables,以免内存溢出,到目前为止它运行良好。 现在我需要为多个不同的字符串分配一个整数标识符(从 0 到其他),存储分配并能够将相应的整数分配给某个字符串,反之亦然。当然,普通类型是不行的,字符串太多了,所以我需要使用像 Pytables 这样的文件。 我想只使用一维 Pytables EArray(因为我不知道... »

如何更新 pytables 中的 Earray?

我的 np.array 太大而无法存储在内存中(34000、34000),因此我需要 PyTables 将其存储为 Earray。由于内存有限,我将矩阵乘法分解为分段乘法,然后将其附加到 Earray。 这里我有一个更简单的示例,其中 Earray 由 (300, 30000) 组成,其中每个元素为 9。我试图通过插入整个数组来更新它。 [[9. 9. 9. ... 9. 9. 9.] [9.... »