【发布时间】:2019-03-26 10:23:30
【问题描述】:
我现在正在为大学编写代码,它可以处理大量数据,使用带有各种矩阵/矩阵的 Pytables,以免内存溢出,到目前为止它运行良好。
现在我需要为多个不同的字符串分配一个整数标识符(从 0 到其他),存储分配并能够将相应的整数分配给某个字符串,反之亦然。当然,普通类型是不行的,字符串太多了,所以我需要使用像 Pytables 这样的文件。
我想只使用一维 Pytables EArray(因为我不知道会有多少个字符串),将字符串存储在那里,并让每个元素的索引成为字符串的分配整数标识符。
这是我想使用的一个例子:
import tables as tb, numpy as np
>>>file = tb.open_file("sample_file.hdf5", mode='w')
>>>sample_array = file.create_earray(file.root, 'data', tb.StringAtom(itemsize=50),
shape=(0,), expectedrows=10000)
>>>sample_array.append(np.array(["String_value"]))
这样我可以获得给定整数的字符串值,就像在任何普通数组中一样
>>>sample_array[0]
b'String_value'
但我一生都无法找到相反的方法,找到给定字符串的索引,我只是想出更荒谬的做事方式......
>>> sample_array[np.where("String_value") in sample_array]
b'String_value'
>>> sample_array[np.where("String_value")]
array([b'String_value'], dtype='|S50')
>>> np.where("String_value") in sample_array
False
提前谢谢你!
编辑:
忘记更新了,我是在做其他事情的时候才弄明白的……用力捂脸,非常用力,真的很愚蠢,但我几个小时都想不通出了什么问题。
np.where(sample_array[:] == b'String_value')
>>>(array([0]),)
【问题讨论】:
标签: python arrays python-3.x dictionary pytables