【问题标题】:Get index of value in Pytables unidimensional Array获取 Pytables 一维数组中的值索引
【发布时间】:2019-03-26 10:23:30
【问题描述】:

我现在正在为大学编写代码,它可以处理大量数据,使用带有各种矩阵/矩阵的 Pytables,以免内存溢出,到目前为止它运行良好。

现在我需要为多个不同的字符串分配一个整数标识符(从 0 到其他),存储分配并能够将相应的整数分配给某个字符串,反之亦然。当然,普通类型是不行的,字符串太多了,所以我需要使用像 Pytables 这样的文件。

我想只使用一维 Pytables EArray(因为我不知道会有多少个字符串),将字符串存储在那里,并让每个元素的索引成为字符串的分配整数标识符。

这是我想使用的一个例子:

import tables as tb, numpy as np

>>>file = tb.open_file("sample_file.hdf5", mode='w')
>>>sample_array = file.create_earray(file.root, 'data', tb.StringAtom(itemsize=50),
 shape=(0,), expectedrows=10000)
>>>sample_array.append(np.array(["String_value"]))

这样我可以获得给定整数的字符串值,就像在任何普通数组中一样

>>>sample_array[0]
b'String_value'

但我一生都无法找到相反的方法,找到给定字符串的索引,我只是想出更荒谬的做事方式......

>>> sample_array[np.where("String_value") in sample_array]
b'String_value'
>>> sample_array[np.where("String_value")]
array([b'String_value'], dtype='|S50')
>>> np.where("String_value") in sample_array
False

提前谢谢你!

编辑:

忘记更新了,我是在做其他事情的时候才弄明白的……用力捂脸,非常用力,真的很愚蠢,但我几个小时都想不通出了什么问题。

np.where(sample_array[:] == b'String_value')
>>>(array([0]),)

【问题讨论】:

    标签: python arrays python-3.x dictionary pytables


    【解决方案1】:

    OP 在上面回答了他的问题。但是,它隐藏在 EDIT: 下,因此在搜索结果中并不明显(或对于普通读者而言)。此外,还有另一种解决问题的方法(使用 Table 而不是 Earray)。这提供了两种方法的比较。

    OP 的 Earray 解决方案(有一些点缀):

    import tables as tb, numpy as np
    h5f = tb.open_file("sample_file.hdf5", mode='w')
    sample_array = h5f.create_earray(h5f.root, 'data', tb.StringAtom(itemsize=50),
                   shape=(0,), expectedrows=10000)
    sample_array.append(np.array(['str_val0']))
    sample_array.append(np.array(['str_val10']))
    sample_array.append(np.array(['str_val20']))
    sample_array.append(np.array(['str_val30']))
    sample_array.append(np.array(['str_val40']))
    print (sample_array[0])
    print (sample_array[-1])
    print (np.where(sample_array[:] == b'str_val0'))
    print (np.where(sample_array[:] == b'str_val40'))
    print ('\n')
    
    h5f.close()
    

    输出如下所示:

    b'str_val0'
    b'str_val40'
    (array([0], dtype=int64),)
    (array([4], dtype=int64),)
    

    我使用表格的方法:
    我喜欢 Pytables 中的表格。它们很方便,因为它们有多种内置的搜索和迭代方法(在这种情况下使用 .get_where_list();还有很多其他方法)。此示例显示从 np.recarray 创建表(使用 dtype 定义字段/列,并使用数据填充表)。稍后使用 .append() 方法添加其他数据行。

    import tables as tb, numpy as np
    h5f = tb.open_file("sample_file.hdf5", mode='w')
    
    simple_recarray = np.recarray((4,),dtype=[('tstr','S50')])
    simple_recarray['tstr'][0] = 'str_val1'
    simple_recarray['tstr'][1] = 'str_val2'
    simple_recarray['tstr'][2] = 'str_val10'
    simple_recarray['tstr'][3] = 'str_val20'
    
    simple_table = h5f.create_table(h5f.root, 'table_data', simple_recarray, 'Simple dataset')
    
    print (simple_table.get_where_list("tstr == b'str_val1'"))
    print (simple_table.get_where_list("tstr == b'str_val20'"))
    
    simple_table.append([('str_val30',), ('str_val31',)])
    
    print (simple_table.get_where_list("tstr == b'str_val31'"))
    
    h5f.close()
    

    输出如下所示(略有不同的 b/c 字符串未存储在数组中):

    [0]
    [3]
    [5]
    

    【讨论】:

      最近更新 更多