【发布时间】:2016-11-08 00:13:08
【问题描述】:
我需要将数据从 csv 文件或 excel 表(带有行和列)加载到二维 python 字典中。例如,如果 Excel 工作表中的数据如下所示:
name age gender location
1 Jim 18 male China
2 Ross 18 male China
3 Cara 19 female Japan
4 Ted 18 male China
那么输出的python dict应该是这样的:
data = {
1: {'name': 'Jim', 'age': 18, 'gender': 'male', 'location': 'China'},
2: {'name': 'Ross', 'age': 18, 'gender': 'male', 'location': 'China'},
3: {'name': 'Cara', 'age': 19, 'gender': 'female', 'location': 'Japan'},
4: {'name': 'Ted', 'age': 18, 'gender': 'male', 'location': 'China'}
}
您可以看到这个二维字典中有很多重复的信息(对于真实数据,它具有相同的条件),所以我想出了一个使用共享内存开发新字典的想法。具体来说,在上面的示例中,我希望我的二维字典只在多行中保存一份{'age': 18, 'gender': 'male', 'location': 'China'} 的副本(这些行不需要相邻)。如果我们调用data[1]['age'] 和data[2]['age'],它应该在同一个提取的小共享字典中进行查找。
我已经阅读了python dict的源代码,并且我知道python dict只保存指向键和值的指针(通常对于小的int和string对象,不同的指针可能指向同一个对象)。因此,当我的意思是我只想保存一份副本时,我的意思是一份指针副本。
关于如何设计这个字典的任何想法?非常感谢!!!
编辑
对不起,我忘了提。此二维字典中的数据将是只读的。
【问题讨论】:
-
这听起来是个很糟糕的主意。如果你改变吉姆的位置,罗斯和泰德也会突然改变。
-
@Kelvin 对不起,我忘了提。此字典中的数据将只是只读的:)
-
除非这些人之间存在内在的共享组件,否则听起来您想要的是compression algorithm。请注意,原则上,这会使访问字典中的项目变慢——空间与速度的权衡。
-
@Kelvin 是的,这是真的。我的意图确实是压缩数据。我现在的想法是将指向提取的共享字典的多个指针添加到第二级字典中。如果查找未能在其原始 ma_table 中找到键,它将在其相关的共享字典中查找键。虽然它会增加查找时间,但也许我会节省一堆内存。
-
如果数据是短字符串,无论如何都会被实习,因此每个dict中具有相同字符串的开销将自动降低。
标签: python dictionary python-extensions