【发布时间】:2013-01-06 20:07:20
【问题描述】:
我在我的应用程序中运行一个爬虫后端,每天挖掘一些网站以获取数据。
对于我抓取的每个网站,我都会创建一个实体,存储一个字符串 ID 的大列表。
- 每个实体的近似值约为 2.000。
- 每天大约有 1000 个 个实体。
我现在的做法是使用重复的 ndb.StringProperty() 未编入索引。
运行 3 天后,它消耗了我 70% 的数据存储空间。
接下来要做的事情是什么?将它们存储为压缩的 json?
将它们存储在 blobstore 中并每次读取 blob 等?
还有什么?替代?
【问题讨论】:
-
IIRC 您可以在某些属性上设置压缩 = True。
-
@PaulC 是的,我目前正在尝试使用 Json,因为我对列表进行操作。
标签: google-app-engine google-cloud-datastore blobstore app-engine-ndb