【发布时间】:2012-02-13 06:23:48
【问题描述】:
我编写了一个爬取网站、处理 html 页面并将结果存储在 MySql 数据库中的程序。 “结果”是指 html 内容、所有链接及其属性和各种错误,以防爬虫无法获取。我将此程序用于分析目的。
一切正常,但主要问题是数据占用了太多磁盘空间。对于每 100000 个抓取的网站(每个网站最多 20 个页面),我有 5 个 mysql 表,总空间约为 60 GB,我需要处理 20-30 倍的网站。
当然,我不能一次在我的家用电脑上处理那么多数据,我不得不只处理其中的一小部分,这既费时又效率低。
所以我正在寻求以下建议或解决方案:
1) 提供与关系数据库相同的访问数据的灵活性
2) 允许智能高效地保存数据
【问题讨论】:
标签: database database-design relational-database