【发布时间】:2012-08-08 20:49:28
【问题描述】:
我目前正在研究将什么数据库用于我正在进行的项目。希望大家能给我一些提示。
该项目是一个自动网络爬虫,可根据用户的请求检查网站,在特定情况下抓取数据,并创建所做操作的日志文件。
要求:
- 只有几列少的表;预定义列没问题
- 模型之间没有过于复杂的关联
- 大量基于日期和时间的查询
- 由于日志记录,数据库将快速增长并占用大量空间
- 应该能够扩展到多台服务器
- 字段主要包含 id (int)、字符串(最多 200-500 个字符)和 unix 时间戳
- 两种不同类型的服务器将同时直接向/从其读取/写入数据:
- 一个(/以后更多)rails 应用程序,它接受用户输入并根据请求显示结果
- 一个(/稍后更多)Node.js 服务器,用作执行爬虫/爬虫。它将有足够的负载连续运行并每秒进行数十次数据库查询。
我认为它既不是图形数据库(没有复杂的关联),也不是基于内存的键/值存储(缓存中的数据太多)。对于我能找到的每一种其他类型的数据库,我仍然持观望态度,每一种似乎都有它的优点。
那么,专业人士有什么建议我应该如何决定?
谢谢。
【问题讨论】:
标签: sql database nosql screen-scraping web-crawler