【发布时间】:2016-02-09 18:34:20
【问题描述】:
我的情况如下。
每天我都会从不同的在线商店和内容提供商(例如 CNET 数据源)获得 256 GB 的产品信息。 这些信息可以是 CSV、XML 和 TXT 文件。文件将被解析并存储到 MongoDB 中。 稍后的信息将被转换为可搜索并索引到 Elasticsearch 中。
所有 256 GB 的信息每天都没有不同。大部分 70% 的信息将是相同的,并且价格、尺寸、名称等很少的字段会经常更改。 我正在使用 PHP 处理文件。
我的问题是
- 解析海量数据
- 映射数据库中的字段(例如标题不是所有在线商店的标题。它们会将字段名称作为短标题或其他名称)
- 每天都在增加 GB 的信息。如何存储所有和处理。 (可能是 Bigdata 但不知道如何使用)
- 利用海量数据快速搜索信息。
请为我推荐合适的数据库来解决这个问题。
【问题讨论】:
标签: php mongodb elasticsearch bigdata database