如何抓取、处理和索引社交媒体资料？答案

【问题标题】：How to crawl, process and index social media profiles?如何抓取、处理和索引社交媒体资料？
【发布时间】：2013-05-17 08:31:57
【问题描述】：

对于一家新的科技初创企业，我们希望建立一个所谓的“社交爬虫”。通过这款软件，我们希望让客户能够搜索潜在员工。结果（例如，当搜索“iOS 开发者”时）应该是基于个人简介和其他相关公共信息的来自抓取来源（例如：twitter、linkedin 等）的聚合社交资料。

我认为这个过程应该如何运作：

设置应该是一个持续的聚合器，允许数据库自动增长。开发这些设置超出了我目前的知识范围。我想知道从哪里开始或与谁交谈，甚至谁可以为我们开发。

我确实偶然发现了Crawl Anywhere。这对我们有用吗？我很好奇你的想法是什么！

干杯！

【问题讨论】：

【解决方案1】：

可以以Nutch with Solr开头，这将帮助您抓取和索引数据。
然后可以使用数据，这些数据可用于搜索以及进一步处理。

【讨论】：

【解决方案2】：

另外，要抓取 Twitter 数据，你应该使用 Twitter API。据我所知，当前版本的 Nutch 不支持抓取 Twitter 数据。

干杯！

【讨论】：