【问题标题】:How to crawl, process and index social media profiles?如何抓取、处理和索引社交媒体资料?
【发布时间】:2013-05-17 08:31:57
【问题描述】:

对于一家新的科技初创企业,我们希望建立一个所谓的“社交爬虫”。通过这款软件,我们希望让客户能够搜索潜在员工。结果(例如,当搜索“iOS 开发者”时)应该是基于个人简介和其他相关公共信息的来自抓取来源(例如:twitter、linkedin 等)的聚合社交资料。

我认为这个过程应该如何运作:

  1. 抓取 Twitter、Linkedin 等网站。
  2. 处理和匹配文档数据
  3. 索引汇总配置文件
  4. 通过搜索服务器访问索引信息

设置应该是一个持续的聚合器,允许数据库自动增长。开发这些设置超出了我目前的知识范围。我想知道从哪里开始或与谁交谈,甚至谁可以为我们开发。

我确实偶然发现了Crawl Anywhere。这对我们有用吗?我很好奇你的想法是什么!

干杯!

【问题讨论】:

    标签: search solr indexing web-crawler


    【解决方案1】:

    可以以Nutch with Solr开头,这将帮助您抓取和索引数据。
    然后可以使用数据,这些数据可用于搜索以及进一步处理。

    【讨论】:

      【解决方案2】:

      另外,要抓取 Twitter 数据,你应该使用 Twitter API。据我所知,当前版本的 Nutch 不支持抓取 Twitter 数据。

      干杯!

      【讨论】:

        猜你喜欢
        • 2014-10-09
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2020-12-09
        • 2018-10-22
        • 1970-01-01
        相关资源
        最近更新 更多