【问题标题】:How to implement a social media/website monitoring service?如何实施社交媒体/网站监控服务?
【发布时间】:2011-01-08 15:52:39
【问题描述】:

我想实施某种服务,我的客户可以使用它来找到他们的公司 一种。博客、论坛 湾。脸书、推特 C。评论网站

一个。博客、论坛 这只能通过爬虫来完成,对吧?一个在论坛/博客上寻找 robots.txt 的爬虫,然后选择性地阅读论坛/博客的内容(当然还有链接)。 但是从哪里开始呢?我可以使用一组网站来开始爬行吗?我必须预先定义它们还是可以先使用其他搜索引擎?例如。在 Google 中搜索该公司,然后抓取 SERP?合法吗?

b.脸书、推特 他们有 API,所以我认为帽子应该不是问题。

c。评论网站 我查看了一些评论网站的 TOS,他们写道,不允许使用自动软件抓取他们的网站。另一方面,与我相关的网站在他们的 robots.txt 中没有被禁止。这里有什么重要的?

欢迎任何其他提示。

提前致谢:-)

【问题讨论】:

    标签: java monitoring


    【解决方案1】:

    老实说,最简单的方法是从搜索引擎开始。他们都有用于执行自动搜索的 API,因此这可能会为您在获取客户产品或品牌的链接/提及方面的时间提供最高回报。

    这不会处理身份验证背后的事情,只处理公共的事情(当然)。但它会给你一个很好的起点。从那里,您可以(如果您愿意)使用在网站上获得授权的 API 或自定义编写的机器人,但老实说,我认为在这一点上您错过了核心问题。

    核心问题是“我们在哪里提到?”或者核心问题真的是……“哪些网站吸引了我们的流量?”在大多数情况下,是后者,在这种情况下,您可以忽略我之前所说的所有内容,只需使用 Google Analytics 或您客户网站上的类似软件来确定流量的来源。

    编辑 好的,所以如果它是我们提到的地方,我仍然会按照所述开始使用搜索引擎。 Google 的 API 非常简单,它有一个基于 SOAP 的 API,如果需要,您可以将其作为网络参考; example

    Re:评论网站。如果网站的 TOS 规定您不能使用自动机器人,那么最好不要使用自动机器人。 robots.txt 没有法律约束力(这是一种好邻居),所以我不会使用缺乏排除的情况来获得许可。一些评论网站(更现代的)可能不允许对其网站进行自动抓取,但它们可能仍会发布 RSS 提要或 Atom 提要或具有您可以挂钩的其他 API,这值得一试。

    【讨论】:

    • 真正的核心问题是“我们提到了哪里?”
    • 因此,搜索引擎的提示是正确的。有什么来源吗?
    • 所以我对评论网站的问题必须澄清。
    猜你喜欢
    • 2011-11-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-06-11
    相关资源
    最近更新 更多