如何实施社交媒体/网站监控服务？答案

【问题标题】：How to implement a social media/website monitoring service?如何实施社交媒体/网站监控服务？
【发布时间】：2011-01-08 15:52:39
【问题描述】：

我想实施某种服务，我的客户可以使用它来找到他们的公司一种。博客、论坛湾。脸书、推特 C。评论网站

一个。博客、论坛这只能通过爬虫来完成，对吧？一个在论坛/博客上寻找 robots.txt 的爬虫，然后选择性地阅读论坛/博客的内容（当然还有链接）。但是从哪里开始呢？我可以使用一组网站来开始爬行吗？我必须预先定义它们还是可以先使用其他搜索引擎？例如。在 Google 中搜索该公司，然后抓取 SERP？合法吗？

b.脸书、推特他们有 API，所以我认为帽子应该不是问题。

c。评论网站我查看了一些评论网站的 TOS，他们写道，不允许使用自动软件抓取他们的网站。另一方面，与我相关的网站在他们的 robots.txt 中没有被禁止。这里有什么重要的？

欢迎任何其他提示。

提前致谢:-)

【问题讨论】：

标签： java monitoring

【解决方案1】：

老实说，最简单的方法是从搜索引擎开始。他们都有用于执行自动搜索的 API，因此这可能会为您在获取客户产品或品牌的链接/提及方面的时间提供最高回报。

这不会处理身份验证背后的事情，只处理公共的事情（当然）。但它会给你一个很好的起点。从那里，您可以（如果您愿意）使用在网站上获得授权的 API 或自定义编写的机器人，但老实说，我认为在这一点上您错过了核心问题。

核心问题是“我们在哪里提到？”或者核心问题真的是……“哪些网站吸引了我们的流量？”在大多数情况下，是后者，在这种情况下，您可以忽略我之前所说的所有内容，只需使用 Google Analytics 或您客户网站上的类似软件来确定流量的来源。

编辑好的，所以如果它是我们提到的地方，我仍然会按照所述开始使用搜索引擎。 Google 的 API 非常简单，它有一个基于 SOAP 的 API，如果需要，您可以将其作为网络参考； example

Re：评论网站。如果网站的 TOS 规定您不能使用自动机器人，那么最好不要使用自动机器人。 robots.txt 没有法律约束力（这是一种好邻居），所以我不会使用缺乏排除的情况来获得许可。一些评论网站（更现代的）可能不允许对其网站进行自动抓取，但它们可能仍会发布 RSS 提要或 Atom 提要或具有您可以挂钩的其他 API，这值得一试。

【讨论】：

真正的核心问题是“我们提到了哪里？”
因此，搜索引擎的提示是正确的。有什么来源吗？
所以我对评论网站的问题必须澄清。