用于抓取的 Facebook 许可申请表？答案

【问题标题】：Facebook Permission request form for Crawling?用于抓取的 Facebook 许可申请表？
【发布时间】：2011-04-28 22:52:05
【问题描述】：

我已经在谷歌上搜索了一段时间，但我想我使用了错误的关键字集。有谁知道这个 URI 可以让我向 Facebook 请求允许我爬取他们的网络？上次我用 Python 做这个的时候，有人建议我看一下，但我也找不到那个帖子。

【问题讨论】：

【解决方案1】：

令人惊讶的是，这在他们的 robots.txt 中给出。

您要查找的链接是这个：

如果您还不是一个庞大的组织，请不要期望被明确列入白名单。根据 robots.txt 和 TOS，如果您没有被明确列入白名单，则根本不允许您抓取。您必须改用 API。

甚至不要考虑假装成为列入白名单的爬虫之一。 Facebook 按每个爬虫的白名单 IP 过滤，其他任何看起来像爬虫的东西都会立即被永久禁止。有一段时间，只是点击太快的用户偶尔会遇到这种情况。

【讨论】：

【解决方案2】：

由于这是一个有登录名和密码的社区，我不确定其中有多少是合法可抓取的。如果您甚至看到 Google 仅索引用户个人资料页面。但不是他们的墙贴或照片等。

我建议您在 Facebook 论坛中发布此问题。但是你可以在这里查看 -

【讨论】：