【发布时间】:2011-04-28 22:52:05
【问题描述】:
我已经在谷歌上搜索了一段时间,但我想我使用了错误的关键字集。有谁知道这个 URI 可以让我向 Facebook 请求允许我爬取他们的网络?上次我用 Python 做这个的时候,有人建议我看一下,但我也找不到那个帖子。
【问题讨论】:
标签: python facebook web-crawler mechanize
我已经在谷歌上搜索了一段时间,但我想我使用了错误的关键字集。有谁知道这个 URI 可以让我向 Facebook 请求允许我爬取他们的网络?上次我用 Python 做这个的时候,有人建议我看一下,但我也找不到那个帖子。
【问题讨论】:
标签: python facebook web-crawler mechanize
令人惊讶的是,这在他们的 robots.txt 中给出。
您要查找的链接是这个:
http://www.facebook.com/apps/site_scraping_tos.php
如果您还不是一个庞大的组织,请不要期望被明确列入白名单。根据 robots.txt 和 TOS,如果您没有被明确列入白名单,则根本不允许您抓取。您必须改用 API。
甚至不要考虑假装成为列入白名单的爬虫之一。 Facebook 按每个爬虫的白名单 IP 过滤,其他任何看起来像爬虫的东西都会立即被永久禁止。有一段时间,只是点击太快的用户偶尔会遇到这种情况。
【讨论】:
由于这是一个有登录名和密码的社区,我不确定其中有多少是合法可抓取的。如果您甚至看到 Google 仅索引用户个人资料页面。但不是他们的墙贴或照片等。
我建议您在 Facebook 论坛中发布此问题。但是你可以在这里查看 -
【讨论】: