【问题标题】:Facebook Permission request form for Crawling?用于抓取的 Facebook 许可申请表?
【发布时间】:2011-04-28 22:52:05
【问题描述】:

我已经在谷歌上搜索了一段时间,但我想我使用了错误的关键字集。有谁知道这个 URI 可以让我向 Facebook 请求允许我爬取他们的网络?上次我用 Python 做这个的时候,有人建议我看一下,但我也找不到那个帖子。

【问题讨论】:

    标签: python facebook web-crawler mechanize


    【解决方案1】:

    令人惊讶的是,这在他们的 robots.txt 中给出。

    您要查找的链接是这个:

    http://www.facebook.com/apps/site_scraping_tos.php

    如果您还不是一个庞大的组织,请不要期望被明确列入白名单。根据 robots.txt 和 TOS,如果您没有被明确列入白名单,则根本不允许您抓取。您必须改用 API。

    甚至不要考虑假装成为列入白名单的爬虫之一。 Facebook 按每个爬虫的白名单 IP 过滤,其他任何看起来像爬虫的东西都会立即被永久禁止。有一段时间,只是点击太快的用户偶尔会遇到这种情况。

    【讨论】:

      【解决方案2】:

      由于这是一个有登录名和密码的社区,我不确定其中有多少是合法可抓取的。如果您甚至看到 Google 仅索引用户个人资料页面。但不是他们的墙贴或照片等。

      我建议您在 Facebook 论坛中发布此问题。但是你可以在这里查看 -

      1. Facebook Developers
      2. Facebook Developers Documentation
      3. Facebook Developers Forum

      【讨论】:

        猜你喜欢
        • 2011-04-02
        • 2014-05-05
        • 2011-06-18
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多