【问题标题】:Fetching big amounts of data about followers from Twitter从 Twitter 获取有关关注者的大量数据
【发布时间】:2019-09-23 05:31:37
【问题描述】:

给定 Twitter 中的页面 A 和页面 B,我想找到同时关注页面 A 和 B 的所有用户。

Twitter 确实提供了一种查找关注者的方法:GET followers/ids

但是,每个请求返回不超过 5000 个,并且您每 15 分钟最多只能发送 15 个,平均速度为每分钟 5000 个用户,这显然不适用于拥有数百万关注者的大型帐户。

有谁知道获取此类数据的更好方法,最好使用开发 API?我的意思是从技术上讲,我可以尝试模拟浏览器滚动,但它会非常缓慢、混乱,而且 Web 客户端可能使用相同的 API。

UPD:

另外,我认为我们可以缩小需要下载的数据量。例如,重叠的数据需要按年龄、性别或位置进行过滤,因此如果有办法将这些信息作为参数提供,从而获得更少的数据——这样就可以了。

此类 API 的一个示例:来自 VK 的 user.search 方法。您可以指定 group_id(相当于被关注的 Twitter 帐户)并搜索该组的关注者,通过其他参数过滤。

【问题讨论】:

    标签: api twitter


    【解决方案1】:

    我认为这并不容易实现,因为追随者的数量受到 64int 的限制,即 255,486,129,307。我认为任何 API 都无法在不流式传输或批处理的情况下返回该数量的数据。这就是为什么它是零散的并且有局限性的原因。

    我建议使用一些流应用程序(例如 Kafka、Amazon Kinesis 或 Azure Event Hub)。

    Twitter API 支持流式传输(Twitter API stream),这意味着您可以在生产者(从源获取数据的应用程序)中请求所需的信息流,然后将数据发送/流式传输到主题并从那里您可以通过批处理并显示它。

    当然,有两种情况,要么您需要将关注者存储在数据库中并更新更改,要么每次从头开始读取流,这将导致明显的延迟。

    我建议将流数据保存在数据库中并在更改时对其进行更新。 (NoSQL 将是一个完美的解决方案)

    【讨论】:

    • 它好像只能流式传输推文,还是我错了?
    【解决方案2】:

    您是对的,您可以在拥有数百万粉丝的帐户之间找到共同用户,这是一项耗时的任务
    您可以使用预取的用户来检查他们的连接,例如您可以看到用户 A 的关注者与用户 B 有连接。
    通过这个 api 调用

    https://api.twitter.com/1.1/friendships/show.json

    我在网上发现的其他好东西是http://tweepdiff.com,它提供了一些帐户之间的通用但不是全部

    【讨论】:

    • 第一个选项将显示两个帐户之间的关系,而不是他们的关注者,所以对我不起作用。此外,该网站似乎只请求很少的用户并比较他们,对于拥有数百万关注者的 2 个账户,我只有 3 个重叠用户,这没有用
    • 第一个选项允许您仅获取其中一个的关注者并使用该方法检查他们的关注用户 B,如果您与自己的方法并行执行此选项,则此选项几乎没有额外的速度导致它有非常严格的限制率
    • 对于第二个选项,是的网站不会提供糊状信息,我听说唯一能提供功能的服务是谷歌社交图谱,不幸的是它已经离开我在 GitHub gist @987654323 中使用了一些@,不知道对你有没有帮助
    【解决方案3】:

    我的猜测是这是一个有意的限制。 Twitter 对让您收集他们的所有他们的用户数据并不真正感兴趣,而这样的界面可以让您非常快速地做到这一点。提取大量的关注者数据会给他们的服务器带来沉重的负担,而你拥有所有这些数据不符合他们的商业利益,除非你付给他们很多钱。

    如果没有他们的帮助,你最好的选择可能是获取多个 API 密钥并从 VPN 后面的服务器中提取,但他们最终可能会发现你。

    如果您有一个有效的商业理由帮助他们需要这么多数据,我建议您联系他们并询问您是否可以直接导出 JSON/API 以供下载。不过,这可能是一个相当沉重的要求。

    【讨论】:

      猜你喜欢
      • 2013-07-01
      • 1970-01-01
      • 2021-05-22
      • 2017-10-09
      • 2011-10-13
      • 2012-07-20
      • 2014-01-06
      • 2013-06-28
      • 2013-02-02
      相关资源
      最近更新 更多