【发布时间】:2012-04-17 06:50:37
【问题描述】:
在 twitter 搜索 api 中分页 + next_page 的目的是什么? - 它们不会像人们期望的那样围绕数据进行旋转。
我正在尝试使用搜索 API,并注意到以下查询随时间而变化。 此 url 是从搜索 api "next_page" 返回的。
在热门话题上点击刷新,您会注意到页面不是固定的。
当遍历一个热门主题的所有 15 个页面时,您会在每个页面的前几项上遇到重复项。
如果您正在聚合数据,分页变量 + next_page 似乎是无用的。几分钟后,第 1 页将成为热门话题的第 3 页。因此,由于新数据将页面向下推,因此您最终会在每个页面的 1-3 项上出现重复项。
避免这种情况的唯一方法是不使用此处讨论的 next_page 和/或分页参数:
https://dev.twitter.com/discussions/3809
我将现有结果集中最旧的 id 作为 max_id 传递。我愿意 不通过页面。
哪种方法更适合聚合数据?
我可以使用 next_page 但跳过在这 15 页运行中已经处理的状态。
或
仅使用 max_id 并跳过已处理的
==============
【问题讨论】:
-
使用 next_page 我被限制在 15 页。通过直接使用 max_id,我能够在 1/users/lookup.json 停止返回结果集之前导入 3093 个状态条目 + 用户配置文件。
标签: twitter