【发布时间】:2014-02-20 00:10:36
【问题描述】:
我正在尝试用 Python 制作一种机器人,扫描我选择的互联网上的一些信息。问题是 Facebook 和 Twitter 等一些网站在每次使用时都需要 API 要求的密钥。 例如,如何在没有奇怪键的情况下找到 Twitter 的研究结果来验证我在 Python 中的请求?有可能吗?
【问题讨论】:
标签: python facebook api twitter
我正在尝试用 Python 制作一种机器人,扫描我选择的互联网上的一些信息。问题是 Facebook 和 Twitter 等一些网站在每次使用时都需要 API 要求的密钥。 例如,如何在没有奇怪键的情况下找到 Twitter 的研究结果来验证我在 Python 中的请求?有可能吗?
【问题讨论】:
标签: python facebook api twitter
如果您不想为每个 API 进行身份验证,那么采取的方法是 scrape。基本上,您将下载 HTML 格式的 twitter search results 并解析该 HTML 文件。如果您查看 HTML 文件(firefox 中的control + U),您可以看到推文文本包含在此元素中:
<p class="js-tweet-text tweet-text">
您将无法收集尽可能多的数据,但将大部分匿名收集(没有密钥/身份验证)。要收集更多数据,您可以使用在网站 HTML 中找到的链接(即 下一页)抓取。
这里有一些关于 python 抓取的阅读材料:link。
除了lxml,BeautifulSoup 是一个强大且流行的用于抓取和解析 HTML 的库。
【讨论】: