使用 urllib 而不是 twitter api 抓取 twitter答案

【问题标题】：crawling twitter using urllib instead of twitter api使用 urllib 而不是 twitter api 抓取 twitter
【发布时间】：2013-06-21 17:55:11
【问题描述】：

我想从 twitter 抓取数据。我正在使用 twitter api，但受到速率限制的限制，运行速度非常慢。或者，我可以通过直接解析 url 来绕过 twitter api，例如。 urllib 包。但这就是我所知道的。

你们能否提供更多关于如何在不使用 twitter api 的情况下从 twitter 抓取时间线和跟踪数据的帮助？你有什么建议吗？提前致谢。

PS：我正在使用 Python 进行编程。

【问题讨论】：

如果您能告诉我们您究竟想从中得到什么，将会很有帮助 - 您在寻找什么信息？抓取本身非常简单——请求页面，解析 URL，请求每个 URL，重复。
MattDMo 感谢您的回复。我是爬虫新手，不知道你们经常用什么来爬取，尤其是在 python 中。此外，感谢 emcnaughton 介绍 BS。但我通常不知道如何在 find() 中设置参数...

标签： python twitter urllib web-crawler

【解决方案1】：

您需要在此过程中使用 BeautifulSoup。

from BeautifulSoup import BeautifulSoup as soupy
from urllib import urllib
html = urllib.urlopen(YOUR_TWITTER_URL).read()
soup = soupy(html)
for tweet in soup.find('ol',attrs={'class':'stream-items'}).findAll('li'):
     print tweet.find('p').text

【讨论】：

谢谢。获得追随关系怎么样？