【问题标题】:crawling twitter using urllib instead of twitter api使用 urllib 而不是 twitter api 抓取 twitter
【发布时间】:2013-06-21 17:55:11
【问题描述】:

我想从 twitter 抓取数据。我正在使用 twitter api,但受到速率限制的限制,运行速度非常慢。 或者,我可以通过直接解析 url 来绕过 twitter api,例如。 urllib 包。但这就是我所知道的。

你们能否提供更多关于如何在不使用 twitter api 的情况下从 twitter 抓取时间线和跟踪数据的帮助?你有什么建议吗?提前致谢。

PS:我正在使用 Python 进行编程。

【问题讨论】:

  • 如果您能告诉我们您究竟想从中得到什么,将会很有帮助 - 您在寻找什么信息?抓取本身非常简单——请求页面,解析 URL,请求每个 URL,重复。
  • MattDMo 感谢您的回复。我是爬虫新手,不知道你们经常用什么来爬取,尤其是在 python 中。此外,感谢 emcnaughton 介绍 BS。但我通常不知道如何在 find() 中设置参数...

标签: python twitter urllib web-crawler


【解决方案1】:

您需要在此过程中使用 BeautifulSoup。

from BeautifulSoup import BeautifulSoup as soupy
from urllib import urllib
html = urllib.urlopen(YOUR_TWITTER_URL).read()
soup = soupy(html)
for tweet in soup.find('ol',attrs={'class':'stream-items'}).findAll('li'):
     print tweet.find('p').text

【讨论】:

  • 谢谢。获得追随关系怎么样?
猜你喜欢
  • 2016-10-14
  • 1970-01-01
  • 2013-05-04
  • 1970-01-01
  • 1970-01-01
  • 2017-11-14
  • 2022-11-17
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多