【发布时间】:2014-08-16 10:46:01
【问题描述】:
我想了解这个web site 是如何工作的。有一个输入表单,您可以在其中提供 url。此表单返回从另一个站点 (Youtube) 检索到的信息。所以:
我的第一个也是更有趣的问题是,是否有人知道该站点如何检索整个语句语料库?
-
或者,因为现在我使用以下代码:
from BeautifulSoup import BeautifulSoup import json urlstr = 'http://www.sandracires.com/en/client/youtube/comments.php?v=' + videoId + '&page=' + str(npage) url = urllib2.urlopen(urlstr) content = url.read() soup = BeautifulSoup(content) #parse json newDictionary=json.loads(str(soup)) #print example print newDictionary['list'][1]['username']但是,我无法在所有页面中进行迭代(当我手动访问时不会发生这种情况)。我已将
timer.sleep(30)放在 json 下面但没有成功。为什么会这样?
谢谢!
Python 2.7.8
【问题讨论】:
标签: php python selenium web-scraping zend-dom-query