【发布时间】:2016-11-17 07:40:27
【问题描述】:
我正在尝试发送一些 json 请求来抓取像 link 这样的无限滚动框。它的json链接是:
有些参数不是必需的,我创建了一个有效参数字典。例如,参数 Count 是每次滚动显示的项目数。我的代码是:
import json
import requests
parameters = {'countryCode':'US','dateTime':'', 'docId':'','sequence':'6e09aca3-7207-446e-bb8a-db1a4ea6545c',
'messageNumber':'1826','count':'10','channelName':'', 'topic':'_:1479366266513' }
data = json.dumps(parameters)
firstUrl = "http://www.marketwatch.com/investing/stock/xom"
html = requests.post(firstUrl, params = data).text
我的问题是我无法根据参数发送请求,当我删除所有参数时,我得到相同的页面(firstUrl 链接),就好像我包含了所有参数一样。您知道为什么会发生这种情况以及如何解决这个问题吗?
【问题讨论】:
-
我猜,您想要废弃的内容无法通过单个请求接收(即使您指定
count:1000),因为每次您再次滚动时,您的浏览器都会发送新的XHR请求另一个(10 个条目)数据。 -
谢谢安德森,我的问题是即使没有定义任何参数,我也会得到相同的结果,即主页而不是我感兴趣的容器(有 3 个不同的无限滚动框和我对其中一个感兴趣),我正在提供该特定元素的参数,但它无法检测到它。
标签: python-2.7 web-scraping python-requests getjson infinite-scroll