【发布时间】:2017-03-24 14:31:48
【问题描述】:
我想抓取这个链接上的数据
http://www.realclearpolitics.com/epolls/json/5491_historical.js?1453388629140&callback=return_json
我不确定这个链接是什么类型的,是 html 还是 json 或其他。抱歉我的网络知识不好。但我尝试使用以下代码进行抓取:
import requests
url='http://www.realclearpolitics.com/epolls/json/5491_historical.js?1453388629140&callback=return_json'
source=requests.get(url).text
源的类型是 unicode。我也尝试使用 urllib2 来抓取:
source2=urllib2.urlopen(url).read()
source2 的类型是字符串。我不确定哪种方法更好。因为链接不像普通网页那样包含不同的标签。如果我想清理抓取的数据并形成dataframe数据(如pandas dataframe),我应该遵循什么方法或流程/
谢谢。
【问题讨论】:
-
@depperm,感谢您的回复。我更新链接。它现在应该可以工作了。
标签: python json parsing web-scraping data-cleaning