【发布时间】:2016-06-03 17:39:13
【问题描述】:
我正在使用 scrapy 在以下脚本中获取给定 ID 的 field10 和 field12 的整数值:
<script>
Autoslave.jQuery(function ($) {
"use strict";
var map = initMap([
{"field1": "operational",
"field2": "operational",
"field3": "operational",
"ID": 2,
"field4": "some text",
"field5": 48.8732135,
"field6": 2.3903853,
"field7": 1,
"field8": "SPACE",
"field9": "some text",
"field10": 4,
"field10": false,
"field12": 0},
{"field1": "operational",
"field2": "operational",
"field3": "operational",
"ID": 3,
"field4": "some text",
"field5": 48.8592806,
"field6": 2.3773563,
"field7": 0,
"field8": "SPACE",
"field9": "some text",
"field10": 2,
"field11": false,
"field12": 3},
...
</script>
在scrapy shell中,我已经成功地使用response.xpath('//script[14]/text()').extract()获取脚本文本,但是我不知道如何在文本中选择我的值,以获得定义的ID。任何想法如何做到这一点(也许使用正则表达式?)
【问题讨论】:
-
你知道我的正则表达式模式是什么吗?谢谢!
-
我不确定您要提取什么。您的 xpath 究竟返回了什么?您希望它看起来如何?
-
我当前的 xpath 返回上面的文本。对于给定的
ID,比如说2,我想获取链接的"field10"和/或"field12"值,在这种情况下分别是4和0
标签: python regex web-scraping scrapy