【发布时间】:2017-11-11 19:05:19
【问题描述】:
我需要一个选择器来抓取欧元符号 (\u20ac) 后面的值。
<Selector xpath='//*[@class="col-sm-4"]/text()' data=u'\r\n\t\t \u20ac 30.000,00'>
我尝试了几十种我在 stackoverflow 和 elsewere 上找到的变体,但我无法得到它。
像https://regexr.com/ 这样的侧面向我展示了这样的东西:
response.xpath('//*[@class="col-sm-4"]/text()').re('(\u20ac).\d*.\d*.\d*')
应该可以,但是不行。
编辑:这里是我想抓取的数据示例链接:https://www.firmenabc.at/manfred-jungwirth-montagen_MoKY
不胜感激!
迈克尔
【问题讨论】:
-
希望我的回答对你有帮助,如果有,请把答案标记为正确:)
-
你能在这里提供一大堆元素吗?您既没有透露链接,也没有任何足够的资源来处理它。如果不进行实际测试,很难回答。
-
你的权利 Shahin - 我更新了一个示例链接 - 也在这里:firmenabc.at/manfred-jungwirth-montagen_MoKY
-
感谢您更新您的问题以使问题更加清晰。但是,我在该页面上找不到任何接近 30.000,00 的金额;相反,这是我可以看到的 150,000.00 欧元。带我先找到那个数量的位置。谢谢。
-
这家公司只是一个例子,因为那家公司拥有 30.000,00 欧元 - 因此,对于 Firmenabc.at 的其他所有公司来说,对于刮取这家公司的欧元金额的提示是值得赞赏的。问候
标签: python web-scraping scrapy scrapy-shell