【发布时间】:2018-03-12 02:16:37
【问题描述】:
我正在使用scrapy 构建数据提取,并希望规范化从 HTML 文档中提取的原始字符串。这是一个示例字符串:
Sapphire RX460 OC 2/4GB
请注意字符串文字前面和OC 和2 之间的两组两个空格。
Python 提供了 How do I trim whitespace with Python? 中所述的修剪,但这不会处理 OC 和 2 之间的两个空格,我需要将它们折叠成一个空格。
我尝试使用 XPath 中的 normalize-space(),同时使用我的 scrapy Selector 提取数据,这可行,但分配冗长且向右漂移强烈:
product_title = product.css('h3').xpath('normalize-space((text()))').extract_first()
有没有一种优雅的方式来使用 Python 规范化空格?如果不是单行,有没有办法可以将上面的行分解成更易于阅读的内容而不会引发缩进错误,例如
product_title = product.css('h3')
.xpath('normalize-space((text()))')
.extract_first()
【问题讨论】:
标签: python string xpath scrapy