【发布时间】:2010-05-27 03:55:02
【问题描述】:
我一直在使用 XPath 和 scrapy 在线从 html 标签中提取文本,但是当我这样做时,我会附加额外的字符。一个示例是尝试从<td> 标签中提取一个数字,例如“204”并获取[u'204']。在某些情况下,情况要糟糕得多。例如,尝试提取“1 - Mathoverflow”而不是得到[u'\r\n\t\t 1 \u2013 MathOverflow\r\n\t\t ']。有没有办法防止这种情况发生,或者修剪字符串以使多余的字符不是字符串的一部分? (使用项目来存储数据)。看起来它与格式有关,所以我如何让 xpath 不拾取那些东西?
【问题讨论】:
-
如果您能提供一个完整的、自包含的代码示例来重现您的问题,那将会很有帮助。我们正在尝试继续猜测您在做什么。