如何使用 XPath 选择元素及其子元素中的所有文本答案

【问题标题】：How to select all texts within an element and its children using XPath如何使用 XPath 选择元素及其子元素中的所有文本
【发布时间】：2019-08-04 17:30:34
【问题描述】：

我想在scrapy中提取以下标题的文本，它使用XPATH：

<h2 id="title"><a href="https://www.aclweb.org/anthology/P17-1102"><span class="acl-fixed-case">P</span>osition<span class="acl-fixed-case">R</span>ank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents</a></h2>

如果我使用：

paper_title = response.xpath('//*[@id="title"]/a/descendant::*/text()').extract()

我会得到：

['P', 'R']

两个 span 孩子的内部文本是什么

如果我使用：

paper_title = response.xpath('//*[@id="title"]/a/text()').extract()

我会得到：

['osition',
 'ank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents']

这是<a>的内部文本，不包括孩子。

如何提取整个文本？

【问题讨论】：

标签： html xml xpath scrapy

【解决方案1】：

这个 XPath，

string(//h2[@id="title"])

将返回h2 element 的string value，id 属性值为"title"，

PositionRank：一种从学术文献中提取关键词的无监督方法

根据要求。

【讨论】：

这是获取字符串值的正确答案。如果您想选择这些文本节点，则必须使用表达式//*[@id="title"]/a//text()
谢谢@Alejandro。

【解决方案2】：

response.xpath('xxxx').xpath('string()').extract()

【讨论】：