【发布时间】:2019-08-04 17:30:34
【问题描述】:
我想在scrapy中提取以下标题的文本,它使用XPATH:
<h2 id="title"><a href="https://www.aclweb.org/anthology/P17-1102"><span class="acl-fixed-case">P</span>osition<span class="acl-fixed-case">R</span>ank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents</a></h2>
如果我使用:
paper_title = response.xpath('//*[@id="title"]/a/descendant::*/text()').extract()
我会得到:
['P', 'R']
两个 span 孩子的内部文本是什么
如果我使用:
paper_title = response.xpath('//*[@id="title"]/a/text()').extract()
我会得到:
['osition',
'ank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents']
这是<a>的内部文本,不包括孩子。
如何提取整个文本?
【问题讨论】: