【发布时间】:2022-08-17 00:20:02
【问题描述】:
我想从下面的结构中提取文本。
selector = scrapy.Selector(text=\"\"\"
<li>Text1
<ul>
<li>Text2</li>
<li>Text3</li>
<li><class=\"a\">
<i>Text4</i>
Text5
<a href=\"href1\" title=\"Title1\"> Text6</a>.
</cite>
<span class=\"b\" title=\"Title2\">
<span style=\"Style1\"></span>
</span>
</li>
<li>
Text7
<cite style=\"Style2\" class=\"a\">
<i>Text8</i>
Text9
<a href=\"href2\" title=\"Title2\">Text10</a>.
</cite>
<span class=\"b\" title=\"Title3\">
<span style=\"Style3\"></span>
</span>
</li>
</ul>
</li>
\"\"\")
这段代码给了我所有的文本,包括新行,但失去了 html 的所有结构。
selector.xpath(\'/descendant-or-self::*/text()\').extract()
以下选项仅提供空列表。
selector.xpath(\'/li//text()\').extract()
selector.xpath(\'/li//text()\').extract()
selector.xpath(\'/li\').extract()
selector.xpath(\'/li/ul/*\').extract()
selector.xpath(\'/li/ul/li\').extract()
有没有办法通过某种路径访问这些元素?
-
- 哪个元素?
-
所有文本元素,参见。标题。