【发布时间】:2024-05-02 04:05:02
【问题描述】:
我有以下 HTML 代码:
<div class="sites-split">
<ul>
<li><a href="http://www.page1.com/" target="_blank">text 1</a></li>
<li><a href="http://www.page2.com/" target="_blank">text 2</a></li>
</ul>
<ul>
<li><a href="http://www.page3.com/" target="_blank">text 3</a></li>
<li><a href="http://www.page4.com/" target="_blank">text 4</a></li>
</ul>
</div>
我想提取链接和与该链接关联的文本,我设法通过以下方式获取链接:
response.css("div.sites-split a::attr(href)").getall()
但我不知道如何获取文本,我尝试了:
response.css("div.sites-split a::attr(target)").getall()
但我得到的只是:
['_blank',
'_blank',
'_blank',
'_blank']
【问题讨论】:
标签: html css python-3.x web-scraping scrapy