【发布时间】:2020-06-10 20:47:47
【问题描述】:
我正在尝试使用网页抓取(特别是使用 Scrapy)从网页中获取 URL 或 href。但是,当我 response.xpath('XPATH').extract() href 链接时,它会返回一个空列表。 HTML页面结构为:
我要获取的特定 HTML 元素 href 是:<a href="#2020-38970" class="redNoticeItem__labelLink" data-singleurl="https://ws-public.interpol.int/notices/v1/red/2020-38970">MAGOMEDOVA<br>MADINA</a>
对于上下文,我正在尝试获取每个人的 URL 中的信息并提取它,但我无法从网页中检索到 href。
我复制了 HTML 元素的完整 xpath,它是:/html/body/div1/div1/div[6]/div/div2/div/div2/ div2/div/div2/div/div/div2/div1/a.
但是当我运行响应 xpath 命令时,这仍然返回 []。
【问题讨论】:
-
当你有文本输出时,don't take a picture but copy paste the output in your POST 也可以右键复制html -> 复制为outerHTML。
-
使用谷歌浏览器,您可以右键单击页面以检查并通过上下文菜单 xpath 值获取焦点元素。
标签: python html web-scraping scrapy