【发布时间】:2019-09-05 17:00:47
【问题描述】:
我无法使用 xpath 从 Flipkart 中提取产品图片网址。
目标是提取 src 包含的图片 url。
在这种情况下:https://rukminim1.flixcart.com/image/416/416/speaker/home-audio-speaker/4/d/p/f-d-a550x-original-imaea2ftzywquzrz.jpeg?q=70 应该是输出。
我使用的 Xpath 是:
//*[@class="_2rDnao"]//img[@src]
在 chrome xpath 助手中使用上面的 xpath 它给了我想要的输出,但是在 python 脚本中使用它时它会变成空白。
import requests
from lxml import html
import os
request_headers = {
"Accept-Language": "en-US,en;q=0.5",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0.15063; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Referer": "http://thewebsite.com",
"Connection": "keep-alive"
}
webpage=requests.get("https://www.flipkart.com/savehatke/p/itmea2aspwcaxuaz?
pid=ACCEA2ASHNDGV4DP", headers=request_headers)
tree = html.fromstring(webpage.content)
raw_img=tree.xpath('//*[@class="_2rDnao"]//img')
编辑:添加 python 代码
【问题讨论】:
-
其余代码在哪里?你在用硒吗?
-
@QHarr 我已经添加了代码。
标签: python-3.x xpath web-scraping