【发布时间】:2019-08-06 12:17:42
【问题描述】:
我正在寻找有关我正在处理的网络抓取脚本的一些指导。
一切进展顺利,但我坚持剥离图像文件数据。
我目前正在做一个 WebRequest,按类获取元素,选择outerHTML,但需要按照这个例子只去除属性data-imagezoom 的内容。
样本数据:
<a class="aaImg" href="https://imagehost.ssl.server123.com/Product-800x800/image.jpg">
<img class="aaTmb" alt="Matrix 900 x 900 test" src="https://imagehost.ssl.server123.com/Product-190x190/image.jpg" item="image"
data-imagezoom="https://imagehost.ssl.server123.com/Product-1600x1600/image.jpg" data-thumbnail="https://imagehost.ssl.server123.com/Product-190x190/image.jpg">
</img>
</a>
获取该数据的当前代码:
$ProductInfo = Invoke-WebRequest -Uri $ProductURL
$ProductImageRaw = $ProductInfo.ParsedHTML.body.getElementsByClassName("aaImg") |
Select outerHTML
很明显,我可以通过轻松选择href 属性来获得第一张图片。
我通过将 800x800 替换为 1600x1600 来进行“脏编码”,因为文件名相同,只是路径不同,但当路径名不一致时,很快就会出现问题。
【问题讨论】:
标签: html powershell dom web-scraping