【发布时间】:2021-07-13 05:38:40
【问题描述】:
我正在寻求有关从任何亚马逊产品页面抓取产品视频的帮助。
例如下图红框内的视频:
product videos amazon product page
我已经在 Internet 上广泛搜索帮助以寻找答案,但他们没有解决这个问题。
通常会有一个扩展名为 .mp4 的 src 文件,我们可以将其用作下载的 url,但在这种情况下,src 似乎是一个“blob”链接。
例如在上面的产品中,要播放红框中的第一个视频,我们需要点击它,会打开一个视频播放器,如下图:
检查视频播放器会显示以下内容: video player inspect
视频的src为:blob:https://www.amazon.com/bb93cc83-5768-4eb9-a10d-f6a889e5a832
只需将其粘贴到地址栏中就会产生“无法访问您的文件”,如下所示: Your file couldn't be accessed message
从网址的开头删除“blob”,所以它只是:https://www.amazon.com/bb93cc83-5768-4eb9-a10d-f6a889e5a832,并将其粘贴到地址栏中会产生“找不到页面”,如下所示: page not found message
甚至没有可能以某种方式具有 .mp4 URL 的 iframe 标记。
我想到的另一种可能的方法是以某种方式使用 Internet 下载管理器在我的 Python 脚本中下载视频,但据我所知,我似乎仍然需要 .mp4 url 才能使用 Internet 下载管理器 API ,亚马逊页面上似乎没有。
任何人都可以提供任何帮助吗?
谢谢。
【问题讨论】:
-
我不认为亚马逊可以进行网络抓取。也许这几乎就像窃取他们的数据一样。如果合法的话,你可以使用
beautiful soup或Selenium包进行网页抓取 -
是的,我正在使用 BeautifulSoup 和 Selenium 来获取产品信息,例如产品名称、价格、ASIN 等。但我一直在下载视频,因为亚马逊页面的结构方式,他们没有不要将视频源放在 .mp4 URL 中,而是使用此“blob”数据。鉴于视频源是“blob”而不是 .mp4 URL,我需要帮助下载视频。再次感谢。
-
只是想我会为其他面临同样问题的人回过头来。我想我已经找到了解决方案。要从亚马逊产品页面下载视频,我们需要查找 m3u8 URL 而不是 mp4。从那里,我们可以使用 FFMPEG 将其转换为 mp4。
标签: python web-scraping video amazon