【问题标题】:Fastest way for webscraping a page implementing a shopping bot网页抓取实现购物机器人的页面的最快方法
【发布时间】:2021-05-29 18:49:09
【问题描述】:

我和我的朋友正在尝试开发一个购物机器人。它必须尽可能快,因为产品可能会在几秒钟内用完。我们已经寻找了不同的方法来做到这一点,我们提出了 Selenium 和 Scrapy 以及其他 python 库,我们已经有一些工作了,但是执行手头的任务似乎太慢了。

我们已经考虑过不要抓取网页(选择产品、添加到购物车等),而是尝试制作一个机器人,它只向商店的服务器发送一个 HTML 发布请求,其中包含产品和其余信息必要的。我们在其他帖子中读到,这是通过 requests 库完成的,但是我们如何知道一个操作需要哪些信息和多少个帖子请求(例如,单击添加到购物车按钮会向服务器发送一些帖子请求,所以我们如何知道该请求中包含的信息以在我们的程序中模拟它?)

我们希望库能够使用 JavaScript 抓取网页,例如在单击按钮或从下拉菜单中选择项目时。我们遇到了一些无法做到这一点的库(例如 Scrapy)

此外,如果您知道另一种编程语言可能更好的库或执行速度更快,我们将不胜感激,我们都知道 Python 和 Java,但我们愿意接受建议

【问题讨论】:

  • 不确定是否可以制作API,因为您可能需要授权。公开的开放 API 存在,但我不认为你是幸运的。

标签: selenium web-scraping scrapy http-post bots


【解决方案1】:

最快的方法是通过requests,使用 bs4 或正则表达式来抓取网页,这是大多数“购物机器人”使用的,为了使其更快,你可以用 go 或 typescript 编写机器人比python快

【讨论】:

  • 感谢您的回答,我阅读了有关 bs4 或 rejex 的信息,但问题是我们想要使用该机器人的大多数网页都使用 javascript,我不确定这些库是否支持它(例如,当单击按钮访问网站的不同部分时)。您认为我们应该使用不同的东西还是这些库中的任何一个都应该工作?
  • 正则表达式非常适合抓取 js 部分
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-02-27
  • 2021-12-02
  • 2021-03-10
  • 1970-01-01
相关资源
最近更新 更多