【发布时间】:2017-03-10 11:02:48
【问题描述】:
我需要开发一个应用程序,将电子商务网站的 url 作为输入,并将产品标题、价格与类别和子类别一起废弃。
Scrapy 似乎是一个很好的数据抓取解决方案,所以我的问题是我如何告诉 scrapy 知道网站有不同的结构并且并不真正使用相同的结构来提取它们的标题、价格、猫和子类别的位置标签?
编辑:我得把我的问题改成这个,难道我们不能写一个通用的蜘蛛,它将起始 url、允许的域和 xpath 或 css 选择器作为参数?
【问题讨论】:
-
how can i tell scrapy where the titles, prices, cat and sub categories are to extract them knowing that websites have different structures不可能的兄弟...抓取是通过解析网站的 HTML 标签或 JSON 响应来完成的...您无法构建一个通用的抓取工具来跨具有不同 HTML 结构的网站工作.. . -
我也是这么想的,但这是他们要求我做的,所以欢迎任何想法,谢谢兄弟
-
兄弟,我有 4 年的抓取经验,我认为这是不可能的……但是如果您已经知道要抓取哪些网站……这个答案可能会有所帮助……stackoverflow.com/a/42637648/4094231
-
也许通过一些机器学习它可以工作?
-
抓取也是某种机器学习,
标签: python scrapy web-crawler e-commerce screen-scraping