【发布时间】:2014-10-06 09:50:19
【问题描述】:
我用过很多次又脏又漂亮的汤,但是找到 kimonolabs 解决方案更容易、更快捷。唯一的问题是,有时作业确实需要一些调整,这是不可能的(例如,使用独特的模式爬行)。
是否有任何其他解决方案将简单性与可选复杂性相结合?主要是想用所见即所得的界面定义一个页面抓取模板,然后程序化编写爬虫。
【问题讨论】:
标签: web-scraping
我用过很多次又脏又漂亮的汤,但是找到 kimonolabs 解决方案更容易、更快捷。唯一的问题是,有时作业确实需要一些调整,这是不可能的(例如,使用独特的模式爬行)。
是否有任何其他解决方案将简单性与可选复杂性相结合?主要是想用所见即所得的界面定义一个页面抓取模板,然后程序化编写爬虫。
【问题讨论】:
标签: web-scraping
使用Import.io 提取器。
【讨论】:
全面披露:我是 ParseHub 的创始人之一。
ParseHub 试图解决这个问题。它为您提供了可视化定义模板的 gui 和强大的工具,如果您需要更细粒度的控制,它可以回退到 javascript 的子集。您熟悉的所有编程原语(if、for、break、recursion 等)都可用。
您可以在 www.parsehub.com 上找到它
【讨论】:
试试Agenty
Agenty 具有完全相同的网站抓取功能,以及用于设置抓取代理的 Chrome 扩展程序。您只需安装扩展程序并创建代理来抓取任何站点。
仅供参考:我们还计划在 2016 年 4 月之前推出托管解决方案和 REST API(更新 - API is available now)
您可以在网站 (www.datascraping.co) 上看到更多详细信息,现在Agenty.com
披露:我是创始成员之一
【讨论】: