【问题标题】:crawler get external website search result爬虫获取外部网站搜索结果
【发布时间】:2009-12-16 06:15:38
【问题描述】:
  1. 我可以使用什么最佳实践和库来键入外部网站上的搜索文本框并收集搜索结果?
  2. 如何处理具有不同搜索框和复选框的网站并收集结果?
  3. 可以使用 Selenium 自动执行此操作吗?
  4. 我应该使用 Heritrix 还是 nutch?哪一个更好?我听说 nutch 带有插件。哪个社区的社区更大?

【问题讨论】:

    标签: java selenium web-crawler nutch


    【解决方案1】:

    你可以使用:

    • Selenium API
    • HtmlUnit
    • HTML解析器

    等等

    【讨论】:

    • 任何参考文章...如何从 selenium 获取结果并传递给 htmlparser。我虽然 selenium 可以自动化测试并且不能得到结果......
    • 它的API可以。您可以打开这三种技术的页面并查看“入门”或用户手册 - 这是一个很好的参考
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-09-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-11-23
    • 1970-01-01
    相关资源
    最近更新 更多