【问题标题】:Python Google Web CrawlerPython 谷歌网络爬虫
【发布时间】:2013-10-15 17:52:58
【问题描述】:

我正在做一个需要在 Internet 上进行搜索的项目(即堆栈溢出)。从搜索到 XML 文件的爬虫检索所有相关结果(URL、文本、图像路径)。我正在用python构建它。有人对我应该如何解决这个问题有任何建议吗?我不想扫描整个网络,只想搜索相关结果(stackoverflow,2013 年 10 月 8 日,python 为例)

【问题讨论】:

  • “我不想扫描整个网络……”-您是说网站吗?

标签: python xml search web-crawler


【解决方案1】:

听起来你可以使用 BeautifulSoup。并查看此线程,这听起来像是您需要的。 Creating an XML document with BeautifulSoup: StackOverFlow

BeautifulSoup的下载和使用,网址是here

使用起来非常简单。 希望这会有所帮助。

【讨论】:

    【解决方案2】:

    【讨论】:

    • stackoverflow 只是我正在考虑通过谷歌搜索数据的一个例子。
    • 其实是google禁止自动请求的服务条款
    猜你喜欢
    • 2017-02-25
    • 2015-05-12
    • 1970-01-01
    • 1970-01-01
    • 2013-01-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多