【问题标题】:Python calling mutiple URLs and pulling data from themPython 调用多个 URL 并从中提取数据
【发布时间】:2011-07-29 00:21:02
【问题描述】:

我正在尝试编写一个可以调用网页的脚本 (http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Tree&id=7742&lvl=3&lin=f&keep= 1&srchmode=1&unlock),扫描一下,然后拉出每个嵌套分类群内的目、科、属、种。但是,我只想要脊椎动物(整个网站的一小部分),但与各种脊椎动物分类群相关的 URL 没有任何可识别的模式(即顺序)。有没有办法做到这一点合理?在尝试制定不同的方法来实现这一目标时,我遇到了很多问题。

【问题讨论】:

  • 这被称为 web-scraping,之前有很多关于此的问答(其中仅 500 个标记为 Python)。在 Python 中,twill 是一个可用性层,位于 mechanize 之上(用于自动化);和 BeautifulSoup 用于实际的抓取。
  • twill 专门使跟随链接比普通机械化更容易,特别是它的follow 命令按链接标题(而不是 URL)工作。如果这不能解决您的问题,请向我们展示这些链接的一些示例 html sn-p?

标签: python url call taxonomy genetics


【解决方案1】:

目前还不是很清楚(至少对我而言)您到底想做什么,但据我所知,您需要创建某种爬虫来查找页面中的链接、浏览网站并对它们进行分类?

如果是这样,请选择mechanize,它允许您模拟网络浏览器,并在网站上导航,轻松提取和跟踪链接、提交表单等。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-09-30
    • 2014-10-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-02-12
    相关资源
    最近更新 更多