【发布时间】:2011-07-29 00:21:02
【问题描述】:
我正在尝试编写一个可以调用网页的脚本 (http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Tree&id=7742&lvl=3&lin=f&keep= 1&srchmode=1&unlock),扫描一下,然后拉出每个嵌套分类群内的目、科、属、种。但是,我只想要脊椎动物(整个网站的一小部分),但与各种脊椎动物分类群相关的 URL 没有任何可识别的模式(即顺序)。有没有办法做到这一点合理?在尝试制定不同的方法来实现这一目标时,我遇到了很多问题。
【问题讨论】:
-
这被称为 web-scraping,之前有很多关于此的问答(其中仅 500 个标记为 Python)。在 Python 中,twill 是一个可用性层,位于 mechanize 之上(用于自动化);和 BeautifulSoup 用于实际的抓取。
标签: python url call taxonomy genetics