Python 调用多个 URL 并从中提取数据答案

【问题标题】：Python calling mutiple URLs and pulling data from themPython 调用多个 URL 并从中提取数据
【发布时间】：2011-07-29 00:21:02
【问题描述】：

我正在尝试编写一个可以调用网页的脚本 (http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Tree&id=7742&lvl=3&lin=f&keep= 1&srchmode=1&unlock)，扫描一下，然后拉出每个嵌套分类群内的目、科、属、种。但是，我只想要脊椎动物（整个网站的一小部分），但与各种脊椎动物分类群相关的 URL 没有任何可识别的模式（即顺序）。有没有办法做到这一点合理？在尝试制定不同的方法来实现这一目标时，我遇到了很多问题。

【问题讨论】：

这被称为 web-scraping，之前有很多关于此的问答（其中仅 500 个标记为 Python）。在 Python 中，twill 是一个可用性层，位于 mechanize 之上（用于自动化）；和 BeautifulSoup 用于实际的抓取。
twill 专门使跟随链接比普通机械化更容易，特别是它的follow 命令按链接标题（而不是 URL）工作。如果这不能解决您的问题，请向我们展示这些链接的一些示例 html sn-p？

标签： python url call taxonomy genetics

【解决方案1】：

目前还不是很清楚（至少对我而言）您到底想做什么，但据我所知，您需要创建某种爬虫来查找页面中的链接、浏览网站并对它们进行分类？

如果是这样，请选择mechanize，它允许您模拟网络浏览器，并在网站上导航，轻松提取和跟踪链接、提交表单等。

【讨论】：