【发布时间】:2011-08-28 09:56:40
【问题描述】:
在通过 Python 抓取网页的同时,是否有一种 API 或系统的方法可以去除网页的不相关部分?例如,以这一页为例——唯一重要的部分是问题和答案,而不是侧栏列、标题等。人们可以猜测这样的事情,但有什么聪明的方法吗?
【问题讨论】:
标签: python screen-scraping web-scraping
在通过 Python 抓取网页的同时,是否有一种 API 或系统的方法可以去除网页的不相关部分?例如,以这一页为例——唯一重要的部分是问题和答案,而不是侧栏列、标题等。人们可以猜测这样的事情,但有什么聪明的方法吗?
【问题讨论】:
标签: python screen-scraping web-scraping
这个 git hub 项目解决了你的问题,但它是用 Java 编写的。可能值得一看:goose
【讨论】:
一种方法是比较共享同一模板的多个网页的结构。在这种情况下,您将比较多个 SO 问题。然后您可以确定哪些内容是静态的(无用的)或动态的(有用的)。
这个字段被称为包装器归纳。不幸的是,它比听起来更难!
【讨论】:
Readability 书签中的方法,至少有两个 Python 实现可用:
【讨论】:
一般来说,不会。在特定情况下,如果您对正在抓取的网站的结构有所了解,则可以使用Beautiful Soup 之类的工具来操作 DOM。
【讨论】: