【发布时间】:2014-07-18 06:55:36
【问题描述】:
我正在尝试通过编写脚本来教自己一个概念。基本上,我正在尝试编写一个 Python 脚本,给定几个关键字,它将抓取网页,直到找到我需要的数据。例如,假设我想查找生活在美国的毒蛇列表。我可能会使用关键字 list,venemous,snakes,US 运行我的脚本,并且我希望能够以至少 80% 的把握相信它会返回美国的蛇列表。
我已经知道如何实现网络蜘蛛部分,我只想了解如何在不了解页面结构的情况下确定网页的相关性。我研究过网络抓取技术,但它们似乎都假设了解页面的 html 标记结构。是否有某种算法可以让我从页面中提取数据并确定其相关性?
任何指针将不胜感激。我将Python 与urllib 和BeautifulSoup 一起使用。
【问题讨论】:
-
你正在尝试做谷歌几十年来一直在尝试(做)的事情。
-
是的,如果您能以任何合理的准确性做到这一点,那么您就是 Google。编写一个获取关键字然后抓取 Google 搜索结果的脚本怎么样?我相信,谷歌也有他们的搜索 API。两者都是很棒的初学者项目。
-
好的。我实际上计划让脚本从谷歌搜索开始,然后点击首页上的链接。所以也许我的问题更多是关于隔离页面上的数据而不是确定页面相关性。如果该页面位于谷歌搜索的首页,那么我可以公平地假设它是相关的。
标签: python web-scraping beautifulsoup web-crawler