【发布时间】:2015-01-26 06:05:07
【问题描述】:
我正在使用 Scrapy,我需要从给定域的联系我们页面中抓取地址。这些域是由 google search api 提供的,因此我不知道网页的确切结构是什么。这种刮痧可行吗?任何例子都会很好。
【问题讨论】:
标签: web-scraping scrapy scrape
我正在使用 Scrapy,我需要从给定域的联系我们页面中抓取地址。这些域是由 google search api 提供的,因此我不知道网页的确切结构是什么。这种刮痧可行吗?任何例子都会很好。
【问题讨论】:
标签: web-scraping scrapy scrape
提供几个例子有助于做出更好的答案,但总体思路可能是:
假设您没有任何关于您将获得的网站的信息。
让我们专注于第一个问题。
这里的主要问题是网站的结构不同,严格来说,您无法建立一个 100% 可靠的方式来找到“联系我们”页面。但是,您可以“覆盖”最常见的情况:
a 标签后面加上“联系我们”、“联系方式”、“关于我们”、“关于”等文字/about、/contact_us和类似的端点,例子:
contact、about 等文本的链接您可以根据这些为您的CrawlSpider 构建一组Rules。
第二个问题并不容易——您不知道地址在页面上的位置(并且可能在页面上不存在),并且您不知道地址格式。您可能需要深入了解Natural Language Processing 和Machine Learning。
【讨论】: