如何使用 Scrapy 从网站上抓取地址？ [关闭]答案

【问题标题】：How to scrape address from websites using Scrapy? [closed]如何使用 Scrapy 从网站上抓取地址？ [关闭]
【发布时间】：2015-01-26 06:05:07
【问题描述】：

我正在使用 Scrapy，我需要从给定域的联系我们页面中抓取地址。这些域是由 google search api 提供的，因此我不知道网页的确切结构是什么。这种刮痧可行吗？任何例子都会很好。

【问题讨论】：

【解决方案1】：

提供几个例子有助于做出更好的答案，但总体思路可能是：

假设您没有任何关于您将获得的网站的信息。

让我们专注于第一个问题。

这里的主要问题是网站的结构不同，严格来说，您无法建立一个 100% 可靠的方式来找到“联系我们”页面。但是，您可以“覆盖”最常见的情况：

在a 标签后面加上“联系我们”、“联系方式”、“关于我们”、“关于”等文字
检查/about、/contact_us和类似的端点，例子：
- http://www.sample.com/contact.php
- http://www.sample.com/contact
关注所有包含contact、about 等文本的链接

您可以根据这些为您的CrawlSpider 构建一组Rules。

第二个问题并不容易——您不知道地址在页面上的位置（并且可能在页面上不存在），并且您不知道地址格式。您可能需要深入了解Natural Language Processing 和Machine Learning。

【讨论】：