【问题标题】:How to scrape address from websites using Scrapy? [closed]如何使用 Scrapy 从网站上抓取地址? [关闭]
【发布时间】:2015-01-26 06:05:07
【问题描述】:

我正在使用 Scrapy,我需要从给定域的联系我们页面中抓取地址。这些域是由 google search api 提供的,因此我不知道网页的确切结构是什么。这种刮痧可行吗?任何例子都会很好。

【问题讨论】:

    标签: web-scraping scrapy scrape


    【解决方案1】:

    提供几个例子有助于做出更好的答案,但总体思路可能是:

    • 找到“联系我们”链接
    • 点击链接提取地址

    假设您没有任何关于您将获得的网站的信息。

    让我们专注于第一个问题。

    这里的主要问题是网站的结构不同,严格来说,您无法建立一个 100% 可靠的方式来找到“联系我们”页面。但是,您可以“覆盖”最常见的情况:

    您可以根据这些为您的CrawlSpider 构建一组Rules

    第二个问题并不容易——您不知道地址在页面上的位置(并且可能在页面上不存在),并且您不知道地址格式。您可能需要深入了解Natural Language ProcessingMachine Learning

    【讨论】:

    • 所以您建议先追踪联系我们页面,然后在该页面上查找地址。你认为用正则表达式来定位密码是个好主意吗?
    • @DharmanshuKamra 有可能,但编写一个支持所有可能地址格式的表达式可能并不容易。很难说更多。希望对您有所帮助。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-05-09
    • 2020-10-12
    相关资源
    最近更新 更多