【问题标题】:Web Scraping from a Website with a Static URL使用静态 URL 从网站抓取网页
【发布时间】:2016-10-11 17:04:34
【问题描述】:

所以我试图从Canada Post Website 中提取邮政编码信息。我在这里遇到的问题是,无论您在尝试查找邮政编码时输入什么地址,URL 都保持不变。例如,从基本页面开始,如果我输入“1 MACLEAN ST”作为我的搜索查询,然后按回车键

您会注意到 URL 保持不变

我以前从未从具有静态 URL 的网站上抓取网页,并且想知道我将如何去做(例如,为 Python 获取特定的库等)。我认为在某些时候,我很可能必须通过 html 标签提取邮政编码信息(在本例中为“A0J 1T0”),如下所示。

【问题讨论】:

    标签: python html url static web-scraping


    【解决方案1】:

    您可以使用Selenium 之类的东西编写一个包装器来动态地与页面交互。

    或者,您可能想查看他们的开发人员 API,它应该允许您提供地址并取回代码(以及更高级的用例,例如创建运输标签)。

    https://www.canadapost.ca/cpo/mc/business/productsservices/developers/services/fundamentals.jsf

    【讨论】:

      【解决方案2】:

      由于您需要在抓取之前执行操作,因此您需要使用像 phantomjs 这样的无头浏览器。它比基本抓取更具挑战性,但它允许您以编程方式输入地址,然后抓取返回页面的结果数据。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2020-10-02
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多