使用静态 URL 从网站抓取网页答案

【问题标题】：Web Scraping from a Website with a Static URL使用静态 URL 从网站抓取网页
【发布时间】：2016-10-11 17:04:34
【问题描述】：

所以我试图从Canada Post Website 中提取邮政编码信息。我在这里遇到的问题是，无论您在尝试查找邮政编码时输入什么地址，URL 都保持不变。例如，从基本页面开始，如果我输入“1 MACLEAN ST”作为我的搜索查询，然后按回车键

您会注意到 URL 保持不变

我以前从未从具有静态 URL 的网站上抓取网页，并且想知道我将如何去做（例如，为 Python 获取特定的库等）。我认为在某些时候，我很可能必须通过 html 标签提取邮政编码信息（在本例中为“A0J 1T0”），如下所示。

【问题讨论】：

【解决方案1】：

您可以使用Selenium 之类的东西编写一个包装器来动态地与页面交互。

或者，您可能想查看他们的开发人员 API，它应该允许您提供地址并取回代码（以及更高级的用例，例如创建运输标签）。

【讨论】：

【解决方案2】：

由于您需要在抓取之前执行操作，因此您需要使用像 phantomjs 这样的无头浏览器。它比基本抓取更具挑战性，但它允许您以编程方式输入地址，然后抓取返回页面的结果数据。

【讨论】：