【问题标题】:Unable to extract data using Import.io from Amazon web page where data is loaded into the page via Ajax无法使用 Import.io 从 Amazon 网页中提取数据,其中数据通过 Ajax 加载到页面中
【发布时间】:2014-12-01 20:25:43
【问题描述】:

任何人都知道如何使用 Import.io 从网页中提取数据,其中数据通过 Ajax 加载到页面中。我无法从下面提到的页面中提取数据。第一页数据提取没有问题。但是如何移动到第二页并从第二页中提取数据。下面给出了 URL。 http://www.amazon.com/gp/aag/main?ie=UTF8&asin=&isAmazonFulfilled=&isCBA=&marketplaceID=ATVPDKIKX0DER&orderID=&seller=A13JB7253Q5S1B?

【问题讨论】:

  • 任何人都知道上述问题,谢谢
  • 您需要仅来自该商家的静态数据集,还是需要 API 来从该商家和许多商家中提取数据?
  • 我需要一个适用于此类模板的 API。如果 API 不可用,则使用数据集。

标签: amazon import.io


【解决方案1】:

该页面上的数据是使用有趣的技术组合部署的;它严重依赖服务器端代码和 Javascript。这种类型的页面可能是一个挑战,但是,总有一些方法可以获取数据。比如有些卖家的页面是这样的:

http://www.amazon.co.uk/gp/node/index.html?ie=UTF8&marketplaceID=ATVPDKIKX0DER&me=A2WO1PQ2OIOIGM&merchant=A2WO1PQ2OIOIGM

即使使用魔术算法,也很容易从中提取数据 - https://magic.import.io/?site=http:%2F%2Fwww.amazon.co.uk%2Fgp%2Fnode%2Findex.html%3Fie%3DUTF8%26marketplaceID%3DA1F83G8C2ARO7P%26me%3DA2WO1PQ2OIOIGM%26merchant%3DA2WO1PQ2OIOIGM

我必须先从 URL 中删除 redirect=true 才能起作用 - 仅供参考。

有时有些商店没有这样的 URL,这有点麻烦,而且那里的 URL 可能很难弄清楚。

当数据对他们非常重要时,我们确实会帮助我们的一些企业客户构建定制的 API,因此请随时与我们联系。我想更大规模的解决方法是根据您感兴趣的类别创建一个数据集/API,然后按卖家名称过滤该更大的数据集(python 或 CSV 样式)。那可能会奏效!

【讨论】:

    【解决方案2】:

    我设法获得了一个静态数据集,但没有 API。您可以在以下 GUID 中找到该数据集:c7c63f1c-7081-4d4a-ad91-afe9789a6620

    谢谢

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-11-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-08-08
    • 1970-01-01
    相关资源
    最近更新 更多