【问题标题】:Amazon price in Google Spreadsheets谷歌电子表格中的亚马逊价格
【发布时间】:2015-07-12 07:25:40
【问题描述】:

我尝试按照here 给出的答案进行操作,但收到错误Imported Xml content can not be parsed

这是我尝试过的:

=importXml("http://www.amazon.it/Asus-GeForce-Scheda-Display-Edition/dp/B00SKWIISQ/","//span[@id='priceblock_ourprice']")

=importxml(hyperlink(concatenate("http://www.amazon.it/Asus-GeForce-Scheda-Display-Edition/dp/B00SKWIISQ/")),"//*[@id='priceblock_ourprice']")

他们都没有工作..

编辑:这些功能间歇性地工作。似乎亚马逊网站特别存在问题,因为有时这有效,有时无效(我得到“无法解析导入的内容”)。如果没有,有时如果我添加或删除尾部斜杠,它会再次起作用。其他网站没问题。似乎是一个已知问题:https://productforums.google.com/forum/#!topic/docs/UuMGRl7Asew https://productforums.google.com/forum/#!topic/docs/yWPaNDK0Kpg 原因何在。

【问题讨论】:

    标签: xpath web-scraping google-sheets amazon google-sheets-importxml


    【解决方案1】:

    如果您尝试//* xPath,那么您会看到亚马逊正在进行机器人检查。这就是解析不成功的原因。

    不幸的是,我看不到明显的方法来克服这个问题。

    而且,至于将逗号更改为分号,反之亦然 - 它不起作用,因为它取决于您对 Google Spreadheet 的本地设置,您必须在函数中使用哪个分隔符。有些国家是逗号,有些国家是分号。

    【讨论】:

      【解决方案2】:

      试试这个:

      =importXml("http://www.amazon.it/Asus-GeForce-Scheda-Display-Edition/dp/B00SKWIISQ";"//span[@id='priceblock_ourprice']")
      

      我将冒号更改为分号并删除了 URL 的尾部斜杠,以确保没有进行 HTTP 重定向。

      【讨论】:

      猜你喜欢
      • 2017-12-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-02-15
      • 2015-07-22
      • 1970-01-01
      • 2021-09-24
      相关资源
      最近更新 更多