【问题标题】:Importing XML data to Google Sheets from Sigma Aldrich从 Sigma Aldrich 将 XML 数据导入 Google 表格
【发布时间】:2023-03-08 04:31:02
【问题描述】:

我正在尝试创建一个 google 表格文档,该文档使用 Sigma Aldrich 的产品编号并从产品中复制某些信息。当我尝试使用谷歌表格中的内置 importxml 工具时,我收到一条错误消息,上面写着“无法获取 URL”。 XPath 元素和 url 的示例是 =importxml("https://www.sigmaaldrich.com/catalog/product/aldrich/364525","/h1")。我还尝试了一个网络爬虫,如下所示:https://eikhart.com/blog/google-sheets-scraper 使用 Cheerio,但 sigmaaldrich.com 不起作用。

importfromweb 插件有效,但有每月限制。您能否就如何解决此问题提出任何建议?

【问题讨论】:

    标签: xml google-apps-script google-sheets import google-sheets-formula


    【解决方案1】:

    我认为这与谷歌的政治有关,以遵循该网站对网络抓取的指示。

    它会查看目标站点是否允许抓取其页面,因此它会检查站点的 robots.txt (documentation about robots.txt) 页面以查看它可以抓取和不可以抓取的内容。

    如果你自己检查robots.txt file of the site,它不允许搜索引擎访问很多文件夹,所以即使里面没有/catalog/product,它可能在其中一个上有指示它不允许网页抓取的页面。

    您可以寻找一个为您完成这项工作的抓取工具,或者您可以自己构建,但是,我认为使用 google 表格您不会走得太远,尝试从您的目标网站获取信息.

    解决方案

    • 如果你懂一点python,找beautiful soup或者selenium搭建一个网络爬虫

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2023-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-05-18
    • 1970-01-01
    相关资源
    最近更新 更多