【问题标题】:ImportXML parse error - Wikipedia scraping with excel sheetImportXML 解析错误 - 使用 excel 表抓取维基百科
【发布时间】:2019-11-10 12:56:26
【问题描述】:

我正在尝试使用 ImportXML 公式从 Wikipedia 网站将少量数据抓取到 Excel 表中。

我复制的 XPath 代码是从浏览器中获取的。

这里是维基百科页面。 https://en.wikipedia.org/wiki/Chicago

抓取页面上存在的纬度和经度。

截图:

这是我从浏览器 XPath 选择器获得的代码。

//*[@id="mw-content-text"]/div/table[1]/tbody/tr[11]/td/span[1]/span/a/span[1]/span/span[1]

你能帮我写代码并帮助我哪里做错了吗?

【问题讨论】:

    标签: xpath web-scraping google-sheets google-sheets-formula google-sheets-importxml


    【解决方案1】:

    尝试:

    =INDEX(IMPORTXML("https://en.wikipedia.org/wiki/Chicago", "//span[@class='geo-dms']"), 1)
    

    【讨论】:

    • 嘿,伙计,一点帮助..你能帮我提取锚链接的代码吗?我确实很累将代码更改为超链接类,它返回空。这是我尝试过的代码。 =INDEX(IMPORTXML("en.wikipedia.org/wiki/Chicago", "//span[@class='external text']"), 1) 谢谢
    • 试试:="https:"&QUERY(IMPORTXML("https://en.wikipedia.org/wiki/Chicago", "//a/@href"), "where Col1 contains 'geohack' limit 1")
    • 刚刚尝试了脚本,从 excel 表发送的太多请求用于维基百科抓取正在减慢进程。你能帮我得到一个 Xpath 代码,这样我就可以刮像尖叫青蛙这样的工具来更快地刮它吗?感谢帮助伙伴:)
    • 试试这是否会更快:="https:"&QUERY(ARRAY_CONSTRAIN(IMPORTXML("https://en.wikipedia.org/wiki/Chicago", "//a/@href"), 40, 1), "where Col1 contains 'geohack' limit 1")
    • 我刚在一张新纸上试了一下,它比以前的要慢。等待 1 分钟后它仍在加载。
    猜你喜欢
    • 2020-07-08
    • 2019-05-24
    • 1970-01-01
    • 1970-01-01
    • 2013-11-13
    • 2017-04-30
    • 2020-07-16
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多