如何从 BGG 中提取“发布者”数据 - Importxml - google sheet答案

【问题标题】：How to pull "publisher" data from BGG - Importxml - google sheets如何从 BGG 中提取“发布者”数据 - Importxml - google sheet
【发布时间】：2017-06-22 18:47:00
【问题描述】：

我正在尝试从游戏列表中提取发行商信息，但是我被拉断了。

我看到的关于 importXML 的教程或示例都处理相对简单的拉取操作，这些拉取操作看起来不像是隐藏在网页上的 XML 代码中，当我尝试遵循它们或使它们适应我的情况时，我会得到#NA 解析错误或无内容错误。

例如，我试图从 URL 中提取； https://boardgamegeek.com/boardgame/168435/between-two-cities 我特别需要该页面上列出的出版商

我的导入尝试包括这个；

=IMPORTXML(D2, "//span[4][ng-repeat=]/a/@title=")

以及该 xquery 的大量其他变体。

非常欢迎任何指导或区别。

【问题讨论】：

标签： xml xpath web-scraping google-sheets

【解决方案1】：

找到了，

必须使用 https://www.boardgamegeek.com/xmlapi/boardgame/ 作为源 URL。

特别是对于我发布的 URL，答案是； https://www.boardgamegeek.com/xmlapi/boardgame/168435

importxml 的语法是； =IMPORTXML(A18, "//boardgames/boardgame/boardgamepublisher") 其中A18为上述网址

【讨论】：