【发布时间】:2018-11-08 12:30:25
【问题描述】:
我一直在尝试制定一种方法,使用 Google 表格返回网站上新闻文章的发布日期。有些页面并没有使这一点显而易见或根本没有提及发布日期,但在页面源中通常有一个节点,例如:
<meta content="2018-10-16T00:03:35+0100" itemprop="datePublished" />
所以我想出了一个这样的函数:
=ImportXml(A19, "//meta[@itemprop='datePublished']/@content")
对于单元格 A19 中的 URL,如果节点使用该语法,它将返回内容。
但是在其他页面上,情况并非如此 - 语法将是这样的,Google 表格会返回错误“导入的内容为空”:
<meta property ="article:published_time" content="2018-10-16T00:03:35+0100" />.
似乎源代码中的相关节点都包含“已发布”一词 - 有没有办法构建我的查询,以便它从包含“已发布”一词的任何节点返回内容?
非常感谢!
【问题讨论】:
标签: html xpath google-sheets