【问题标题】:Regexextract of importdata from website GoogleSheets从网站谷歌表格导入数据的正则提取
【发布时间】:2019-03-10 17:19:02
【问题描述】:

目的是从webpage中提取titletags

我正在使用importdata,我希望将结果全部放在 1 行中。像这样:

[webpage] [title] [1st tag] [2nd tag] [3 rd tag] [4th tag] ... [last tag]

我卡在了一半my process in googlesheet

  • 第一个标签Extracted - 我已经从 大数据。

    =query({array_constrain(IMPORTDATA(A1),6375,10)},"WHERE (Col1 CONTAINS 'btn btn-secondary' AND Col1 CONTAINS 'href') or (Col1 CONTAINS 'meta property' AND Col1 CONTAINS 'og:title')")
  • 第二个标签with REGEXEXTRACT - 提取了我需要的文本,但仅适用于第一行(仅提取了tagstitle 仍然不存在,因为它分布在几列...)

    =REGEXEXTRACT(query({array_constrain(IMPORTDATA(A1),6375,10)},"WHERE (Col1 CONTAINS 'btn btn-secondary' AND Col1 CONTAINS 'href')"),"\>(.+) \

我不知道如何更进一步:(感谢任何帮助!

【问题讨论】:

  • 您好,公式在my process in spreadsheet 中,我也将它们复制到问题中。

标签: regex google-sheets google-sheets-importxml


【解决方案1】:
=ARRAYFORMULA({REGEXREPLACE(TEXTJOIN(", ",1,
 QUERY(ARRAY_CONSTRAIN(SUBSTITUTE(IMPORTDATA(A2),"""",""),1000,15),
 "where Col1 contains '<meta property=og:title content='")),
 "<meta property=og:title content=| />",""),
 TRANSPOSE(REGEXEXTRACT(QUERY(TRANSPOSE(QUERY(TRANSPOSE(
 ARRAY_CONSTRAIN(SUBSTITUTE(IMPORTDATA(A2),"""",""),8000,3)),,50000)),
 "where Col1 contains '<a class=btn btn-secondary'"),"\>(.*)+\<"))})

demo spreadsheet

【讨论】:

  • 您好! 1)query 之后,标题2) 缺少[Disney Svg Bundle] 和[Monogram" />] 不适用于此link(这是也是 Etsy 产品链接)@player0
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多