【发布时间】:2021-04-29 12:35:18
【问题描述】:
我正在尝试从网站中提取特定信息,但该内容似乎包含在类定义中:
<div class= "some_div_class">
<strong content="999" itemprop="price" class="strong_class">
999
</strong>
</div>
我的目标是“999”,如果我这样做,我可以:
curl -s url |grep -zPo '<strong content="999" itemprop="price" class="strong_class">\s*\K.*?(?=\s*</strong>)'
如果“999”在内容中,并且它发生了变化,grep 将变得无效。通配符不会返回任何内容
【问题讨论】:
-
你能使用像 xmllint 这样的命令行解析器吗? xmlsoft.org/xmllint.html
标签: html web curl web-scraping grep