【发布时间】:2016-11-30 00:37:22
【问题描述】:
我有一个html字符串(temp)如下
" <span id=\"MainContent_lblGenAssessment\">$138,110</span></dd>"
我想使用 gsub 只返回 $138,110,不带引号或空格。
到目前为止我已经完成了
gsub("<.*?>", "", z[temp[3]])
但这只会返回
" $138,110"
【问题讨论】:
-
使用
trimws()删除字符串trimws(gsub("<.*?>", "", z[temp[3]]))开头或结尾的所有空格 -
您应该放弃不带引号交付的请求,因为结果中没有引号字符。这些引号仅供参考,可以通过使用
cat或使用quotes=FALSE打印来避免。查找trim函数以进行后处理或更好地使用“^.+<.>| 之类的模式.+$" 将删除前导和尾随的垃圾。 -
如果您期望 HTML 比这稍微复杂一些,那么您应该考虑使用 XML 解析器。
标签: r regex web-scraping