【发布时间】:2023-09-28 13:40:01
【问题描述】:
我希望从在线留言板上抓取一些信息。 目前我正在使用:
html_nodes(conv,'.talk-post.message') %>%
html_text(trim = TRUE)
消息:
我现在回来了,正在慢慢恢复速度。
这给出: "\n我现在回来了,正在慢慢恢复速度。\n"
效果很好,但会删除所有 html 格式。我想保留文本有斜体标签的指示(类似下划线和粗体)。
我很感激我可以使用 toString.XMLNode 代替,但这样会保留所有 html 标签,而不仅仅是必需的三个标签。
"{xml_nodeset (1)}\n[1] <div class=\"talk-post message\">\\n<p><i>I'm back now and slowly getting back to speed.</i><br>
有没有更优雅的解决方案?
【问题讨论】: