在R中提取字符串的某些部分答案

【问题标题】：Extracting certain part of string in R在R中提取字符串的某些部分
【发布时间】：2022-11-13 21:41:59
【问题描述】：

我在用 R 语言提取字符串的某些部分时遇到问题。

我有一个带有标签的大文本，例如

句子标签<s n="1"> </s>
字型标签<w type="NN"> </w>
字符类型标签<c type="pct"> </c> ETC
这是我的文本中的句子示例： <s n="1"><w type="PPS">I</w><w type="VBN">came</w><w type="NN">home</w><c type="pct">.</c></s>

我需要提取： “我回家了” ”。”

我该怎么做？

我尝试使用 gsub、substr、grep，但甚至可以稍微接近我需要制作的字符串。

我想我需要删除所有部分以。。开始：
```
<w type=

<c type=
```
并以：
```
</w>

</c>
```
但我不知道如何处理它......

【问题讨论】：

【解决方案1】：

这是一个选项。提取“>”和“<”之间的所有文本

text <- "<s n='1'><w type='PPS'>I</w><w type='VBN'>came</w><w type='NN'>home</w><c type='pct'>.</c></s>"

stringr::str_extract_all(text, "(?<=\>)\w+|\.(?=\<)")[[1]]
#> [1] "I"    "came" "home" "."

【讨论】：