【发布时间】:2022-11-13 21:41:59
【问题描述】:
我在用 R 语言提取字符串的某些部分时遇到问题。
我有一个带有标签的大文本,例如
- 句子标签
<s n="1"> </s> - 字型标签
<w type="NN"> </w> - 字符类型标签
<c type="pct"> </c>ETC这是我的文本中的句子示例:
<s n="1"><w type="PPS">I</w><w type="VBN">came</w><w type="NN">home</w><c type="pct">.</c></s>我需要提取: “我回家了” ”。”
我该怎么做?
我尝试使用 gsub、substr、grep,但甚至可以稍微接近我需要制作的字符串。
我想我需要删除所有部分 以。。开始:
<w type= <c type=并以:
</w> </c>但我不知道如何处理它......
【问题讨论】:
标签: r string text-extraction tagging