【问题标题】:Extracting certain part of string in R在R中提取字符串的某些部分
【发布时间】:2022-11-13 21:41:59
【问题描述】:

我在用 R 语言提取字符串的某些部分时遇到问题。

我有一个带有标签的大文本,例如

  1. 句子标签<s n="1"> </s>
  2. 字型标签<w type="NN"> </w>
  3. 字符类型标签<c type="pct"> </c> ETC

    这是我的文本中的句子示例: <s n="1"><w type="PPS">I</w><w type="VBN">came</w><w type="NN">home</w><c type="pct">.</c></s>

    我需要提取: “我回家了” ”。”

    我该怎么做?

    我尝试使用 gsub、substr、grep,但甚至可以稍微接近我需要制作的字符串。

    我想我需要删除所有部分 以。。开始:

    <w type=
    
    <c type=
    

    并以:

    </w>
    
    </c>
    

    但我不知道如何处理它......

【问题讨论】:

    标签: r string text-extraction tagging


    【解决方案1】:

    这是一个选项。提取“>”和“<”之间的所有文本

    text <- "<s n='1'><w type='PPS'>I</w><w type='VBN'>came</w><w type='NN'>home</w><c type='pct'>.</c></s>"
    
    stringr::str_extract_all(text, "(?<=\>)\w+|\.(?=\<)")[[1]]
    #> [1] "I"    "came" "home" "."
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-02-17
      • 2015-09-19
      • 2021-05-20
      • 1970-01-01
      • 1970-01-01
      • 2012-04-01
      相关资源
      最近更新 更多