【问题标题】:What's the first element in my trigrams?我的三元组中的第一个元素是什么?
【发布时间】:2015-10-08 00:24:37
【问题描述】:

使用来自RWeka 类的三元标记器

> TriGramTokenizer <- function(x){NGramTokenizer(x, Weka_control(min=3, max=3))}

我标记了一个语料库。检查显示三元组如下所示:

> inspect(tdm_trigram[1:10, 1:3])
A term-document matrix (10 terms, 3 documents)

Non-/sparse entries: 10/20
Sparsity           : 67%
Maximal term length: 17 
Weighting          : term frequency (tf)

                           Docs
Terms                       en_US.blogs.capped.txt en_US.news.capped.txt
  \u0097 age believe                             0                     1
  \u0095 all tradeable                           0                     1
  \u0093 amazing feat\u0094                      0                     1
  \u0097 appear poised                           0                     1
  \u0096 areas muslim                            0                     1

\u0097 是什么?我使用tm 库中的常用方法(stripWhitespace、删除标点符号等)对我的语料库进行了预处理。

我是否应该使用不同的编码来阅读?

【问题讨论】:

    标签: r tokenize text-mining tm


    【解决方案1】:

    这些是 Unicode control characters 您已解释为文字。

    在旧版本的 Unicode 中

    • U+0097 是保护区域的结束
    • U+0095 正在等待消息
    • U+0093 已设置发送状态
    • U+0096 是保护区域的开始

    你可能想在你的 trigrams 之前去掉它们

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2022-01-13
      • 2022-12-07
      • 2018-06-12
      • 2011-06-18
      • 2021-03-11
      • 2018-10-17
      • 1970-01-01
      相关资源
      最近更新 更多