【发布时间】:2023-03-23 18:25:02
【问题描述】:
我一直在使用Ruby Classifier library 到classify privacy policies。我得出的结论是,这个库中内置的简单的词袋方法是不够的。为了提高分类准确度,除了单个单词之外,我还想在 n-gram 上训练分类器。
我想知道是否有一个库用于预处理文档以获取相关的 n-gram(并正确处理标点符号)。一种想法是我可以预处理文档并将伪 ngram 输入 Ruby 分类器,例如:
wordone_wordtwo_wordthree
或者也许有更好的方法可以做到这一点,例如从一开始就内置了基于 ngram 的朴素贝叶斯分类的库。如果他们完成工作,我愿意在这里使用 Ruby 以外的语言(如果需要,Python 似乎是一个很好的候选者)。
【问题讨论】:
标签: python ruby nlp machine-learning classification