【问题标题】:Is there any list of english stop words for blogs?有博客的英文停用词列表吗?
【发布时间】:2014-07-30 00:38:24
【问题描述】:

我正在撰写博客以分析其内容。我正在使用基本的英语停用词列表,但这还不够,因为博客特定的频繁但无用的词,如“存档”、“评论”等。您知道针对博客的预先创建的停用词列表吗?

【问题讨论】:

    标签: nlp web-crawler stop-words


    【解决方案1】:

    我找不到任何此类资源。最好的方法是从文档集合中计算最常见的词(比如 1000 个)并将其中的一个子集(比如 200 个)设置为停用词。您还可以更改此截止参数(例如 100 或 300 而不是 200)以查看对检索性能的影响。

    【讨论】:

    • 还可以考虑使用(例如)tf-idf 或 log entropy,因为一些常用词可能仍被认为对分析有用。
    猜你喜欢
    • 2018-12-19
    • 2010-11-16
    • 2015-07-09
    • 2013-07-13
    • 2011-06-30
    • 2018-05-23
    • 1970-01-01
    • 2015-10-21
    • 1970-01-01
    相关资源
    最近更新 更多