【发布时间】:2014-07-30 00:38:24
【问题描述】:
我正在撰写博客以分析其内容。我正在使用基本的英语停用词列表,但这还不够,因为博客特定的频繁但无用的词,如“存档”、“评论”等。您知道针对博客的预先创建的停用词列表吗?
【问题讨论】:
标签: nlp web-crawler stop-words
我正在撰写博客以分析其内容。我正在使用基本的英语停用词列表,但这还不够,因为博客特定的频繁但无用的词,如“存档”、“评论”等。您知道针对博客的预先创建的停用词列表吗?
【问题讨论】:
标签: nlp web-crawler stop-words
我找不到任何此类资源。最好的方法是从文档集合中计算最常见的词(比如 1000 个)并将其中的一个子集(比如 200 个)设置为停用词。您还可以更改此截止参数(例如 100 或 300 而不是 200)以查看对检索性能的影响。
【讨论】: