【问题标题】:nltk pos tag expletivesnltk pos标签脏话
【发布时间】:2012-11-26 10:46:06
【问题描述】:

有没有办法使用 NLTK 显示给定文本中的填充词? 如果没有,有人知道我在哪里可以得到一个带有英文填充词的 wordlist 吗? 谢谢

已解决: 从 nltk.corpus 导入停用词

【问题讨论】:

    标签: python tags nltk part-of-speech


    【解决方案1】:

    NLTK 本身并没有提供这样的列表,尽管很多都可以在 Web 的其他地方找到。

    存在相当多的来源:网络搜索带有“profanity“badwords.txt”blacklists.txt 的单词列表会产生许多来源。

    就我们公司而言,我们最终创建了自己的列表并根据需要添加到其中。根据您的受众,必须对列表进行调整和调整。

    最后,尽管 SO question 已关闭(以及关于 php),但我发现参考资料和讨论非常有用。

    更新:您需要的是停用词列表。

    1. 试试看:http://www.ranks.nl/resources/stopwords.html
    2. MIT also maintains a list 的停用词。

    希望对您有所帮助。

    【讨论】:

    • 显然脏话这个词也代表坏词,我的意思不是坏词而是填充词,有没有办法获得这样的列表?还是 NLTK 提供它?
    • 根据您的说明更新了我的答案
    猜你喜欢
    • 1970-01-01
    • 2016-07-02
    • 2017-06-21
    • 2018-12-01
    • 1970-01-01
    • 1970-01-01
    • 2015-03-25
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多