【问题标题】:How can I remove Punctuation in a Wordcloud?如何删除 Wordcloud 中的标点符号?
【发布时间】:2021-06-04 11:59:22
【问题描述】:

我们尝试做一个 wordcloud,但是我们已经删除了标点符号,但 wordcloud 中仍然有一个逗号。

我们使用了以下代码:

text1+=i + ' '

wc = WordCloud(width = 800, height = 800,background_color="white",min_font_size = 10,\
repeat=True,)
wc.generate(text1)
plt.figure(figsize = (8, 8), facecolor = None)
plt.axis("off")
plt.imshow(wc, interpolation="bilinear")
plt.title('Sentiment Reviews English',fontsize=32); 

【问题讨论】:

  • 不知道文本是如何被预处理的,很有可能不是所有的标点都被删除了,而不是 WordCloud 引入了新的标点,所以如果你能提供你用来删除标点的代码,那将非常有帮助。此外(如果可能的话),您获得的当前输出也将有助于回答您的问题。
  • 我们需要查看您的输入text1。否则这个问题是不可重现的minimal reproducible example。此外,您还可以显示输出图(或它的底层字符串)。

标签: python sentiment-analysis word-cloud


【解决方案1】:

NLTK 对于通过删除标点符号或停用词(您可能会对您的词云感兴趣)来处理文本非常有用。

from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer(r'\w+')
tokenizer.tokenize('Sentiment . Reviews, English!')
#['Sentiment', 'Reviews', 'English']

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-06-19
    • 1970-01-01
    • 1970-01-01
    • 2012-06-25
    • 1970-01-01
    相关资源
    最近更新 更多