【问题标题】:Plotting words in text clustering using python使用python在文本聚类中绘制单词
【发布时间】:2019-08-12 15:40:05
【问题描述】:

我的聚类结果如下图所示。

是否有任何类似于 fvid_clusters 的库可以生成如下所示的图? (使用 Python)

【问题讨论】:

  • 你试过matplotlib了吗
  • 您使用哪个矢量化器将单词转换为矢量?
  • @mujjiga 我使用 TfidfVectorizer
  • @TuckYew 你有没有办法像上面那样创建图表?
  • 问题解决了吗? @Rehan

标签: python cluster-analysis unsupervised-learning


【解决方案1】:
  • 第 1 步:将单词向量化为向量(每个向量的大小为 n)
  • 第 2 步:使用 kmean 将它们聚类到 k 个集群中
  • 第 3 步:对第 1 步中生成的向量运行 PCA,并将它们减少到 2 维(例如 x、y)
  • 第 4 步:在 (x, y) 位置绘制单词,其中 (x,y) 是 PCA 从其大小为 n 的全尺寸向量减少的维度。将与步骤 2 中识别的聚类对应的单词着色(每个聚类使用一种颜色)。

【讨论】:

    【解决方案2】:

    绘图与您展示的不完全一样,但我喜欢使用两个工具来探索文本聚类的结果(两者都有 Python 绑定)。

    白蚁http://vis.stanford.edu/papers/termite

    UMAPhttps://umap-learn.readthedocs.io/en/latest/

    这是使用 NMF(来自我的论文)使用 BBC Sports dataset 执行的主题建模的结果。

    【讨论】:

    • 可以分享一下代码吗?提前谢谢你。
    猜你喜欢
    • 2021-05-27
    • 2017-11-19
    • 2013-05-17
    • 2017-06-16
    • 1970-01-01
    • 2019-10-29
    • 2016-02-16
    • 2011-01-28
    • 1970-01-01
    相关资源
    最近更新 更多