【发布时间】:2016-08-25 02:20:09
【问题描述】:
我刚刚开始深入研究机器学习,特别是聚类。 (我正在使用 Python,但这无关紧要) 我的目标是,从一组关于时尚界的推文 (100K) 开始,对他们的文本执行 KMeans。
到目前为止,我已经过滤了文本、截断停用词、无用的术语、标点符号;完成词形还原(利用词性标记以获得更好的结果)。
我向用户展示最常用的术语、主题标签、二元组、三元组、..9 元组,以便他可以改进预处理,将单词添加到无用的术语中。
我最初的想法是使用前 n(1K) 个术语作为特征, 创建 foreach 推文一个固定大小 n(1K) 的向量 如果(此单元格的)最上面的术语出现在此推文中,则将单元格设置为一个值(可能使用 TFIDF 计算单元格的值)。
我是否遗漏了什么(将考虑 0 值)?我可以以某种方式利用 n-gram 吗?
这个scikit article 很笼统,我不明白整个事情。
(LSA降维有用还是手动减少特征数量(所以向量维度)更好?)
【问题讨论】:
标签: machine-learning scikit-learn data-mining k-means feature-extraction