【发布时间】:2018-06-03 08:38:43
【问题描述】:
我是机器学习算法的新手,我正在尝试根据新闻网站的用户点击流进行用户细分。我已经准备好点击流,以便我知道哪个用户 ID 阅读了哪个新闻类别以及阅读了多少次。
所以我的桌子看起来像这样:
-------------------------------------------------------
| UserID | Category 1 | Category 2 | ... | Category 20
-------------------------------------------------------
| 123 | 4 | 0 | ... | 2
-------------------------------------------------------
| 124 | 0 | 10 | ... | 12
-------------------------------------------------------
我想知道 k-means 是否适用于这么多类别?阅读文章使用百分比而不是整数会更好吗? 所以例如user123 总共阅读了 6 篇文章 - 6 篇文章中有 4 篇属于第 1 类,因此其对第 1 类的兴趣为 66.6%。
另一个想法是选择每个用户的 3 个最常阅读的类别并将表格转换为这样的内容,其中 Interest 1 : 12 表示用户对类别 12 最感兴趣
-------------------------------------------------------
| UserID | Interest 1 | Interest 2 | Interest 3
-------------------------------------------------------
| 123 | 1 | 12 | 7
-------------------------------------------------------
| 124 | 12 | 13 | 20
-------------------------------------------------------
【问题讨论】:
-
所以要明确一点,你想制作一个 20 维的向量,然后将它们聚类? 20 维根本不是很大,在笔记本电脑上非常可行(假设用户数量不是很大)。
标签: machine-learning cluster-analysis data-mining k-means