为 k-means 聚类准备点击流答案

【问题标题】：prepare clickstream for k-means clustering为 k-means 聚类准备点击流
【发布时间】：2018-06-03 08:38:43
【问题描述】：

我是机器学习算法的新手，我正在尝试根据新闻网站的用户点击流进行用户细分。我已经准备好点击流，以便我知道哪个用户 ID 阅读了哪个新闻类别以及阅读了多少次。

所以我的桌子看起来像这样：

-------------------------------------------------------
| UserID | Category 1 | Category 2 | ... | Category 20
-------------------------------------------------------
| 123    | 4          | 0          | ... | 2
-------------------------------------------------------
| 124    | 0          | 10         | ... | 12
-------------------------------------------------------

我想知道 k-means 是否适用于这么多类别？阅读文章使用百分比而不是整数会更好吗？所以例如user123 总共阅读了 6 篇文章 - 6 篇文章中有 4 篇属于第 1 类，因此其对第 1 类的兴趣为 66.6%。

另一个想法是选择每个用户的 3 个最常阅读的类别并将表格转换为这样的内容，其中 Interest 1 : 12 表示用户对类别 12 最感兴趣

-------------------------------------------------------
| UserID | Interest 1 | Interest 2 | Interest 3
-------------------------------------------------------
| 123    | 1          | 12          | 7
-------------------------------------------------------
| 124    | 12          | 13         | 20
-------------------------------------------------------

【问题讨论】：

所以要明确一点，你想制作一个 20 维的向量，然后将它们聚类？ 20 维根本不是很大，在笔记本电脑上非常可行（假设用户数量不是很大）。

标签： machine-learning cluster-analysis data-mining k-means

【解决方案1】：

K-means 不能很好地工作主要有两个原因：

适用于连续、密集的数据。您的数据是离散的。
它对异常值不鲁棒，你可能有很多嘈杂的数据

【讨论】：

【解决方案2】：

嗯，用户数量没有定义，因为它是一种理论方法，但因为它是一个新闻网站，所以我们假设有数百万用户......

是否有另一种更好的算法来根据用户的类别兴趣对用户组进行聚类？当我准备第一个表的数据以便我对每个类别的一个用户感兴趣时 - 数据将是连续的而不是离散的 - 或者我错了吗？

【讨论】：

也许 Stephen Boyd 的book 的第 4 章会很有用。第 4.4.2 节符合您的要求（与第 4.5 节一样）
那本书是否聚集了具有近 4500 个特征的 500 个样本？考虑到维度的诅咒，这种方法是否谨慎？