【问题标题】:prepare clickstream for k-means clustering为 k-means 聚类准备点击流
【发布时间】:2018-06-03 08:38:43
【问题描述】:

我是机器学习算法的新手,我正在尝试根据新闻网站的用户点击流进行用户细分。我已经准备好点击流,以便我知道哪个用户 ID 阅读了哪个新闻类别以及阅读了多少次。

所以我的桌子看起来像这样:

-------------------------------------------------------
| UserID | Category 1 | Category 2 | ... | Category 20
-------------------------------------------------------
| 123    | 4          | 0          | ... | 2
-------------------------------------------------------
| 124    | 0          | 10         | ... | 12
-------------------------------------------------------

我想知道 k-means 是否适用于这么多类别?阅读文章使用百分比而不是整数会更好吗? 所以例如user123 总共阅读了 6 篇文章 - 6 篇文章中有 4 篇属于第 1 类,因此其对第 1 类的兴趣为 66.6%。

另一个想法是选择每个用户的 3 个最常阅读的类别并将表格转换为这样的内容,其中 Interest 1 : 12 表示用户对类别 12 最感兴趣

-------------------------------------------------------
| UserID | Interest 1 | Interest 2 | Interest 3
-------------------------------------------------------
| 123    | 1          | 12          | 7
-------------------------------------------------------
| 124    | 12          | 13         | 20
-------------------------------------------------------

【问题讨论】:

  • 所以要明确一点,你想制作一个 20 维的向量,然后将它们聚类? 20 维根本不是很大,在笔记本电脑上非常可行(假设用户数量不是很大)。

标签: machine-learning cluster-analysis data-mining k-means


【解决方案1】:

K-means 不能很好地工作主要有两个原因:

  1. 适用于连续、密集的数据。您的数据是离散的。

  2. 它对异常值不鲁棒,你可能有很多嘈杂的数据

【讨论】:

    【解决方案2】:

    嗯,用户数量没有定义,因为它是一种理论方法,但因为它是一个新闻网站,所以我们假设有数百万用户......

    是否有另一种更好的算法来根据用户的类别兴趣对用户组进行聚类?当我准备第一个表的数据以便我对每个类别的一个用户感兴趣时 - 数据将是连续的而不是离散的 - 或者我错了吗?

    【讨论】:

    • 也许 Stephen Boyd 的book 的第 4 章会很有用。第 4.4.2 节符合您的要求(与第 4.5 节一样)
    • 那本书是否聚集了具有近 4500 个特征的 500 个样本?考虑到维度的诅咒,这种方法是否谨慎?
    猜你喜欢
    • 2015-04-11
    • 2017-12-08
    • 2014-03-05
    • 2011-08-13
    • 2013-08-08
    • 2013-02-14
    • 2018-01-14
    • 2011-04-11
    • 2016-12-16
    相关资源
    最近更新 更多