【发布时间】:2021-07-31 03:46:52
【问题描述】:
我还是集群新手。我使用 tweepy 提取了一个包含许多行的 twitter 数据集:
样本数据:
| tweet | ID | date |
|---|---|---|
| NSW Demons - Watch Melbourne v Sydney tonight | 1387339243786182657 | 2021-05-08 05:55:30 |
| Brown in and Harmes returns, Melb v Rich match | 1387332484715581440 | 2021-05-08 05:40:45 |
| Kick-off is at 7:10 PM from the Docklands. | 1385474911448096770 | 2021-05-08 05:35:21 |
| "RT @melbournefc: Kicking with Choco. | 1385474643541127168 | 2021-05-08 05:30:15 |
如何应用聚类算法根据日期和时间查找聚类。这样我就可以每小时检索一次推文/转推活动并生成一个模式。
例如:
如果用户在凌晨 1 点至凌晨 2 点之间发布推文/转发,则推文/转发是集群 1 的一部分
如果用户在凌晨 2 点至凌晨 3 点之间发推/转推,则推特/转推是集群 2 的一部分,依此类推。
【问题讨论】:
标签: python machine-learning cluster-analysis data-analysis unsupervised-learning