【发布时间】:2025-12-26 13:30:07
【问题描述】:
当前的实现涉及对大型输入事务文件进行采样,然后最终将“FP 增长算法”应用于该采样数据以进行数据挖掘。但是,它有其局限性,我想在更大范围内实现它。 事务文件根据以下采样方法(基于用户响应)进行采样:
- 随机抽样
- 系统抽样
- 分层抽样
- 聚类抽样
- 从采样交易 (FAST) 算法中查找关联。
目标是在 Hadoop 中实现它以进行并行处理并支持大型输入数据文件。任何指针如何在 Hadoop 或任何其他开源分布式处理框架中实现这一点?
【问题讨论】:
标签: java algorithm hadoop data-mining sampling