使用 clojure 进行大规模数据挖掘答案

【问题标题】：large scale data mining with clojure使用 clojure 进行大规模数据挖掘
【发布时间】：2012-06-21 15:08:45
【问题描述】：

我正在寻找一个很好的参考

使用 Clojure 进行大规模数据挖掘

我知道许多优秀的 clojure 编程书籍（Programming Clojure、Joy of Clojure……），以及许多优秀的数据挖掘教科书（挖掘海量数据集、管理千兆字节……）。但是我不知道有任何专门针对的参考文献

使用 Clojure 进行大规模数据挖掘

“with clojure”部分对我来说相当重要，原因如下：

* most theoretical analysis uses big-Oh running time, which ignores constants
* constants matter, if it ends up being a matter of 1 second vs 1 hour (for things that need to be real time)
* or 1 hour vs 1 week (for batch jobs)

特别是，我认为 JVM、Clojure 数据结构之间存在很多相互作用，无论数据是存储在内存中还是从磁盘中懒惰地读取——这可以让“相同”的算法在运行时间上“略有不同” " 不同的实现。

因此，我的问题（以上所有内容都是为了避免被“Check Google”关闭）：

关于使用 Clojure 进行海量数据挖掘的好资源是什么？

谢谢！

【问题讨论】：

很多这样的固定成本实际上来自虚拟机。特别是，在数据挖掘中包装原始对象的成本很高，这就是为什么 Java 在那里总是相当慢的原因。我怀疑 Clojure 会在这方面有多大帮助。事实上，Clojure 引以为豪的许多事情听起来与这个问题完全一样。例如不变性。在挖掘大数据时，您希望避免副本，而不变性和漂亮的接口通常需要副本！我会试试 Vala。
Clojure 的数据结构是不可变的，但不需要复制现有数据。查看“Clojure 持久数据结构”。

标签： clojure data-mining

【解决方案1】：

2013 年 5 月出版了一本很棒的书：Clojure Data Analysis Cookbook。我可能会买它。

http://www.amazon.co.uk/Clojure-Data-Analysis-Cookbook-ebook/dp/B00BECVV9C/ref=sr_1_1?s=books&ie=UTF8&qid=1360697819&sr=1-1

详细说明

数据无处不在，获取数据变得越来越重要我们可以采取行动的见解。使用 Clojure 进行数据分析和收藏，本书将向您展示如何获得新的见解和来自您的数据的观点与实用的基本集合，结构化食谱。

“Clojure 数据分析食谱”介绍了每个阶段的食谱的数据分析过程。无论是从网页上抓取数据，执行数据挖掘，或为网络创建图表，这本书有为手头的任务准备的东西。

您将学习如何获取数据、清理数据并将其转换为有用的图表，然后可以分析并发布到互联网。覆盖范围包括处理数据等高级主题同时，应用强大的统计技术，如贝叶斯建模，甚至数据挖掘算法，如 K-means 聚类，神经网络和关联规则。

方法

充满实用技巧的“Clojure 数据分析食谱”将为您提供帮助您通过一系列逐步、真实的步骤充分利用您的数据涵盖数据分析各个方面的世界食谱。

这本书适合谁

以前使用 Clojure 和数据分析技术的经验和工作流程将是有益的，但不是必不可少的。

【讨论】：

released。更多信息github repo。

【解决方案2】：

我认为还没有人写出好的综合参考资料。但在这个领域肯定有很多工作正在进行（包括我自己的公司！）

一些有趣的后续链接：

Storm - 使用 Clojure 的分布式实时计算。可用于大规模数据挖掘。
http://www.infoq.com/presentations/Why-Prismatic-Goes-Faster-With-Clojure - 关于 Clojure 性能和机器学习应用优化的有趣视频
Incanter - 可能是领先的 Clojure 统计和数据可视化库
Weka - 非常全面的 Java 数据挖掘/机器学习库（因此非常容易直接从 Clojure 中使用）

【讨论】：

你的公司是什么？您的个人资料似乎链接到一个包含在线游戏的网站。