【发布时间】:2012-06-21 15:08:45
【问题描述】:
我正在寻找一个很好的参考
使用 Clojure 进行大规模数据挖掘
我知道许多优秀的 clojure 编程书籍(Programming Clojure、Joy of Clojure……),以及许多优秀的数据挖掘教科书(挖掘海量数据集、管理千兆字节……)。但是我不知道有任何专门针对的参考文献
使用 Clojure 进行大规模数据挖掘
“with clojure”部分对我来说相当重要,原因如下:
* most theoretical analysis uses big-Oh running time, which ignores constants
* constants matter, if it ends up being a matter of 1 second vs 1 hour (for things that need to be real time)
* or 1 hour vs 1 week (for batch jobs)
特别是,我认为 JVM、Clojure 数据结构之间存在很多相互作用,无论数据是存储在内存中还是从磁盘中懒惰地读取——这可以让“相同”的算法在运行时间上“略有不同” " 不同的实现。
因此,我的问题(以上所有内容都是为了避免被“Check Google”关闭):
关于使用 Clojure 进行海量数据挖掘的好资源是什么?
谢谢!
【问题讨论】:
-
很多这样的固定成本实际上来自虚拟机。特别是,在数据挖掘中包装原始对象的成本很高,这就是为什么 Java 在那里总是相当慢的原因。我怀疑 Clojure 会在这方面有多大帮助。事实上,Clojure 引以为豪的许多事情听起来与这个问题完全一样。例如不变性。在挖掘大数据时,您希望避免副本,而不变性和漂亮的接口通常需要副本!我会试试 Vala。
-
Clojure 的数据结构是不可变的,但不需要复制现有数据。查看“Clojure 持久数据结构”。
标签: clojure data-mining