【问题标题】:large scale data mining with clojure使用 clojure 进行大规模数据挖掘
【发布时间】:2012-06-21 15:08:45
【问题描述】:

我正在寻找一个很好的参考

使用 Clojure 进行大规模数据挖掘

我知道许多优秀的 clojure 编程书籍(Programming Clojure、Joy of Clojure……),以及许多优秀的数据挖掘教科书(挖掘海量数据集、管理千兆字节……)。但是我不知道有任何专门针对的参考文献

使用 Clojure 进行大规模数据挖掘

“with clojure”部分对我来说相当重要,原因如下:

* most theoretical analysis uses big-Oh running time, which ignores constants
* constants matter, if it ends up being a matter of 1 second vs 1 hour (for things that need to be real time)
* or 1 hour vs 1 week (for batch jobs)

特别是,我认为 JVM、Clojure 数据结构之间存在很多相互作用,无论数据是存储在内存中还是从磁盘中懒惰地读取——这可以让“相同”的算法在运行时间上“略有不同” " 不同的实现。

因此,我的问题(以上所有内容都是为了避免被“Check Google”关闭):

关于使用 Clojure 进行海量数据挖掘的好资源是什么?

谢谢!

【问题讨论】:

  • 很多这样的固定成本实际上来自虚拟机。特别是,在数据挖掘中包装原始对象的成本很高,这就是为什么 Java 在那里总是相当慢的原因。我怀疑 Clojure 会在这方面有多大帮助。事实上,Clojure 引以为豪的许多事情听起来与这个问题完全一样。例如不变性。在挖掘大数据时,您希望避免副本,而不变性和漂亮的接口通常需要副本!我会试试 Vala。
  • Clojure 的数据结构是不可变的,但不需要复制现有数据。查看“Clojure 持久数据结构”。

标签: clojure data-mining


【解决方案1】:

2013 年 5 月出版了一本很棒的书:Clojure Data Analysis Cookbook。我可能会买它。

http://www.amazon.co.uk/Clojure-Data-Analysis-Cookbook-ebook/dp/B00BECVV9C/ref=sr_1_1?s=books&ie=UTF8&qid=1360697819&sr=1-1

详细说明

数据无处不在,获取数据变得越来越重要 我们可以采取行动的见解。使用 Clojure 进行数据分析和 收藏,本书将向您展示如何获得新的见解和 来自您的数据的观点与实用的基本集合, 结构化食谱。

“Clojure 数据分析食谱”介绍了每个阶段的食谱 的数据分析过程。无论是从网页上抓取数据, 执行数据挖掘,或为网络创建图表,这本书有 为手头的任务准备的东西。

您将学习如何获取数据、清理数据并将其转换为 有用的图表,然后可以分析并发布到 互联网。覆盖范围包括处理数据等高级主题 同时,应用强大的统计技术,如贝叶斯 建模,甚至数据挖掘算法,如 K-means 聚类, 神经网络和关联规则。

方法

充满实用技巧的“Clojure 数据分析食谱”将为您提供帮助 您通过一系列逐步、真实的步骤充分利用您的数据 涵盖数据分析各个方面的世界食谱。

这本书适合谁

以前使用 Clojure 和数据分析技术的经验和 工作流程将是有益的,但不是必不可少的。

【讨论】:

【解决方案2】:

我认为还没有人写出好的综合参考资料。但在这个领域肯定有很多工作正在进行(包括我自己的公司!)

一些有趣的后续链接:

【讨论】:

  • 你的公司是什么?您的个人资料似乎链接到一个包含在线游戏的网站。
猜你喜欢
  • 2015-05-15
  • 1970-01-01
  • 2018-10-23
  • 2015-02-13
  • 2011-02-07
  • 2016-06-26
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多