【问题标题】:Is my path of learning data mining correct我学习数据挖掘的道路是否正确
【发布时间】:2011-04-11 12:25:54
【问题描述】:

有人刚刚告诉我的老板,数据挖掘可以为公司做些什么,比如推荐、预测建模。基本上我们是一家网站公司。我要请假6个月。 所以我的老板说我可以学习一些 DM 技术,这样当我回来时,我们可以访问小商店或小公司,使用数据挖掘算法为他们提供预测数据。

商店将只为客户提供 sql 文件或 csv 文件或更多。

现在我只知道MYSQL,不知道什么是数据挖掘,不知道它是否像我上面想的那样工作,我的意思是,如果有人有客户数据库,购物,我可以应用数据挖掘技术。我是说

(raw mysql or sql data) or (csv files) ----data mining--> (some useful result)
  • 1) 上面的系统是对还是我错了
  • 2) 商店或企业是否愿意拥有它,或者我错过了什么

我的学习计划如下。我正在考虑首先获得一些 sql server 2008 证书,因为在我所在的地区大多数人都在使用微软,所以我可能需要了解 sql

1)MCTS: SQL Server 2008, Implementation and Maintenance
2)MCTS: SQL Server 2008, Database Development
3)MCTS: SQL Server 2008, Business Intelligence Development and Maintenance

(或者我应该去oracle和oracle数据仓库...我想先正确地做一些数据库)

4)Data Mining with Microsoft SQL Server 2008 (2009)     
5)Python for dummies    
6)Programming Collective Intelligence: Building Smart Web 2.0 Applications

我的流程是否正确,或者我能否以更好的方式实现我的结果。 我做 cert 的原因是对 sql 有一些了解,如果我在 6 个月后没有得到那份工作,我可以进入与数据挖掘或 BI 或至少 sql server 相关的新工作。

请帮帮我

【问题讨论】:

    标签: sql data-mining business-intelligence


    【解决方案1】:

    好的,这不是一个简单的“是/否”答案。 你正在做一些正确的事情。通过这种方式,您将了解 SQL Server 数据挖掘工具集。你会明白在哪里使用哪个算法。 (Naive Byes 将如何。与决策树..等不同)

    一旦您了解了这些内容,第二件事就是了解您的数据以及如何制作将用作输入的 FLAT 表。这是最重要的,因为这是您将用来训练模型的数据。你不需要知道 ANN 算法背后的内部数学等等。你应该知道如何使用它。有一些用于 excel(2007 年以后)的数据挖掘插件,您可以使用它们来玩玩。

    Rafal Luckawiski 在http://channel9.msdn.com 上有一些数据挖掘视频。它们很适合提供一些关于如何开始的想法。

    在此之后,这是一个练习问题,您使用新数据、制作新模型和分析结果的次数越多,您就会变得越好。

    如果您需要有关 PPT、示例等的更多信息,请告诉我

    【讨论】:

    • 感谢 ashwani,这是非常好的答案。您可以将一些 ppts 、示例发送到 firewall.breaker@gmail.com。您所说的平面表的制作将在我提到的步骤 1、2、3 中进行,或者在我提到的步骤中未涵盖。因为那些是我正在考虑学习的书
    【解决方案2】:

    呃,要有效地进行数据挖掘,您需要了解大量数学知识。你的道路就像“我想成为一名外科医生,所以我将学习如何用手术刀切割”。是的,了解一些 SQL 并且可能是必要的(仅取决于您的数据的组织方式),但远远不够。

    【讨论】:

    • 感谢您的信息,但我的数学非常扎实,并且在涉及统计和概率、神经网络的 AI 中完成了我的论文,但我是在 c++ 中完成的。你可以添加这些东西,这样我就知道还能做什么。
    • 没有必要知道数学作为答案stackoverflow.com/questions/3698107/…指出
    【解决方案3】:

    从您编写的内容来看,它接近于数据挖掘,而不是数据抓取。

    首先,answer by Ngu Soon Hui 将您引向完全错误的方向。
    他建议你的是data scraping,但不是data mining
    您最好了解数据挖掘与数据抓取(又名网站/网页抓取,又名屏幕抓取,又名数据收集)之间的区别:

    “(原始mysql或sql数据)或(csv文件)----数据挖掘-->(一些有用的结果)”

    完全忘记MySql,不要浪费时间,因为MySql 中绝对不支持数据挖掘。仅用于数据抓取。尽管您可能对后者感兴趣。你最好知道区别

    "1)MCTS: SQL Server 2008, 实施与维护 2)MCTS: SQL Server 2008,数据库开发 3)MCTS:SQL Server 2008,商业 情报开发与 维护”

    为什么需要 1) 和 2)? 甚至 3) 只包含 20% 的数据挖掘。

    5)Python 6) 编程 集体智慧:建筑 智能 Web 2.0 应用程序

    为什么需要 Python?

    1. 未进行数据挖掘。这被称为数据抓取,它又是来自 DM 的完全错误方向的路径

    【讨论】:

      猜你喜欢
      • 2011-11-22
      • 1970-01-01
      • 1970-01-01
      • 2011-10-29
      • 2010-12-22
      • 2017-03-20
      • 2011-03-25
      • 2010-10-05
      • 2011-02-07
      相关资源
      最近更新 更多