这学期学院开设了《数据仓库与知识发现》这门专业课,作为课程笔记复习巩固之用,将上课所学记录在博客中,同时也希望得到不足之处与指正,作为交流学习。

 

《数据仓库与知识发现》这个标题里提到“数据”“知识”两个概念,那什么是数据?什么是知识?

data 数据 :我们可以轻易得到很多数据,但这些数据对我们来说是没有意义的。

knowledge 知识 :从数据得出有意义的东西,或者说对你来说有用的东西。

同时这里提到了一个知识层次结构(The Knowledge Hierarchy):从低级到高级依次是data(数据)、information(信息)、knowledge(知识)、wisdom(智慧)。由此可以很容易看出从低到高,数据在变得有意义、有价值,直到成为智慧。

 

但我们面临一个问题就是:我们淹没在数据中,却渴求知识。由此,针对这个问题的解决方案就是所谓的数据仓库和数据挖掘。

data warehousing 数据仓库

data mining 数据挖掘 :从大型数据库的数据中提取有趣(interesting)的信息或模式。有趣这个词的分析也会在后文提到。

 

现在,先来看一下数据挖掘的相关介绍。

数据挖掘的潜在应用有:

1 数据分析和决策支持:比如市场分析和管理、风险分析和管理、舞弊监察和管理

2 文本挖掘(news group,Email,documents)和网站分析

3 智能查询问答等

 

数据挖掘:A KDD Process (knowledge discovery in database)

数据仓库与知识发现(一)初识

1 learning the application domain  学习应用领域

2 creating a target data set:data selection   创建目标数据集:数据选择

3 data cleaning and preprocessing   数据清理和预处理

4 data reduction and transformation   数据约简和转换

5 choosing functions of data mining   数据挖掘的功能选择

6 choosing the mining algorithm   数据挖掘算法的选择

7 data mining:search for patterns of interest   数据挖掘:寻找兴趣模式

8 pattern evaluation and knowledge presentation    模式评估和知识呈现

9 use of discovered knowledge   运用已发现的知识

 

数据挖掘和商业智能化:

数据仓库与知识发现(一)初识

 

一个典型数据挖掘系统的架构:

数据仓库与知识发现(一)初识

 

在什么类型的数据上进行数据挖掘?

1 relational databases   关系数据库

2 data warehouses   数据仓库

3 transactional databases   事务数据库

4 advanced DB and information repositories   高级数据库和信息存储库

 

数据挖掘的功能:

1 概念描述:表征和鉴别

2 关联性:相关性和因果关系

3 分类和预测

4 聚类分析

5 离群值分析

6 趋势与演化分析

7 其他模式导向或统计分析

相关文章: