这学期学院开设了《数据仓库与知识发现》这门专业课,作为课程笔记复习巩固之用,将上课所学记录在博客中,同时也希望得到不足之处与指正,作为交流学习。
《数据仓库与知识发现》这个标题里提到“数据”和“知识”两个概念,那什么是数据?什么是知识?
data 数据 :我们可以轻易得到很多数据,但这些数据对我们来说是没有意义的。
knowledge 知识 :从数据得出有意义的东西,或者说对你来说有用的东西。
同时这里提到了一个知识层次结构(The Knowledge Hierarchy):从低级到高级依次是data(数据)、information(信息)、knowledge(知识)、wisdom(智慧)。由此可以很容易看出从低到高,数据在变得有意义、有价值,直到成为智慧。
但我们面临一个问题就是:我们淹没在数据中,却渴求知识。由此,针对这个问题的解决方案就是所谓的数据仓库和数据挖掘。
data warehousing 数据仓库
data mining 数据挖掘 :从大型数据库的数据中提取有趣(interesting)的信息或模式。有趣这个词的分析也会在后文提到。
现在,先来看一下数据挖掘的相关介绍。
数据挖掘的潜在应用有:
1 数据分析和决策支持:比如市场分析和管理、风险分析和管理、舞弊监察和管理
2 文本挖掘(news group,Email,documents)和网站分析
3 智能查询问答等
数据挖掘:A KDD Process (knowledge discovery in database)
1 learning the application domain 学习应用领域
2 creating a target data set:data selection 创建目标数据集:数据选择
3 data cleaning and preprocessing 数据清理和预处理
4 data reduction and transformation 数据约简和转换
5 choosing functions of data mining 数据挖掘的功能选择
6 choosing the mining algorithm 数据挖掘算法的选择
7 data mining:search for patterns of interest 数据挖掘:寻找兴趣模式
8 pattern evaluation and knowledge presentation 模式评估和知识呈现
9 use of discovered knowledge 运用已发现的知识
数据挖掘和商业智能化:
一个典型数据挖掘系统的架构:
在什么类型的数据上进行数据挖掘?
1 relational databases 关系数据库
2 data warehouses 数据仓库
3 transactional databases 事务数据库
4 advanced DB and information repositories 高级数据库和信息存储库
数据挖掘的功能:
1 概念描述:表征和鉴别
2 关联性:相关性和因果关系
3 分类和预测
4 聚类分析
5 离群值分析
6 趋势与演化分析
7 其他模式导向或统计分析