数据挖掘

HCIE数据挖掘笔记-005数据挖掘专业名词

数据对象和属性类别: 数据一般有噪声,数量庞大,且来自不同的数据源 数据集由数据对象组成,一个数据对象代表一个实体 数据对象:样本、实例、数据点、对象 数据对象以数据元组的形式存放在数据库中,数据库的行对应于数据对象,列对应于属性 属性是一个数据字段,与维、特征、变量对应 维 用于数据仓库中 特征 ... »

R0undab0ut

【数据挖掘】模式分类

模式识别(国家级精品课程讲义)http://wenku.baidu.com/view/8051b109f12d2af90242e6b2.htmlhttp://wenku.baidu.com/view/ »

kaoyanmp3

数据挖掘特征提取方法-汇集

1.基于树模型提取特征 1 # 使用树模型提取特征 2 import numpy as np 3 from sklearn import feature_selection 4 from sklearn.ensemble import GradientBoostingClassifier 5 6 matrix = np.array(X) 7 target = np »

[转]基于SNS的文本数据挖掘

本文转载自 matrix67.com,地址:http://www.matrix67.com/blog/archives/5044 作为中文系应用语言学专业的学生以及一名数学 Geek ,我非常热衷于用计算的方法去分析汉语资料。汉语是一种独特而神奇的语言。对汉语资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,比如分词——汉语的词与词之间没有空格,那计算机怎么才知道,“已结婚的和尚未结婚的 »

Python机器学习(八)之数据挖掘整体介绍

一、前言 文中部分内容来自书籍和网络,部分内容为自己的理解。希望借助笔记的方式能够加深自己对该部分知识的掌握,也作为日后回顾的记录。 二、基本概念 很多小伙伴听到数据挖掘这四个字的时候很困惑,虽然字面 »

huanghanyu

【z】几种不同存储形式下的数据挖掘问题

从原理上说,数据挖掘应该可以应用到任何信息存储方式的知识挖掘中,但是挖掘的挑战性和技术会因为源数据的存储类型的不同而不同。特别是,近年来的研究表明数据挖掘所涉及的数据存储类型越来越丰富,除了一些有通用价值的模型、构架等研究外,也开展了一些针对复杂或新型数据存储方式下的挖掘技术或算法的研究。本节将针对一些主要的数据存储类型中的数据挖掘的问题进行介绍。 一个事务数据库是对事务型数据的收集。1 »

OneR算法和weka中OneR使用--数据挖掘学习和weka使用(四)

OneR又称1-R,是1993出现的一种极为简单的分类算法模型,它可以产生一个单层的决策树。 OneR算法是一个简单、廉价的方法,但是常常能够获得一个非常好的结果,用于描述数据中的结构。 OneR算法的使用非常广泛,可以简单的得到一个对数据的概括性了解,有时候甚至可以直接获得结果。 OneR算法实现 OneR的思路很简单,建立一个只针对于单个属性进行测试的规则,并进行不同的分支。每个分支对应的不同 »

数据挖掘标准规范之CRISP-DM基础

一、前言   每每提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现手段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外),我们是在使用算法而已,换句话说我们是算法的工程化实践者。数据挖掘非今日之物,大数据挖掘也不是一个孤立的概念,其实质还是采用传统的数据挖掘的方法,只是其实现工具发生了变化而已,本质的 »

数据挖掘算法之聚类分析(三)朴素贝叶斯算法

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类 对于分类问题,其实谁都不会陌生,每个人生活中无时不刻的在进行着分类。例如,走在大马路上看到女孩子,你会下意识的将她分为漂亮和不漂亮(漂亮当然就多看几眼啦)。在比如,在路上遇到一只狗,你会根据这只狗的毛发脏不脏,然后想到这是一只流浪狗还是家养的宠物狗。这些其实都是生活中的分类操作。 而贝叶斯分类是在生活中分类的基础上加 »

python数据挖掘决策树算法

决策树是一个非参数的监督式学习方法,主要用于分类和回归。算法的目标是通过推断数据特征,学习决策规则从而创建一个预测目标变量的模型。如下如所示,决策树通过一系列if-then-else 决策规则 近似估 »

ws0751

《BI那点儿事》数据挖掘初探

什么是数据挖掘? 数据挖掘(Data Mining),又称信息发掘(Knowledge Discovery),是用自动或半自动化的方法在数据中找到潜在的,有价值的信息和规则。 数据挖掘技术来源于数据库,统计和人工智能。 数据挖掘能够做什么 对企业中产生的大量的数据进行分析,找出其中潜藏的规则更加清晰的了解目前的业务运行状况使得决策者把握未来的决策方向有了科学的依据预测销售额 向特定客户发送 »

数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

    贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种,各自是:Naive Bayes、TAN、BAN和GBN。   贝叶斯网络是一个带有概率凝视的有向无环图,图中的每个结点均表示一个随机变量,图中两结点 间若存在着一条弧,则表示这两结点相相 »

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用19

春节虽然离春节还有一个半月,但是过年的气氛已经开始变得越来越浓了,人们已经开始谈论着买回家的火车票,行程安排等等信息,周围都迷漫着越来越浓的年的味道。每年到这个时候,吴言都会感到未名烦燥。又一年过去,又是一事无成,今年尤其如此,连往年还算说得过去的工作都没有了,而且自己的终身大事也依然没有着落,想起要回家,面对亲戚朋友或关心或非议的目光,吴言从心里感到一丝丝的恐惧,而且这种恐惧随着年龄的增长越来越 »

谢邦昌先生的SQL Server 2005数据挖掘算法讲稿

    谢邦昌——    1962年出生,国立台湾大学生物统计学博士。曾任职行政院主计处专任研究委员;东吴大学商用数学系兼任副教授;辅仁大学统计系教授兼系主任;台湾大学生物统计研究室兼任教授;辅仁大学总务长;中华资料采矿协会秘书长。        前一段时间,谢先生在随笔http://waxdoll.cnblogs.com/archive/2005/07/29/203204.aspx上留言寻求 »

数据挖掘太高端

我花了半年的时间做这块东西,发现自己心浮气躁,不太适合做这块的东西,我还是擅长做工程,单纯叫我研究一个算法还成,要把人工智能一整套的东西都掌握下来,等于要我脱胎换骨,爷还是用我山寨的方式解决吃饭的问题,不玩这个了 »

数据仓库与数据挖掘的一些基本概念

下面内容摘自互联网并作了整理。    名词:  BI(Business Intelligence):商业智能,    DW(Data Warehouse):数据仓库,详见正文Q1部分。    OLTP(On-Line Transaction Processing):联机事务处理 也称为面向交易的处理系统,其基本特征是顾客的原始数据能够马上传送到计算中心进行处理,并在非常短的时间内给出处理结果。这样 »

【读书笔记-数据挖掘概念与技术】分类:基本概念

数据分类的两个阶段:学习阶段(构造分类模型)和分类阶段(使用模型预测给定数据的类标号)和分类阶段(使用模型预测给定数据的类标号)。         构造一颗树,从根到叶子节点的路径,该叶子节点就存放着该元组的预测类。                     决策树分类器的构造不需要任何领域知识和参数设置,因此适合于探测式知识发现。决策树可以处理高维数据。                     »

常用的机器学习&数据挖掘知识点【转】

转自: Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic Programming 二次规划), CP(Conditional Probabilit »