数据挖掘

数据分析与数据挖掘研究之一

前言:之前做过一些数据分析与数据挖掘相关的工作,最近抽空将之前做的内容简单整理一下,方便查看,主要使用R语言和PERL脚本语言,使用TCGA和ICGC数据库中的临床数据,做类似的分析可以参考一下,如果想查看详细内容与数据可以通过本人的Gitee及Github仓库下载,链接于篇尾附上。 一、标题:Ef ... »

wydilearn

客户流失?来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵

如何在海量用户中精准预测哪些客户即将流失?本文结合音乐流媒体平台 Sparkify 数据,详细讲解一个客户流失建模预测案例的全流程:探索性数据分析 EDA、数据处理、进一步数据探索、建模优化、结果评估。【代码与数据集亲测可运行】 ... »

二手车价格预测 | 构建AI模型并部署Web应用 ⛵

二手车交易越发繁荣的当下,如何科学定价时买卖&平台三方都关心的问题。本文结合汽车价格预测数据集,讲解『二手车价格预估模型』构建和部署的全过程:数据分析处理 & 特征工程、机器学习建模、Web应用开发等。【代码与数据集亲测可运行】 ... »

联邦学习: 联邦场景下的时空数据挖掘

时空数据挖掘做为智慧城市的重要组成部分,和我们的日常生活息息相关。如我们打开地图软件,会根据交通流量的预测为我们推荐路线;通过网约车软件下单,会为我们就近做订单匹配;通过外卖软件点外卖,会为我们就近做外卖员匹配,等等。然而,时空数据挖掘在实际使用的过程中会面临一个难点,那就是跨平台协作。比如在疫情期... ... »

数据挖掘——分类算法——KNN

KNN(K Nearest Neighbors):K近邻分类算法KNN算法从训练集中找到和新数据最接近的K条记录,然后根据他们的主要分类来决定新数据的类别。 KNN分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也 »

Python数据挖掘—关联—关联规则

关联规则方法: 使用apyori包中的apriori方法,该方法传入训练样本,用一个数组把一个样板存储起来,接着是使用数组把所有的样本存储起来 »

【数据挖掘实验】利用朴素贝叶斯方法对百万搜狐新闻文本数据进行分类

一、概述 本实验做的是一个很常见的数据挖掘任务:新闻文本分类。 语料库来自于搜狗实验室2008年和2012年的搜狐新闻数据, 下载地址:https://www.sogou.com/labs/resource/cs.php 实验工作主要包括以下几步: 1)语料库的数据预处理; 2)文本建模; 3)训练分类器; 4)对测试集文本分类; 5)结果评估。 二、实验环境搭建 本实验在Google Drive »

数据挖掘之关联规则Apriori算法

一、Aoriori原始算法: 频繁挖掘模式与关联规则 关联规则两个基本的指标(假设有事务A和事务B)   1、支持度(suport):计算公式如下        2、置信度(confidence):    关联规则的挖掘过程:   1、设定最小支持度阈值,找出所有的频繁项集且每个出现的次数要大于等于最小支持度阈值。   2、由频繁项集产生强关联规则:这些规则必须满足最小支持度和最小置信度。 先验性 »

Python数据挖掘-时间序列-非季节性时间学分解

时间序列(Time Series)   时间序列是均匀时间间隔上的观测值序列 时间序列分析(Time Series Analysis)   趋势分析   序列分解   序列预测 时间序列分解(Time-Series Decomposition)   时间写按照季节性来分类,分为季节性时间序列和非季节性时间序列 非季节性时间序列:趋势部分、不规则部分; 季节性时间序列:趋势部分、不规则部分、季节性部 »

WEB数据挖掘(四)——数据采集

以前开发过数据采集的程序,这段时间重新翻出来重构了一下代码,程序还有很多需要改进的地方 web数据采集从http提交方式可分为get方式和post方式(其实还有其他方式,不过目前浏览器不支持),针对这两种方式的数据采集,当时本人通过继承抽象父类的方式来实现这两种采集方式的请求参数封装类,post方式的参数封装类添加了post提交的参数(通过map成员变量保存post参数) 原来针对某指定站点或站点 »

SQL Server Analysis Services 数据挖掘(1)

来源: http://technet.microsoft.com/zh-cn/library/dn633476.aspx   假如你有一个购物类的网站,那么你如何给你的客户来推荐产品呢?这个功能在很多 电商类网站都有,那么,通过SQL Server Analysis Services的数据挖掘功能,你也可以轻松的来构建类似的功能。 将分为三个部分来演示如何实现这个功能。 构建挖掘模型 为挖掘模型 »

数据挖掘——流数据分析实训

 实训项目 :      数据挖掘——流数据分析实训                项目源码获取:                             https://pan.baidu.com/s/1glq3tKyl3InURMrjeVCa7g    提取码:zaj5                                                           注意事 »

数据挖掘-语料库的构建

语料库:是我们要分析的所有文档的集合 使用搜狗实验室提供的语料库,里面有一个classlist,里面内容是文件的编号及分类名称   1、导入模块 import os import os.path filePaths=[] #建立一个空的列表来存放语料库的文件名称,数组变量 for root,dirs,files in os.walk( "D:\\Python\\P »

【Python数据挖掘】第六篇--特征工程

一、Standardization 方法一:StandardScaler from sklearn.preprocessing import StandardScaler sds = StandardScaler() sds.fit(x_train) x_train_sds = sds.transform(x_train) x_test_sds = sds.transform(x_test) »

十大数据挖掘算法及各自优势

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法,实际 »

SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(二)

商业智能工具的选择 一般来说产品选择工作需要进行如下4个方面的基本工作: 1、了解商业需求      了解商业需求首先要了解应用的范围和级别。需要确定建立企业级数据仓库、部门级数据仓库还是个人级数据仓库中哪一级数据仓库;还需要了解 系统预期的使用用户有哪些、预期的用户数量是多少、用户在地理的位置怎样,是集中和是分散;需要了解建立数据仓库的用途和功能;了解用户想利 用数据仓库进行哪些领域的工作,需要 »

数据挖掘学习05 - 使用R对文本进行hierarchical cluster并验证结果

本文目的 最近一直在使用R进行hcluster计算,主要采用了一些R自带的距离公式和cophenetic距离验证聚类的质量。其中R自带的hclust方法不支持cosine函数,如果需要下载R的扩展,要下载许多关联的库,所以自己编写了一个简单的cosine函数,并且使用了R的proxy扩展(距离计算框架),计算向量距离。内容涉及比较多,所以记录一下,作为备忘。 采用R计算hclust 步骤一: »

利用SSAS 2005进行数据挖掘 利用SSAS 2005进行数据挖掘

  SSAS是SQL SERVER 2005中用于BI的组件之一。通过SSAS可以创建多维数据库,并在之上进行数据挖掘操作。本文中要讲的就是利用SSAS进行数据挖掘的方法。在SSAS中进行数据挖掘可以有两种方式,一种是利用数据挖掘向导一步一步地创建挖掘结构和挖掘模型并进行模型的训练和预测。另一种方式就是使用DMX脚本的方式进行挖掘结构、挖掘模型的创建、模型训练以及模型预测。     DMX是数据 »

数据挖掘概念与技术(韩家伟)阅读笔记7--数据离散化和概念分层的产生

1.数据离散化和概念分层的原理和目的   通过将属性值域划分为区间,用区间标记代替实际的数值,用来减少给定连续属性值的个数。 2.离散化技术分类   例如:自顶向下:首先找出一个或几个点作为分裂点来对真个属性空间进行划分,然后再在结果区间上递归重复该过程。               自底向上:首相将所有的连续之看做分裂点,然后合并相近的属性区间,减少分裂点,然后递归的调用该过程。 3.数值数据的 »