数据挖掘

图数据挖掘:级联的概率模型和疾病传播

这篇博客我们来介绍基于概率的级联行为模型,这种模型更关注系统整体,不过缺少对个体行为动机的刻画。基于随机树的传染病模型是分支过程(branching processes)的一种变种。在这种模型中,一个病人可能接触d个其他人,对他们中的每一个都有概率q>0将其传染,接下来我们来看当d和q取何值时,流行... ... »

图数据挖掘(二):网络的常见度量属性

网络的度分布p(k)表示了一个随机选择的节点拥有度$k$的概率。我们设度为k的节点数目Nk =#nodes with degree k,除以节点数量N则可得到归一化后的概率质量分布 p(k) = Nk/N。图的路径(path)指一个节点序列,使得序列中的每个节点都链接到序列中的下一个节点,一个路径... ... »

图数据挖掘(一):网络的基本概念和表示方法

网络(network)是一些通过链接(links)连接起来的对象集合,它包含以下成分:对象:节点(nodes)/顶点(vertices), 用N表示;交互:链接(links)/边(edges),用E表示;对象和交互组成的系统我们就称为网络(或图,graph),用G(N,E)表示。 ... »

orion-orion

数据分析与数据挖掘研究之一

前言:之前做过一些数据分析与数据挖掘相关的工作,最近抽空将之前做的内容简单整理一下,方便查看,主要使用R语言和PERL脚本语言,使用TCGA和ICGC数据库中的临床数据,做类似的分析可以参考一下,如果想查看详细内容与数据可以通过本人的Gitee及Github仓库下载,链接于篇尾附上。 一、标题:Ef ... »

wydilearn

客户流失?来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵

如何在海量用户中精准预测哪些客户即将流失?本文结合音乐流媒体平台 Sparkify 数据,详细讲解一个客户流失建模预测案例的全流程:探索性数据分析 EDA、数据处理、进一步数据探索、建模优化、结果评估。【代码与数据集亲测可运行】 ... »

二手车价格预测 | 构建AI模型并部署Web应用 ⛵

二手车交易越发繁荣的当下,如何科学定价时买卖&平台三方都关心的问题。本文结合汽车价格预测数据集,讲解『二手车价格预估模型』构建和部署的全过程:数据分析处理 & 特征工程、机器学习建模、Web应用开发等。【代码与数据集亲测可运行】 ... »

联邦学习: 联邦场景下的时空数据挖掘

时空数据挖掘做为智慧城市的重要组成部分,和我们的日常生活息息相关。如我们打开地图软件,会根据交通流量的预测为我们推荐路线;通过网约车软件下单,会为我们就近做订单匹配;通过外卖软件点外卖,会为我们就近做外卖员匹配,等等。然而,时空数据挖掘在实际使用的过程中会面临一个难点,那就是跨平台协作。比如在疫情期... ... »

数据挖掘——分类算法——KNN

KNN(K Nearest Neighbors):K近邻分类算法KNN算法从训练集中找到和新数据最接近的K条记录,然后根据他们的主要分类来决定新数据的类别。 KNN分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也 »

Python数据挖掘—关联—关联规则

关联规则方法: 使用apyori包中的apriori方法,该方法传入训练样本,用一个数组把一个样板存储起来,接着是使用数组把所有的样本存储起来 »

【数据挖掘实验】利用朴素贝叶斯方法对百万搜狐新闻文本数据进行分类

一、概述 本实验做的是一个很常见的数据挖掘任务:新闻文本分类。 语料库来自于搜狗实验室2008年和2012年的搜狐新闻数据, 下载地址:https://www.sogou.com/labs/resource/cs.php 实验工作主要包括以下几步: 1)语料库的数据预处理; 2)文本建模; 3)训练分类器; 4)对测试集文本分类; 5)结果评估。 二、实验环境搭建 本实验在Google Drive »

数据挖掘之关联规则Apriori算法

一、Aoriori原始算法: 频繁挖掘模式与关联规则 关联规则两个基本的指标(假设有事务A和事务B)   1、支持度(suport):计算公式如下        2、置信度(confidence):    关联规则的挖掘过程:   1、设定最小支持度阈值,找出所有的频繁项集且每个出现的次数要大于等于最小支持度阈值。   2、由频繁项集产生强关联规则:这些规则必须满足最小支持度和最小置信度。 先验性 »

Python数据挖掘-时间序列-非季节性时间学分解

时间序列(Time Series)   时间序列是均匀时间间隔上的观测值序列 时间序列分析(Time Series Analysis)   趋势分析   序列分解   序列预测 时间序列分解(Time-Series Decomposition)   时间写按照季节性来分类,分为季节性时间序列和非季节性时间序列 非季节性时间序列:趋势部分、不规则部分; 季节性时间序列:趋势部分、不规则部分、季节性部 »

WEB数据挖掘(四)——数据采集

以前开发过数据采集的程序,这段时间重新翻出来重构了一下代码,程序还有很多需要改进的地方 web数据采集从http提交方式可分为get方式和post方式(其实还有其他方式,不过目前浏览器不支持),针对这两种方式的数据采集,当时本人通过继承抽象父类的方式来实现这两种采集方式的请求参数封装类,post方式的参数封装类添加了post提交的参数(通过map成员变量保存post参数) 原来针对某指定站点或站点 »