1.3 Apache Hadoop的重要组成-hadoop-最全最完整的保姆级的java大数据学习资料
1.3 Apache Hadoop的重要组成 Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块 Hadoop HDFS:(Hadoop Distribute File System )一个高可靠、高吞吐量的分布式文件系统 比如 ... »
1.3 Apache Hadoop的重要组成 Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块 Hadoop HDFS:(Hadoop Distribute File System )一个高可靠、高吞吐量的分布式文件系统 比如 ... »
本文是对阿里云天池竞赛——零基础入门数据挖掘之二手车交易价格预测的学习记录,是一个很简单的baseline。 ... »
本文讲解9种『炫酷高级』的数据图表,可视化地表示比例或百分比:哑铃图、甜甜圈图、华夫饼图、堆积条形图...附上代码,快快用起来吧! ... »
本文以保险金额预估为例,讲解机器学习从开发到云端服务部署的全流程:基于PyCaret开发机器学习全流程、基于Flask搭建简易前端Web应用程序、在Heroku云上部署机器学习应用。 ... »
这篇博客我们来介绍基于概率的级联行为模型,这种模型更关注系统整体,不过缺少对个体行为动机的刻画。基于随机树的传染病模型是分支过程(branching processes)的一种变种。在这种模型中,一个病人可能接触d个其他人,对他们中的每一个都有概率q>0将其传染,接下来我们来看当d和q取何值时,流行... ... »
网络的度分布p(k)表示了一个随机选择的节点拥有度$k$的概率。我们设度为k的节点数目Nk =#nodes with degree k,除以节点数量N则可得到归一化后的概率质量分布 p(k) = Nk/N。图的路径(path)指一个节点序列,使得序列中的每个节点都链接到序列中的下一个节点,一个路径... ... »
网络(network)是一些通过链接(links)连接起来的对象集合,它包含以下成分:对象:节点(nodes)/顶点(vertices), 用N表示;交互:链接(links)/边(edges),用E表示;对象和交互组成的系统我们就称为网络(或图,graph),用G(N,E)表示。 ... »
本文基于Airbnb在大曼彻斯特地区的房源数据,构建机器学习模型,进行数据分析与挖掘建模,预测民宿房源的价格走势。当然,同样的方法模式也可以应用在国内平台。 ... »
音乐领域,借助于歌曲相关信息,模型可以根据歌曲的音频和歌词特征,将歌曲精准进行流派分类。本文讲解如何基于机器学习完成对音乐的识别分类。 ... »
前言:之前做过一些数据分析与数据挖掘相关的工作,最近抽空将之前做的内容简单整理一下,方便查看,主要使用R语言和PERL脚本语言,使用TCGA和ICGC数据库中的临床数据,做类似的分析可以参考一下,如果想查看详细内容与数据可以通过本人的Gitee及Github仓库下载,链接于篇尾附上。 一、标题:Ef ... »
如何在海量用户中精准预测哪些客户即将流失?本文结合音乐流媒体平台 Sparkify 数据,详细讲解一个客户流失建模预测案例的全流程:探索性数据分析 EDA、数据处理、进一步数据探索、建模优化、结果评估。【代码与数据集亲测可运行】 ... »
二手车交易越发繁荣的当下,如何科学定价时买卖&平台三方都关心的问题。本文结合汽车价格预测数据集,讲解『二手车价格预估模型』构建和部署的全过程:数据分析处理 & 特征工程、机器学习建模、Web应用开发等。【代码与数据集亲测可运行】 ... »
时空数据挖掘做为智慧城市的重要组成部分,和我们的日常生活息息相关。如我们打开地图软件,会根据交通流量的预测为我们推荐路线;通过网约车软件下单,会为我们就近做订单匹配;通过外卖软件点外卖,会为我们就近做外卖员匹配,等等。然而,时空数据挖掘在实际使用的过程中会面临一个难点,那就是跨平台协作。比如在疫情期... ... »
KNN(K Nearest Neighbors):K近邻分类算法KNN算法从训练集中找到和新数据最接近的K条记录,然后根据他们的主要分类来决定新数据的类别。 KNN分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也 »
关联规则方法: 使用apyori包中的apriori方法,该方法传入训练样本,用一个数组把一个样板存储起来,接着是使用数组把所有的样本存储起来 »
1 import matplotlib.pyplot as plt 2 import numpy as np 3 4 def draw_data(n, a, b, d, values, fig, plt, t, l, cl): 5 fig.add_subplot(2, 2, n) 6 x = values[d, a:b+1] 7 # explode = (0. »
一、概述 本实验做的是一个很常见的数据挖掘任务:新闻文本分类。 语料库来自于搜狗实验室2008年和2012年的搜狐新闻数据, 下载地址:https://www.sogou.com/labs/resource/cs.php 实验工作主要包括以下几步: 1)语料库的数据预处理; 2)文本建模; 3)训练分类器; 4)对测试集文本分类; 5)结果评估。 二、实验环境搭建 本实验在Google Drive »
一、Aoriori原始算法: 频繁挖掘模式与关联规则 关联规则两个基本的指标(假设有事务A和事务B) 1、支持度(suport):计算公式如下 2、置信度(confidence): 关联规则的挖掘过程: 1、设定最小支持度阈值,找出所有的频繁项集且每个出现的次数要大于等于最小支持度阈值。 2、由频繁项集产生强关联规则:这些规则必须满足最小支持度和最小置信度。 先验性 »
时间序列(Time Series) 时间序列是均匀时间间隔上的观测值序列 时间序列分析(Time Series Analysis) 趋势分析 序列分解 序列预测 时间序列分解(Time-Series Decomposition) 时间写按照季节性来分类,分为季节性时间序列和非季节性时间序列 非季节性时间序列:趋势部分、不规则部分; 季节性时间序列:趋势部分、不规则部分、季节性部 »
以前开发过数据采集的程序,这段时间重新翻出来重构了一下代码,程序还有很多需要改进的地方 web数据采集从http提交方式可分为get方式和post方式(其实还有其他方式,不过目前浏览器不支持),针对这两种方式的数据采集,当时本人通过继承抽象父类的方式来实现这两种采集方式的请求参数封装类,post方式的参数封装类添加了post提交的参数(通过map成员变量保存post参数) 原来针对某指定站点或站点 »