大数据

深入浅出聊Taier—大数据分布式可视化DAG任务调度系统

导读: 上周,袋鼠云数栈全新技术开源规划——DTMO(DTstack Meetup Online)的第一场直播圆满完成。袋鼠云数栈大数据开发专家、Taier项目主导人偷天为大家带来了《Taier入门介绍》的分享,我们将直播精华部分做了整理,带大家再次回顾内容,加深技术细节的了解。 你能看到 »

DTinsight

不care工具,在大数据平台中Hive能自动处理SQL

摘要:有没有更简单的办法,可以直接将SQL运行在大数据平台? 本文分享自华为云社区《Hive执行原理》,作者: JavaEdge 。 MapReduce简化了大数据编程的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用MapReduce开发大数据程序。但是对于经常需要进行大数据计算的 ... »

Confluent之Kafka Connector初体验

LinkedIn数据驱动主要有两点领悟,其一是强调动态数据有效性要远远大于静态数据,其二是要利用所有数据化信息而不仅仅是交易核心数据。 本篇主要从Kafka诞生背景开始,一步步引出Kafka的Connect组件,而Confluent也免费开源100多种Connector,最后用一个完整的Source... ... »

数仓建设 | ODS、DWD、DWM等理论实战(好文收藏)

本文目录: 一、数据流向 二、应用示例 三、何为数仓DW 四、为何要分层 五、数据分层 六、数据集市 七、问题总结 导读 数仓在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需要横向的数仓分层规范。本文作者围绕企业数仓分层展开分析,希望对你有帮助。 因文章太长,本文不是完结版 ... »

坐实大数据资源调度框架之王,Yarn为何这么牛

摘要:Yarn的出现伴随着Hadoop的发展,使Hadoop从一个单一的大数据计算引擎,成为大数据的代名词。 本文分享自华为云社区《Yarn为何能坐实资源调度框架之王?》,作者: JavaEdge。 Hadoop主要组成: 分布式文件系统HDFS 分布式计算框架MapReduce 分布式集群资源调度 ... »

Spark性能优化

Spark配置介绍 Spark中的配置选项在四个地方可以进行配置,其中优先级如下: SparkConf(代码) > spark-submit 或 spark-shell 命令行参数 > spark-defaults.conf > spark-env.sh > 默认值 在代码中配置的为静态配置,在sp ... »

numpy教程06---ndarray的进阶操作

欢迎关注公众号【Python开发实战】, 获取更多内容! 工具-numpy numpy是使用Python进行数据科学的基础库。numpy以一个强大的N维数组对象为中心,它还包含有用的线性代数,傅里叶变换和随机数函数。 线性代数 numpy中二维的ndarray可以在Python中高效地表示矩阵,下面 ... »

什么是机器学习回归算法?【线性回归、正规方程、梯度下降、正则化、欠拟合和过拟合、岭回归】

1 、线性回归 1.1 线性回归应用场景 房价预测 销售额度预测 金融:贷款额度预测、利用线性回归以及系数分析因子 1.2 什么是线性回归 1.2.1定义与公式 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分 ... »

什么是机器学习回归算法?【线性回归、正规方程、梯度下降、正则化、欠拟合和过拟合、岭回归】

1 、线性回归 1.1 线性回归应用场景 房价预测 销售额度预测 金融:贷款额度预测、利用线性回归以及系数分析因子 1.2 什么是线性回归 1.2.1定义与公式 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分 ... »

什么是机器学习的分类算法?【K-近邻算法(KNN)、交叉验证、朴素贝叶斯算法、决策树、随机森林】

1、K-近邻算法(KNN) 1.1 定义 (KNN,K-NearestNeighbor) 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 1.2 距离公式 两个样本的距离可以通过如下公式计算,又叫欧式距离。 简单理解这个算法: 这个 ... »

看完这篇文章你就可以告诉领导你精通Zookeeper了

一、Zookeeper概述 1、概述 Zookeeper 是一个开源的为分布式框架提供协调服务的 Apache 项目。在分布式系统中,扮演注册中心的角色。 Zookeeper数据模型的结构与Linux文件系统很像,整体上可以看做一棵树,从根节点往下,每个节点称为ZNode。每一个ZNode默认能够存 ... »

hive从入门到放弃(四)——分区与分桶

今天讲讲分区表和分桶表,前面的文章还没看的可以点击链接: hive从入门到放弃(一)——初识hive hive从入门到放弃(二)——DDL数据定义 hive从入门到放弃(三)——DML数据操作 分区 分区可以提高查询效率,实际上 hive 的一个分区就是 HDFS 上的一个目录,目录里放着属于该分区 ... »

构建煤矿物联网大数据平台思路(1)

最近要构建一个综合自动化分析平台,需求是实现煤矿十几个子自动化系统的数据收集、分析、报表、统计功能。 现在的趋势是构建物联网大数据平台。但是现有系统是基于传统的EF5+PSpace实时数据库。 先从实时数据库开始下手分析。拿到 sdk 是.net、java、c三种。最后一种不会。分析前两种。 pSp ... »

AlexanderZhao

最新大厂数据湖面试题,知识点总结

本文是一篇数据湖的面试题,同时也是数据湖知识点的讲解 目录: 一、什么是数据湖 二、数据湖的发展 三、数据湖有哪些优势 四、数据湖应该具备哪些能力 五、数据湖的实现遇到了哪些问题 六、数据湖与数据仓库的区别 七、为什么要做数据湖?区别在于? 八、数据湖挑战 九、湖仓一体 十、目前有哪些开源数据湖组件 ... »

大数据智能营销笔记本弊端,怎么样?

AI大数据智能营销软件,能够帮助企业进行全网找客户,全网做营销,提高企业营销效率!文章将详细介绍我们目前在售软件的各个板块功能! »

v1353415898

01大数据概述

1.为什么产生大数据技术? 答:人类进入信息社会以后,数据以自然方式增长,其意志不以人的意志而转移。随着数据量的不断增长,数据所蕴含的价值会从量变发展到质变。数据产生方式的变革,是促成大数据时代来临的 »

Rommie