大数据 - ADS 数据可视化实现
之前数据分层处理,最后把轻度聚合的结果保存到 ClickHouse 中,主要的目的就是提供即时的数据查询、统计、分析服务。这些统计服务一般会用两种形式展现,一种是为专业的数据分析人员的 BI 工具,一种是面向非专业人员的更加直观的数据大屏。 以下主要是面向百度的 sugar 的数据大屏服务的接口开发 ... »
之前数据分层处理,最后把轻度聚合的结果保存到 ClickHouse 中,主要的目的就是提供即时的数据查询、统计、分析服务。这些统计服务一般会用两种形式展现,一种是为专业的数据分析人员的 BI 工具,一种是面向非专业人员的更加直观的数据大屏。 以下主要是面向百度的 sugar 的数据大屏服务的接口开发 ... »
为解决繁琐的部署流程,简化安装步骤,本脚本提供一键安装最新版本的DSS+Linkis环境;部署包中的软件采用我自己编译的安装包,并且为最新版本:DSS1.1.1 + Linkis1.3.0。 ... »
目录 测试环境 背景描述 解决方案描述 代码实现 总结 测试环境 Python 3.6.2 Win 10 内存 8G,CPU I5 1.6 GHz 背景描述 这个作品来源于一个日志解析工具的开发,这个开发过程中遇到的一个痛点,就是日志文件多,日志数据量大,解析耗时长。在这种情 »
前言 无论你是否专门从事大数据开发,作为一个开发人员,应该都听说过数据仓库的概念,那你知道为什么会出现数据仓库?数据仓库究竟是干嘛的吗?有什么价值和意义呢?那么本文就带到入门,揭开数据仓库的面纱。 数据仓库的由来 数据仓库为何而来,主要解决什么问题的? 先下结论:为了分析数据而来,分析结果为企业决策 ... »
欢迎关注大数据系列课程 前言 大家平时经常用的百度网盘存放电影、照片、文档等,那有想过百度网盘是如何存下那么多文件的呢?难到是用一台计算机器存的吗?那得多大磁盘啊?显然不是的,那本文就带大家揭秘。 分布式存储思想 既然一台机器的存储所需的磁盘有上限瓶颈,那么我们能否利用多台机器形成一个整体用来存储呢 ... »
CDC CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。 CDC 的种类 CDC 主要分为基于查询和基于 Binl ... »
1.5 HDFS分布式文件系统 1.5.1 HDFS 简介 HDFS(全称:Hadoop Distribute File System,Hadoop 分布式文件系统)是 Hadoop 核心组成,是分布式存储服务。 分布式文件系统横跨多台计算机,在大数据时代有着广泛的应用前景,它们为存储和处理超大规模 ... »
1.4 Apache Hadoop 完全分布式集群搭建 软件和操作系统版本 Hadoop框架是采用Java语言编写,需要java环境(jvm) JDK版本:JDK8版本 集群: 知识点学习:统一使用vmware虚拟机虚拟三台linux节点,linux操作系统:Centos7 生产阶段:建议最少5台服 ... »
1.3 Apache Hadoop的重要组成 Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块 Hadoop HDFS:(Hadoop Distribute File System )一个高可靠、高吞吐量的分布式文件系统 比如 ... »
导读: 今天为大家介绍京东零售大数据的云原生平台化实践,主要包括以下几大方面内容: 云原生的定义和理解 云原生相关技术的演化 京东大数据在云原生平台化上的实践 云原生应用平台的发展 分享嘉宾:刘仲伟 京东 架构师 编辑整理:张明宇 广州某银行 出品社区:DataFun 01/云原生的定义和理解 1. ... »
本篇演示了Hudi集成Spark的Scala编程示例,并一步步操作说明如何使用DeltaStreamer从Kafka里读取数据写入到Hudi表的HDFS中,接着集成Flink的环境准备,通过基于yarn-session的Flink的sql-client方式提交任务实现插入数据和流式读取数据,了解字节... ... »
作者:vivo 互联网存储技术团队- Qiu Sidi 在企业大数据体系建设过程中,数据采集是其中的首要环节。然而,当前行业内的相关开源数据采集组件,并无法满足企业大规模数据采集的需求与有效的数据采集治理,所以大部分企业都采用自研开发采集组件的方式。本文通过在vivo的日志采集服务的设计实践经验,为 ... »
湖仓一体时代来临解决大数据企业发展过程Lambada、Kappa架构的诸多痛点,三大数据湖技术Iceberg、Hudi、Delta Lake发展迅速,本篇则以学习功能较为齐全Hudi 数据湖入手,了解其特性和使用场景,一步步操作编译安装Hudi最新版本0.12.1,并初步了解时间轴、文件布局、索引、... ... »
机器学习方法简介 机器学习、人工智能、深度学习是什么关系? 机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。 Arthur Samuel给出的定义指出,机器学习是这样的领域,它赋予计算机学习的能力(这种学习能力)不是通过显著式编程获得的。 不管是 ... »
大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人,近日公众号粉丝也刚刚突破了万人算是一个小小的里程碑。 看着已经有一万人来关注自己,阅读过自己写的文章。心中还是感慨万千的。所以,借着这个机会,今天这篇文章来聊聊我自己。说起来我大学毕业已经有10年了,这 ... »
EasyPoi介绍: 利用注解的方式简化了Excel、Word、PDF等格式的导入导出,而且是百万级数据的导入导出。EasyPoi官方网址:EasyPoi教程_V1.0 (mydoc.io)。下面我写了一个测试用例,真的是很方便,可以利用注解自动完成单元格的合并,设置单元格宽度、设置字符替换、并且可 ... »
一、架构设计 Driver根据用户代码构建计算流图,拆解出分布式任务并分发到 Executors 中去;每个Executors收到任务,然后处理这个 RDD 的一个数据分片子集 DAGScheduler根据用户代码构建 DAG;以 Shuffle 为边界切割 Stages;基于 Stages 创建 ... »
ElasticSearch 使用说明 本章,我们主要讲解在.Net 中对Quick.ElasticSearch.Furion的使用进行介绍! ElasticSearch 的官方客户端 API 文档地址:https://www.elastic.co/guide/en/elasticsearch/cli ... »
ElasticSearch 说明 本章,我们主要以在 Windows 中对ElasticSearch 安装进行介绍! 1、? 下载 ElasticSearch 这里我们下载的版本为7.17.4为例进行介绍。 下载 ElasticSearch 的地址为:https://artifacts.elast ... »
Windowing TVF 在Flink1.13版本之后出现的替代之前的Group window的产物,官网描述其 is more powerful and effective //TVF 中的tumble滚动窗口 //tumble(table sensor,descriptor(et),inter ... »