大数据

大数据 - ADS 数据可视化实现

之前数据分层处理,最后把轻度聚合的结果保存到 ClickHouse 中,主要的目的就是提供即时的数据查询、统计、分析服务。这些统计服务一般会用两种形式展现,一种是为专业的数据分析人员的 BI 工具,一种是面向非专业人员的更加直观的数据大屏。 以下主要是面向百度的 sugar 的数据大屏服务的接口开发 ... »

DSS+Linkis Ansible 单机一键安装脚本

为解决繁琐的部署流程,简化安装步骤,本脚本提供一键安装最新版本的DSS+Linkis环境;部署包中的软件采用我自己编译的安装包,并且为最新版本:DSS1.1.1 + Linkis1.3.0。 ... »

Python大数据量文本文件高效解析方案代码实现全过程

目录 测试环境 背景描述 解决方案描述 代码实现 总结 测试环境 Python 3.6.2 Win 10 内存 8G,CPU I5 1.6 GHz 背景描述 这个作品来源于一个日志解析工具的开发,这个开发过程中遇到的一个痛点,就是日志文件多,日志数据量大,解析耗时长。在这种情 »

大数据时代,数据仓库究竟是干嘛的?

前言 无论你是否专门从事大数据开发,作为一个开发人员,应该都听说过数据仓库的概念,那你知道为什么会出现数据仓库?数据仓库究竟是干嘛的吗?有什么价值和意义呢?那么本文就带到入门,揭开数据仓库的面纱。 数据仓库的由来 数据仓库为何而来,主要解决什么问题的? 先下结论:为了分析数据而来,分析结果为企业决策 ... »

大数据HDFS凭啥能存下百亿数据?

欢迎关注大数据系列课程 前言 大家平时经常用的百度网盘存放电影、照片、文档等,那有想过百度网盘是如何存下那么多文件的呢?难到是用一台计算机器存的吗?那得多大磁盘啊?显然不是的,那本文就带大家揭秘。 分布式存储思想 既然一台机器的存储所需的磁盘有上限瓶颈,那么我们能否利用多台机器形成一个整体用来存储呢 ... »

大数据-业务数据采集-FlinkCDC

CDC CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。 CDC 的种类 CDC 主要分为基于查询和基于 Binl ... »

京东零售大数据云原生平台化实践

导读: 今天为大家介绍京东零售大数据的云原生平台化实践,主要包括以下几大方面内容: 云原生的定义和理解 云原生相关技术的演化 京东大数据在云原生平台化上的实践 云原生应用平台的发展 分享嘉宾:刘仲伟 京东 架构师 编辑整理:张明宇 广州某银行 出品社区:DataFun 01/云原生的定义和理解 1. ... »

vivo大数据日志采集Agent设计实践

作者:vivo 互联网存储技术团队- Qiu Sidi 在企业大数据体系建设过程中,数据采集是其中的首要环节。然而,当前行业内的相关开源数据采集组件,并无法满足企业大规模数据采集的需求与有效的数据采集治理,所以大部分企业都采用自研开发采集组件的方式。本文通过在vivo的日志采集服务的设计实践经验,为 ... »

vivotech

大数据关键技术:常规机器学习方法

机器学习方法简介 机器学习、人工智能、深度学习是什么关系? 机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。 Arthur Samuel给出的定义指出,机器学习是这样的领域,它赋予计算机学习的能力(这种学习能力)不是通过显著式编程获得的。 不管是 ... »

从港口煤炭工人,到国企大数据负责人:曾经的网瘾少年是怎么做到的?

大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人,近日公众号粉丝也刚刚突破了万人算是一个小小的里程碑。 看着已经有一万人来关注自己,阅读过自己写的文章。心中还是感慨万千的。所以,借着这个机会,今天这篇文章来聊聊我自己。说起来我大学毕业已经有10年了,这 ... »

EasyPoi大数据导入导出百万级实例

EasyPoi介绍: 利用注解的方式简化了Excel、Word、PDF等格式的导入导出,而且是百万级数据的导入导出。EasyPoi官方网址:EasyPoi教程_V1.0 (mydoc.io)。下面我写了一个测试用例,真的是很方便,可以利用注解自动完成单元格的合并,设置单元格宽度、设置字符替换、并且可 ... »

lasding

我的Spark学习笔记

一、架构设计 Driver根据用户代码构建计算流图,拆解出分布式任务并分发到 Executors 中去;每个Executors收到任务,然后处理这个 RDD 的一个数据分片子集 DAGScheduler根据用户代码构建 DAG;以 Shuffle 为边界切割 Stages;基于 Stages 创建 ... »

ElasticSearch之Windows中环境安装

ElasticSearch 说明 本章,我们主要以在 Windows 中对ElasticSearch 安装进行介绍! 1、? 下载 ElasticSearch 这里我们下载的版本为7.17.4为例进行介绍。 下载 ElasticSearch 的地址为:https://artifacts.elast ... »

FlinkSQL之Windowing TVF

Windowing TVF 在Flink1.13版本之后出现的替代之前的Group window的产物,官网描述其 is more powerful and effective //TVF 中的tumble滚动窗口 //tumble(table sensor,descriptor(et),inter ... »