网易数帆数据治理体系、工具、流程、制度与管理概述
导读 本文将介绍网易数帆在数据治理方面的一些总结和思考。文章将围绕以下三点展开: 1. 数据治理解决了什么问题 2. 数据治理体系 3. 浅谈数据治理的实现 01数据治理解决了什么问题 首先看一下数据治理解决了什么问题,可以总结为六个方面: 1. 数据开发与数据治理脱节 在许多企业中存在这样一个现象 ... »
导读 本文将介绍网易数帆在数据治理方面的一些总结和思考。文章将围绕以下三点展开: 1. 数据治理解决了什么问题 2. 数据治理体系 3. 浅谈数据治理的实现 01数据治理解决了什么问题 首先看一下数据治理解决了什么问题,可以总结为六个方面: 1. 数据开发与数据治理脱节 在许多企业中存在这样一个现象 ... »
一、介绍Redis 1. 详细介绍 redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push ... »
一、什么是DBT dbt (data build tool)是一款流行的开源数据转换工具,能够通过 SQL 实现数据转化,将命令转化为表或者视图,提升数据分析师的工作效率。dbt 主要功能在于转换数据库或数据仓库中的数据,在 E(Extract)、L(Load)、T(Transform) 的流程中, ... »
转载请注明出处: 1.Hbase数据特点 大:一个表可以有上亿行,上百万列。 面向列:面向列表(簇)的存储和权限控制,列(簇)独立检索。 稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计的非常稀疏。 无模式:每一行都有一个可以排序的主键和任意多的列,列可以根据需要动态增加,同一张表 ... »
转载请注明出处: 1.Google的三篇论文 2003年,Google发布Google File System论文,(GFS)这是一个可扩展的分布 式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价 的普通硬件上,提供容错功能。从根本上说:文件被分割成很多块,使用冗余的方 式储 ... »
本文介绍是云音乐数据资产化建设相关的内容,介绍了近一年在具体实践过程中的一些阶段性的成果和思考;详细内容将从资产化建设的背景、近期的实践成果以及下一阶段的思考与规划共三个方面来展开。 1 从几个典型的问题出发 “我要取个数有没有现成的表?”,“按xx报表这个指标的口径,我想取清单明细怎么弄?”,“这 ... »
阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Spark Streaming是一种构建在Spark上的实时计算框架,扩展了Spark处理大规模流式数据的能力。本文介 ... »
研发背景 公司安全部目前针对内部系统的网络访问日志的安全审计,大部分都是T+1时效,每日当天,启动Python编写的定时任务,完成昨日的日志审计和检测,定时任务运行完成后,统一进行企业微信告警推送。这种方案在目前的网络环境和人员规模下,呈现两个痛点,一是面对日益频繁的网络攻击、钓鱼链接,T+ »
我们知道一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,所以查询语句的优化显然是重中之重。 本文旨在以开发工程师的角度来解释数据库索引的原理和如何优化慢查询。 MySQL索引原理 1.索引目的 索引 »
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。 本 ... »
目录 引言 一、MongoDB服务器管理 1、添加服务器 2、修改分片中的服务器 3、删除分片 二、均衡器 三、修改块的大小 四、超大块 1、分发超大块 2、分发超大块步骤: 3、避免出现超大块 4、输出内容详解: 五、系统分析器 六、一些常见的辅助命令 引言 最近项目 »
点亮 ⭐️ Star · 照亮开源之路 GitHub:https://github.com/apache/dolphinscheduler 精彩回顾 近期,BIGO 的大数据研发工程师许名勇在社区线上 Meetup 上给大家分享了主题为《DS 及 SPARK 在 BIGO 的应用和改进》的演讲。 ... »
摘要:对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。 本文分享自华为云社区《华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价 ... »
一、研发背景 DataX官方开源的版本支持HDFS文件的读写,并没有支持基于JDBC的Hive数据读写,很多时候一些数据同步不太方便,比如在读取Hive之前先执行一些sql、读取一些Hive的视图数据、或者在数据同步时执行一段固定的SQL,将SQL执行结果写入下游等各种场景,实际上还是需要H »
本文从提升用户行为分析效率角度出发,详细介绍了H5埋点方案规划,埋点数据采集流程,提供可借鉴的用户行为数据采集方案;且完整呈现了针对页面分析,留存分析的数仓模型规划方案。 ... »
AggregatingMergeTree引擎继承自 MergeTree,并改变了数据片段的合并逻辑。ClickHouse会将一个数据片段内所有具有相同主键(准确的说是排序键)的行替换成一行,这一行会存储一系列聚合函数的状态。 可以使用AggregatingMergeTree表来做增量数据的聚合统计, ... »
摘要 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。 火山引擎 DataLeap 的 Data Catalog 系统通过汇总和组 ... »
图扑软件应用自研 HT 引擎,为传统发电厂的控制管理,调度升级等业务功能做可视化转型,提供智慧虚拟电厂负控可视化解决方案。以天津市为背景,应用轻量化建模与强大的可视化引擎技术,搭建部署一套具备自我协调、自我管理、自我控制的智慧虚拟电厂负控平台。 ... »
名单服务是风控架构中重要子域,对风险决策的性能、用户体验、成本管控、风险治理沉淀都有重要影响,本文将详细介绍名单服务设计思路和实现。 ... »
摘要:ING集团发表了《Efficient Scheduling Of High Performance Batch Computing For Analytics Workloads With Volcano - Krzysztof Adamski & Tinco Boekestijn, ING》 ... »