大数据

数据转换工具DBT介绍及实操

一、什么是DBT dbt (data build tool)是一款流行的开源数据转换工具,能够通过 SQL 实现数据转化,将命令转化为表或者视图,提升数据分析师的工作效率。dbt 主要功能在于转换数据库或数据仓库中的数据,在 E(Extract)、L(Load)、T(Transform) 的流程中, ... »

wxm2270

Hbase学习二:Hbase数据特点和架构特点

转载请注明出处: 1.Hbase数据特点 大:一个表可以有上亿行,上百万列。 面向列:面向列表(簇)的存储和权限控制,列(簇)独立检索。 稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计的非常稀疏。 无模式:每一行都有一个可以排序的主键和任意多的列,列可以根据需要动态增加,同一张表 ... »

zjdxr-up

Hbase一:Hbase介绍及特点

转载请注明出处: 1.Google的三篇论文 2003年,Google发布Google File System论文,(GFS)这是一个可扩展的分布 式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价 的普通硬件上,提供容错功能。从根本上说:文件被分割成很多块,使用冗余的方 式储 ... »

zjdxr-up

云音乐数据资产化建设的思考与实践

本文介绍是云音乐数据资产化建设相关的内容,介绍了近一年在具体实践过程中的一些阶段性的成果和思考;详细内容将从资产化建设的背景、近期的实践成果以及下一阶段的思考与规划共三个方面来展开。 1 从几个典型的问题出发 “我要取个数有没有现成的表?”,“按xx报表这个指标的口径,我想取清单明细怎么弄?”,“这 ... »

163yun

云小课|MRS数据分析-通过Spark Streaming作业消费Kafka数据

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Spark Streaming是一种构建在Spark上的实时计算框架,扩展了Spark处理大规模流式数据的能力。本文介 ... »

基于FLink实现的实时安全检测(一段时间内连续登录失败20次后,下一次登录成功场景)

研发背景     公司安全部目前针对内部系统的网络访问日志的安全审计,大部分都是T+1时效,每日当天,启动Python编写的定时任务,完成昨日的日志审计和检测,定时任务运行完成后,统一进行企业微信告警推送。这种方案在目前的网络环境和人员规模下,呈现两个痛点,一是面对日益频繁的网络攻击、钓鱼链接,T+ »

MySQL数据库的索引原理与慢SQL优化的5大原则

我们知道一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,所以查询语句的优化显然是重中之重。 本文旨在以开发工程师的角度来解释数据库索引的原理和如何优化慢查询。 MySQL索引原理 1.索引目的 索引 »

火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。 本 ... »

bytedata

MongoDB超大块数据问题解决

目录 引言 一、MongoDB服务器管理 1、添加服务器 2、修改分片中的服务器 3、删除分片 二、均衡器 三、修改块的大小 四、超大块 1、分发超大块 2、分发超大块步骤: 3、避免出现超大块 4、输出内容详解: 五、系统分析器 六、一些常见的辅助命令 引言 最近项目 »

华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值

摘要:对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。 本文分享自华为云社区《华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价 ... »

DataX二次开发——新增HiveReader插件

一、研发背景     DataX官方开源的版本支持HDFS文件的读写,并没有支持基于JDBC的Hive数据读写,很多时候一些数据同步不太方便,比如在读取Hive之前先执行一些sql、读取一些Hive的视图数据、或者在数据同步时执行一段固定的SQL,将SQL执行结果写入下游等各种场景,实际上还是需要H »

用户行为分析模型实践(三)——H5通用分析模型

本文从提升用户行为分析效率角度出发,详细介绍了H5埋点方案规划,埋点数据采集流程,提供可借鉴的用户行为数据采集方案;且完整呈现了针对页面分析,留存分析的数仓模型规划方案。 ... »

vivotech

如何又快又好实现 Catalog 系统搜索能力?火山引擎 DataLeap 这样做

摘要 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。 火山引擎 DataLeap 的 Data Catalog 系统通过汇总和组 ... »

bytedata

图扑软件 | 虚拟电厂负荷控制系统可视化

图扑软件应用自研 HT 引擎,为传统发电厂的控制管理,调度升级等业务功能做可视化转型,提供智慧虚拟电厂负控可视化解决方案。以天津市为背景,应用轻量化建模与强大的可视化引擎技术,搭建部署一套具备自我协调、自我管理、自我控制的智慧虚拟电厂负控平台。 ... »

xhload3d