大数据

在字节,A/B 实验是这么做的!

主要为大家介绍了为什么要做 A/B 测试、火山引擎的 A/B 测试系统架构及字节跳动内部 A/B 测试的最佳实践。 为什么要做 A/B 测试 首先我们看一个案例。 字节跳动有一款中视频产品叫西瓜视频,最早它叫做头条视频。为了提升产品的品牌辨识度,团队想给它起个更好的名字。经过一些内部调研和头脑风暴, ... »

bytedata

[NewLife.XCode]实体队列(多线程生产的大数据集中保存)

NewLife.XCode是一个有15年历史的开源数据中间件,支持netcore/net45/net40,由新生命团队(2002~2020)开发完成并维护至今,以下简称XCode。 整个系列教程会大量结合示例代码和运行日志来进行深入分析,蕴含多年开发经验于其中,代表作有百亿级大数据实时计算项目。 开 ... »

Flink 非对齐Unaligned的checkpoint(源码分析)

本文源码基于flink1.14 在帮助用户排查任务的时候,经常会发现部分task处理的慢,在Exactly once语义时需要等待快照的对齐而白白柱塞的情况 在flink1.11版本引入了非对齐的checkpoint,来解决这种柱塞问题,所以来看看这个新特性的源码是如何实现的 先看下官网的图来总的说 ... »

深度介绍Flink在字节跳动数据流的实践

本文是字节跳动数据平台开发套件团队在1月9日Flink Forward Asia 2021: Flink Forward 峰会上的演讲分享,将着重分享Flink在字节跳动数据流的实践。 字节跳动数据流的业务背景 数据流处理的主要是埋点日志。埋点,也叫Event Tracking,是数据和业务之间的桥 ... »

bytedata

解析HetuEngine实现On Yarn原理

摘要:本文介绍HetuEngine实现On Yarn的原理,通过阅读本文,读者可以了解HetuEngine如何在资源使用方面融入Hadoop生态体系。 本文分享自华为云社区《MRS HetuEngine 特性之 On Yarn原理介绍》,作者:一颗柠檬。 HetuEngine是华为自研高性能分布式S ... »

详解数据中台的底层架构逻辑

​ 数据中台到底是什么,几年过去了,也一直众说纷纭。 笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。 数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业 务场景,打造各类数据服务(含数据应用平台)从而实现对业务的赋 ... »

注意,你所做的 A/B 实验,可能是错的!

对于 A/B 实验原理认知的缺失,致使许多企业在业务增长的道路上始终在操作一批“错误的 A/B 实验”。这些实验并不能指导产品的优化和迭代,甚至有可能与我们的初衷背道而驰,导致“负增长”。 在 A/B 实验不断走红的今天,越来越多的企业开始意识到 A/B 实验的重要意义,并试图通过 A/B 实验,前 ... »

bytedata

大数据基础---HDFS-HA搭建

一.简述 上一篇了解了Zookeeper和HDFS的一些概念,今天就带大家从头到尾搭建一下,其中遇到的一些坑也顺便记录下。 1.1 搭建的拓扑图如下: 1.2 部署环境:Centos3.1,java1 »

shun7man

大数据之kafka-05.讲聊聊Kafka的版本号

今天聊聊kafka版本号的问题,这个问题实在是太重要了,我觉得甚至是日后能否用好kafka的关键。上一节我们介绍了kafka的几种发行版,其实不论是哪种kafka,本质上都内嵌了最核心的Apache »

yuhan-Hanny

采用Kettle分页处理大数据量抽取任务

作者:Grey 原文地址: 采用Kettle分页处理大数据量抽取任务 需求 将Oracle数据库中某张表历史数据导入MySQL的一张表里面。 源表(Oracle):table1 目标表(MySQL): »

greyzeng

storm流式大数据处理流行吗

在如今这个信息高速增长的今天,信息实时计算处理能力已经是一项专业技能了,正是因为有了这些需求的存在才使得分布式,同时具备高容错的实时计算系统Storm才变得如此受欢迎,为什么这么说呢?下面看看新霸哥的 »

weijun

大数据流式处理一个不能忽视的问题

我的上一篇BLOG《大数据处理的两种模式》,谈了大数据基于内存的流式处理和基于硬盘的存储处理。比较这两种处理模式,因为内存的处理性能是硬盘的N个量级,所以流式处理效率要远远高于存储处理,但是流式处理本 »

laxcus