大数据

第四范式智能风控中台架构设计及应用

**导读:**风控是金融最常见的场景之一,本文将从业务和技术架构两个层面和大家探讨如何落地智能风控中台系统。分享主要围绕下面五点展开: 风控中台的设计背景 策略的全周期管理 模型的全周期管理 业务架构和能力原子化 应用案例 -- 01 风控中台的设计背景 首先大风控体系或者风控中台的建设在本质上是服 ... »

不care工具,在大数据平台中Hive能自动处理SQL

摘要:有没有更简单的办法,可以直接将SQL运行在大数据平台? 本文分享自华为云社区《Hive执行原理》,作者: JavaEdge 。 MapReduce简化了大数据编程的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用MapReduce开发大数据程序。但是对于经常需要进行大数据计算的 ... »

阿里巴巴稀疏模型训练引擎-DeepRec

DeepRec从2016年起深耕至今,支持了淘宝搜索、推荐、广告等核心业务,沉淀了大量优化的算子、图优化、Runtime优化、编译优化以及高性能分布式训练框架,在稀疏模型的训练方面有着优异性能的表现。本文将围绕背景、功能介绍、开源等方面系统介绍阿里巴巴DeepRec稀疏模型训练引擎。 ... »

从容器化到资源池化,数栈云原生技术实践探索之路

导读: 近些年随着云计算和云原生应用的兴起,容器技术可以很好地解决许多问题,所以将大数据平台容器化是一种理想的方案。本文将结合袋鼠云数栈在Flink on Kubernetes的实践让您对大数据平台容器化的操作和价值有初步的了解。 你可以看到 »

DTinsight

数据仓库(6)数仓分层设计

目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构。 分别为数据贴源层(ods)、数据仓库明细层(dw)、多维明细层(dws)和数据集市层(dm)。 ... »

坐实大数据资源调度框架之王,Yarn为何这么牛

摘要:Yarn的出现伴随着Hadoop的发展,使Hadoop从一个单一的大数据计算引擎,成为大数据的代名词。 本文分享自华为云社区《Yarn为何能坐实资源调度框架之王?》,作者: JavaEdge。 Hadoop主要组成: 分布式文件系统HDFS 分布式计算框架MapReduce 分布式集群资源调度 ... »

都2022年了,HDFS为何还如此能战!

摘要:HDFS也许不是最好的大数据存储技术,但依然是最重要的大数据存储技术。 本文分享自华为云社区《HDFS为何在大数据领域经久不衰?》,作者: JavaEdge。 1、概述 1.1 简介 Hadoop实现的一个分布式文件系统(Hadoop Distributed File System),简称HD ... »

Spark性能优化

Spark配置介绍 Spark中的配置选项在四个地方可以进行配置,其中优先级如下: SparkConf(代码) > spark-submit 或 spark-shell 命令行参数 > spark-defaults.conf > spark-env.sh > 默认值 在代码中配置的为静态配置,在sp ... »

什么是机器学习回归算法?【线性回归、正规方程、梯度下降、正则化、欠拟合和过拟合、岭回归】

1 、线性回归 1.1 线性回归应用场景 房价预测 销售额度预测 金融:贷款额度预测、利用线性回归以及系数分析因子 1.2 什么是线性回归 1.2.1定义与公式 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分 ... »

什么是机器学习回归算法?【线性回归、正规方程、梯度下降、正则化、欠拟合和过拟合、岭回归】

1 、线性回归 1.1 线性回归应用场景 房价预测 销售额度预测 金融:贷款额度预测、利用线性回归以及系数分析因子 1.2 什么是线性回归 1.2.1定义与公式 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分 ... »

什么是机器学习的分类算法?【K-近邻算法(KNN)、交叉验证、朴素贝叶斯算法、决策树、随机森林】

1、K-近邻算法(KNN) 1.1 定义 (KNN,K-NearestNeighbor) 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 1.2 距离公式 两个样本的距离可以通过如下公式计算,又叫欧式距离。 简单理解这个算法: 这个 ... »

实时流处理与分布式存储过程中对文件的操作

这两天都是在跟文件打交道,很有趣,每一步都不会顺心如意,但每一步的解决都有所获益,首先是对文件变化的监测,能找到很多办法,例如通过ELK家族的Filebeat工具来探测,但是外部工具不好融合进Storm,最好是自己写Java程序来监测。 引入Java NIO 监控文件 其实jdk7以上版本就有一个比 ... »

readbyte

hive从入门到放弃(四)——分区与分桶

今天讲讲分区表和分桶表,前面的文章还没看的可以点击链接: hive从入门到放弃(一)——初识hive hive从入门到放弃(二)——DDL数据定义 hive从入门到放弃(三)——DML数据操作 分区 分区可以提高查询效率,实际上 hive 的一个分区就是 HDFS 上的一个目录,目录里放着属于该分区 ... »

构建煤矿物联网大数据平台思路(1)

最近要构建一个综合自动化分析平台,需求是实现煤矿十几个子自动化系统的数据收集、分析、报表、统计功能。 现在的趋势是构建物联网大数据平台。但是现有系统是基于传统的EF5+PSpace实时数据库。 先从实时数据库开始下手分析。拿到 sdk 是.net、java、c三种。最后一种不会。分析前两种。 pSp ... »

AlexanderZhao

10.Flink实时项目之订单维度表关联

在上一篇中,我们已经把订单和订单明细表join完,本文将关联订单的其他维度数据,维度关联实际上就是在流中查询存储在 hbase 中的数据表。但是即使通过主键的方式查询,hbase 速度的查询也是不及流之间的 join。外部数据源的查询常常是流式计算的性能瓶颈,所以我们在查询hbase维度数据的基础上... ... »

Clickhouse 用户自定义外部函数

写在前面 Clickhouse 从 21.11 版本开始,除了提供类似SqlServer、MySQL CREATE FUNCTION 的自定义函数之外,还有一个用户自定义函数(UDF),与其说是“用户自定义函数”,为了避免混淆,称之为”用户自定义外部函数“更为准确。官方对此功能的解释: ClickH ... »

EminemJK

数据仓库(5)数仓Kimball与Inmon架构的对比

数据仓库主要有四种架构,Kimball的DW/BI架构、独立数据集市架构、辐射状企业信息工厂Inmon架构、混合Inmon与Kimball架构。不过不管是那种架构,基本上都会使用到维度建模。 <b>Kimball的DW/BI架构</b>,可以参考这篇文章 数据仓库(4)基于维度建模的KimBall架 ... »

4.RDD操作

一、 RDD创建 从本地文件系统中加载数据创建RDD sc:SparkContext(shell自动创建) 本地文件系统中加载数据创建RDD Spark采用textFile()方法来从文件系统中加载数据创建RDD 该方法把文件的URI作为参数,这个URI可以是: 本地文件系统的地址 或者是分布式文件 ... »