大数据

Kubeadm方式搭建K8S集群

Kubeadm方式搭建K8S集群 一、搭建k8s集群(kubeadm方式) kubeadm部署方式介绍 kubeadm是官方社区推出的一个用于快速部署kubernetes集群的工具,这个工具能通过两条指令完成一个kubernetes集群的部署: 第一,创建一个master几点 kubeadm ini ... »

图解Spark排序算子sortBy的核心源码

原创/朱季谦 一、案例说明 以前刚开始学习Spark的时候,在练习排序算子sortBy的时候,曾发现一个有趣的现象是,在使用排序算子sortBy后直接打印的话,发现打印的结果是乱序的,并没有出现完整排序。 例如,有一个包含多个(姓名,金额)结构的List数据,将这些数据按照金额降序排序时,代码及打印 ... »

sqoop1.4.7完全支持Hadoop3.x, Hive3.x Hbase2.x

已经修改好 保存至云盘 自己下载 花了时间的,记得关注我。。。 链接:https://pan.xunlei.com/s/VNe6P6Tm1A9Q-RG5GByN08rdA1# 提取码:5nke 复制这段内容后打开手机迅雷App,查看更方便 下载解压直接用,里面的内容已经改好 但是需要注意的是conf ... »

pentaho(keetle)使用手册

# pentaho使用 先展示一下用途和效果 ![image](https://jsd.cdn.zzko.cn/gh/YuanjunXu/Images@main/src/image.1gzusdgfiiao.webp) ## 1. 环境准备 ### 1.1 pentaho是什么? > `pentah ... »

Redis的五大数据类型的数据结构

概述 Redis底层有六种数据类型包括:简单动态字符串、双向链表、压缩列表、哈希表、跳表和整数数组。这六种数据结构五大数据类型关系如下: String:简单动态字符串 List:双向链表、压缩列表 Hash:压缩列表、哈希表 Sorted Set:压缩列表、跳表 Set:哈希表、整数数组 数据类型和 ... »

fhey

Spark RDD惰性计算的自主优化

原创/朱季谦 RDD(弹性分布式数据集)中的数据就如final定义一般,只可读而无法修改,若要对RDD进行转换或操作,那就需要创建一个新的RDD来保存结果。故而就需要用到转换和行动的算子。 Spark运行是惰性的,在RDD转换阶段,只会记录该转换逻辑而不会执行,只有在遇到行动算子时,才会触发真正的运 ... »

窗口函数大揭秘!轻松计算数据累计占比,玩转数据分析的绝佳利器

上一篇文章[《如何用窗口函数实现排名计算》](https://www.cnblogs.com/powertoolsteam/p/17627928.html)中小编为大家介绍了窗口函数在排名计算场景中的应用,但实际上窗口函数除了可以进行单行计算,还可以在每行上打开一个指定大小的计算窗口,这个计算窗口可 ... »

powertoolsteam

Redis的五大数据类型及其使用场景

redis是一个非常快速‎‎的非关系数据库‎‎解决方案。其简单的键值数据模型使 Redis 能够处理大型数据集,同时保持令人印象深刻的读写速度和可用性。‎redis提供了五种数据类型,分别是是:1、string(字符串);2、hash(哈希);3、list(列表);4、set(集合);5、sort ... ... »

fhey

基础大模型能像人类一样标注数据吗?

自从 ChatGPT 出现以来,我们见证了大语言模型 (LLM) 领域前所未有的发展,尤其是对话类模型,经过微调以后可以根据给出的提示语 (prompt) 来完成相关要求和命令。然而,直到如今我们也无法对比这些大模型的性能,因为缺乏一个统一的基准,难以严谨地去测试它们各自的性能。评测我们发给它们的指 ... »

huggingface

Self-Instruct 论文解读:利用大模型自己给自己生成指令数据,指令数据自动生成

## 总览 大规模“指令调整”的语言模型,即**指令微调的LLM**,已经表现出非凡的**零样本能力**,尤其是推广**新任务上**。 然而,这些模型严重依赖于人类编写的指令数据,而这些数据通常在数量、多样性和创造力方面受到限制,因此阻碍了调整模型的通用性。 基于上述背景,作者提出了**Self-i ... »

chengnan113

园子的商业化努力:今晚8点有一场直播《大模型训练数据的一些事》

今晚8点有一场直播《大模型训练数据的一些事》,欢迎大家加下面的企业微信(行行人才小秘书)到时观看直播。园子最近推出的直播是行行AI人才运营的主要内容,行行AI人才是园子商业化努力的重要一步,是园子和园子的天使投资方顺顺智慧成立新公司共同运营的新业务。 ... »

cmt

数据治理核心保障数据质量监控开源项目Apache Griffin分享

数据开发和数据应用创造价值离不开数据的质量,数据质量管理是数据治理重要保障途径,Apache Griffin就是为解决数据质量监控而设计,本篇先了解Apache Griffin定义、特性和架构,然后通过官方提供docker-compose一键部署和体验,通过官网提供批处理和流处理演示操作,最后通过其... ... »