JuiceData

开源一周年

JuiceFS 开始于 2017 年,是一款云原生分布式文件系统,旨在帮助企业解决多云、跨云、混合云环境下所面临的诸多挑战:数据安全和保护、大数据架构升级、海量小文件访问、Kubernetes 标准存储等。 JuiceFS 完全兼容 POSIX、HDFS、S3 访问协议,并提供 Kubernetes CSI 驱动,在全球公有云上均有全托管服务。为了更好的打造让开发者爱不释手的软件,我们于 2021 年 1 月 11 日在 GitHub 上开源了 JuiceFS。

今天, JuiceFS 已经开源一周年了!

一年前的今天,我们将 JuiceFS 在 GitHub 上开源,初心其实很简单:希望通过开源让 JuiceFS 被更多的开发者知道、了解、并使用。毕竟软件最大的价值还是被使用。开源后的 JuiceFS 让用户不再担心黑盒的云服务,用户可以自行下载代码,探索 JuiceFS 的无限可能;开发者可以查阅 JuiceFS 的代码,从最底层了解、熟悉、信任他,甚至可以参与到 JuiceFS 的打造中。我们希望营造一个互相尊重的社区文化,身处其中不仅可以使用 JuiceFS,也可以在这交流新场景、新玩法,还可以讨论 JuiceFS 的工程设计理念和参与未来方向的制定。

开发者们对 JuiceFS 开源的反馈也超出我们的预期,开源第一周就登上了 GitHub Trending、Hacker News、InfoQ 等以开发者为主要受众的的媒体平台。

经过一年的时间,JuiceFS 在社区和产品都取得了长足的进步,但行百里者半九十,我们深知坚持的难度,也将继续怀着开放和连接的心态砥砺前行。

产品全面升级,更加开放

JuiceFS 刚开源时,元数据引擎的选择只有 Redis。存储介质为内存的 Redis 在数据可靠性和扩展性上存在诸多挑战。我们将元数据引擎的相关代码进行了可插拔改造,引入了对关系型数据库和像 TiKV 这样的事务型 KV 存储的支持,解决了可靠性和可扩展性问题,给了用户更多的选择。

作为 JuiceFS 数据持久层的对象存储,我们也支持了近 40 种,基本涵盖了公有云、边缘云、私有云等环境中部署使用的常见种类。当然,如果有遗漏欢迎 GitHub 上发起 issue,我们将尽快支持。拓宽 JuiceFS 的生态和提升 JuiceFS 开放性是我们矢志不渝的追求。

最开始的 JuiceFS 只支持应用最广泛的 POSIX API,此后陆续支持了 HDFS、S3 API,和 Kubernetes CSI 和 Windows 操作系统,未来我们还将支持更多更灵活的访问方式。 这些协议点缀成线,将散落在企业内部的数据孤岛,编织成网,更好的帮助企业打通多态业务系统的数据,整合不同的技术体系,连接多云,帮助客户搭建更加开放的数据存储平台。

JuiceFS 还提供了元数据的备份和导入功能,让用户在「意外」面前更多一份保障和可靠。 这一功能给予了用户按照 JSON 格式进行备份的能力,提高数据可读性的同时,也保证了数据在不同元数据引擎间的可交换性。最后,可靠的 JuiceFS 还提供了「回收站」的功能,在这里可以找到那些被误删除的数据。

除了在产品开放性上的持续投入,我们还将目光放到了文档的开放性和易用性上。我们深刻理解,文档是用户与产品之间重要的纽带!自 JuiceFS 开源以来,我们始终坚持高品质的技术与高品质的文档并行输出的原则。

2021 年,我们对文档进行了三次完整迭代,实现了文档从「专业性」到「普适性」,再到「体验性」的持续蜕变。优化文档的工作仍在继续,努力确保 JuiceFS 的文档能够「让新用户马上用」,「让老用户放心用」。除了文档的工作以外,在快速的版本迭代中,JuiceFS 也一直保持数据格式、通信协议的兼容性,保证版本的向前兼容,让用户可以平滑升级。

JuiceFS 开源的一年里,产品也有了巨大的变化,也让我们更加坚定走开源路线是无比正确的,因为只有开放的生态是最具生命力的。

丰富场景落地,生态共建

在短短的一年时间里,有超过 4400 多位的开发者给 JuiceFS 点了个赞。这些开发者不仅仅来自于中国,也有来自于欧洲、美洲大陆、非洲,甚至中东的地区的开发者。新冠疫情虽然隔断了我们物理上的联系,但开源社区让我们齐聚一堂,一起在过去的 2021年,为 JuiceFS 的社区添砖加瓦。

过去的一年里有超过 40 位贡献者完成了超过 800 次 Pull Requests,这是我们通过 GitHub 和开发者群体完成的 800 次连接。在这 800 次连接的加持下,JuiceFS 发布了 16 次新版本,这些背后默默关注 JuiceFS 的社区用户,压力倍增的同时也给我们满满的动力。

基于微信和 Slack 的社群,搭建了超过 1500 人的用户交流群组,参与了 9 场活动,大家从使用出发,满载而归的是 33 篇关于 JuiceFS 的技术内容和场景实践。在这里,我们连接了场景和用户。

文件系统是各种应用开发的基石,如何与其他应用结合,提供杰出的表现和良好的体验,形成生态,是 JuiceFS 社区的重要工作。在过去的一年中,JuiceFS 已经在一些领域受到了大家的认可,取得了不错的进展。

大数据生态

JuiceFS 可以完全兼容 HDFS,与 Hadoop 生态无缝集成,一些客户已经替换了 HDFS实现存算分离的架构升级。

  • Apache Kylin 4.0 发布了使用 JuiceFS 构建集群的解决方案。
  • 利用 ClickHouse 和 Elasticsearch 的数据生命周期特性,JuiceFS 可以轻松实现数据分层存储,为用户增效降本。

AI 生态

JuiceFS 多访问协议的支持可以大量省去业务流程中数据迁移调度工作,与主流机器学习、深度学习训练框架全部兼容。

  • 旷视技术团队还贡献了 JuiceFS Python SDK,方便在 Serverless 环境中访问 JuiceFS 数据。
  • JuiceFS 缓存加速是 AI 训练场景最受欢迎的特性,PaddlePaddle 已经将 JuiceFS 集成到 Paddle Operator 中为训练加速。
  • 云知声团队的伙伴为 Fluid 社区贡献了 JuiceFSRuntime。
  • 向量搜索引擎 Milvus 也发布了基于 JuiceFS 构建分布式集群的解决方案。
  • Byzer 社区也将 JuiceFS 作为云原生文件系统集成到自己的解决方案中。

Kubernetes 生态

JuiceFS 非常适合作为 PV(PersistentVolume)使用,是容器原生存储(Container Native Storage)。社区提供了 CSI 驱动和全面的文档指南,而且已经入驻了 KubeSphere 应用商店,在 Rancher 和云托管的 Kubernetes 服务中使用也同样简单。

在使用 JuiceFS 的朋友,也希望把你的经验和问题反馈到 JuiceFS 社区,不仅能得到支持和帮助,还能让你的经验帮到很多人,这正是开源社区的价值和魅力。

多行业生产环境验证,JuiceFS 1.0 来了

对于存储系统而言,可靠性永远排在第一位。JuiceFS 创新性地将元数据和数据分别保存到成熟的数据库和对象存储中,一开始就有了可靠性保证,这也是众多科技公司在能够在 JuiceFS 发布半年内就投入生产环境并保证稳定运行的关键所在。依托于标准访问协议,JuiceFS 采用了开源社区已有的测试集来保证兼容性和可靠性,还有各种单元测试、压力测试、混沌测试和性能测试保障,在产品快速迭代的同时保证每次版本发布的高品质。

JuiceFS 开源的一年里,已经有小米、Shopee、理想汽车、知乎、航天宏图、尧信等多家厂商在生产环境中部署了 JuiceFS,稳定运行半年以上。

  • 小米用 JuiceFS 做 AI 平台的存储底座。
  • Shopee 将 JuiceFS 作为云平台的文件存储服务提供给各业务线,支持了多样的业务场景。
  • 理想汽车用 JuiceFS 实现了数仓的存算分离。
  • 知乎用 JuiceFS 把 Flink 流计算的启动加载提速 4 倍。
  • ....

JuiceFS 已经稳定持续的运行多家互联网和 AI 企业的生产环境中,不仅仅为客户降本,更为客户提升数据使用的效率和缩短新业务上线的周期,当然内置的数据保护和加密也让客户大大宽心。在过去的一年里,每天在线的 JuiceFS 集群数量也稳步上升,从最初的几个,到现在的超过 500,保持了较高的增长速率。值得一提的是,这仅仅是我们有记录的数据,相信还有很多我们没联系到的用户。

在国内外互联网、自动驾驶、基因测序、金融科技、智能制造等多个行业,以及广大社区开发者的支持、验证和持续反馈之下,经过全面的评估和各类场景下的验证,JuiceFS 社区将于本周发布 JuiceFS v1.0-beta,欢迎社区用户测试并给我们反馈,根据反馈改进后发布 v1.0-GA。

重新思考开源许可

回到 2021 年发布之初,JuiceFS 只支持在挂载后通过 POSIX 方式访问数据,应用是通过内核来访问数据,并不需要直接跟 JuiceFS 打交道,应用并不会被 GPL 系列的许可影响,所以当时采用了文件存储界使用最广泛的 GPL 许可(AGPL v3)。

随着 JuiceFS 的不断迭代,引入了更多的访问协议和 SDK(S3 兼容的 HTTP 协议以及跟 HDFS 兼容的 Java SDK),影响用户基于它们去开发商业产品。同时,也有一些开源社区和开发者希望将 JuiceFS 作为存储底座,整合到自己的项目中,但 AGPL v3 与其他开源协议(比如 Apache 协议)的兼容性不太好,阻碍了更多人去享受 JuiceFS 提供的多协议互通和高效缓存系统等诸多便利。

所以,为了我们的初心——打造开发者最喜欢的存储产品,Juicedata 团队决定自 JuiceFS v1.0 起将许可更改为 Apache 2.0。

重新定义文件存储,未来可期

JuiceFS v1.0 是一个重要的里程碑,代表它可以被放心的使用于各种场景的生产环境,开始接受更多更严苛的挑战。之后社区仍将持续加大投入,持续为大家带来更多有价值的特性,比如呼声最高的配额管理,Snapshot,支持更多元数据引擎等。

随着数据规模的快速增长,分布式文件系统愈发重要。传统分布式文件系统都采用自底向上的一整套系统,复杂度非常高,难以掌握。JuiceFS 创新性地分离元数据和数据存储,并尽量复用已有的成熟数据库和对象存储等基础设施,访问协议也是同时兼容所有主流的接口,将分布式文件系统的系统复杂度和使用门槛大幅降低,重新定义了分布式文件系统的构建方式,通过一套体系和不同组件的搭配,可以满足不同规模和场景的非结构化存储需求。同时,JuiceFS 是完全云原生的设计,可以跟云上的生态很好地衔接,符合云存储发展的大趋势,有非常广泛的应用前景。

尽管 JuiceFS 已经做了非常多的减法,尽量避免重复造轮子,打造成熟可靠的存储产品仍然需要巨大的工程投入。我们在过去一年里也进一步壮大了工程师团队,很多都是从 JuiceFS 社区的参与到加入 Juicedata 团队,也欢迎更多志同道合的同学们加入,一起开创分布式文件存储的新时代。

开源产品的研发,需要持续的资金投入,我们花了 4 年验证过的商业化服务也在快速增长,为 JuiceFS 的发展提供持续可靠的资金保障。开源是我们的星辰大海,商业化为它保障护航。

道阻且长,但行则将至!

欢迎关注我们项目 Juicedata/JuiceFS 哟! (0ᴗ0✿)

分类:

技术点:

相关文章: