Dataphin x Paimon 开箱即用的数据湖治理解决方案

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。

一、概述

随着数据湖技术的持续演进,Apache Paimon作为新一代开源数据湖表格式,凭借其强一致ACID事务支持实时写入能力高效的Schema管理原生流批一体架构,已成为企业构建现代化数据架构的关键选择。Dataphin作为领先的数据中台产品,已完成与Paimon的深度集成,通过全链路功能适配性能优化,为企业提供开箱即用的数据湖治理解决方案。

二、核心模块与功能适配

Dataphin x Paimon 开箱即用的数据湖治理解决方案.png

核心链路

1. 数据源支持Paimon

Paimon作为新一代数据湖表格式,Dataphin通过Hive数据源的多格式适配能力实现兼容。在创建Hive数据源时,只需开启"数据湖表格式"选项即可启用Paimon支持。对于已启用Paimon的数据源,用户需配置Spark。

数据源配置Paimon

2. 离线数据集成

在数据离线入湖和出湖场景,离线管道输入、输出组件均完成适配。在数据输入层面,当检测到Paimon格式的源表时,将自动识别表类型进行读取,确保高效解析Paimon特有的元数据结构和分区信息。针对输出场景,系统提供便捷的建表能力:用户可直接基于源表结构创建目标Paimon表,支持通过Spark引擎进行建表。

输入组件读取Paimon表

输出组件写入Paimon表

3. 实时数据集成

在实时数据入湖场景中,Dataphin的实时集成能力为多源异构数据写入Iceberg提供了灵活高效的解决方案。系统支持从各类主流数据源(如MySQL、Kafka、Oracle等)实时同步数据至Paimon表,并根据源表结构自动创建目标表,支持Spark SQL建表引擎。

针对目标表类型,Dataphin实现了多种写入策略:当目标表定义为主键表时,系统通过轻量级更新机制实现Upsert操作,有效应对数据变更场景;对于非主键表则采用追加写入模式,保障高吞吐场景下的写入性能。这种动态适配能力既满足了事务性更新需求,又延续了传统数据湖的扩展优势,显著提升了实时数据入湖的灵活性和处理效率。

实时集成写入Paimon表

4. 离线数据研发

离线研发已全面支持Apache Paimon表的存储与查询功能,兼容Paimon SQL语法标准,可无缝对接数据湖与数据仓库场景。

表管理支持Paimon

离线研发支持Paimon

5. 实时数据研发

实时研发支持Paimon

三、结语

Dataphin主流数据湖都已完成支持,欢迎大家前来体验。

相关文章
|
25天前
|
存储 运维 分布式计算
零售数据湖的进化之路:滔搏从Lambda架构到阿里云Flink+Paimon统一架构的实战实践
在数字化浪潮席卷全球的今天,传统零售企业面临着前所未有的技术挑战和转型压力。本文整理自 Flink Forward Asia 2025 城市巡回上海站,滔搏技术负责人分享了滔搏从传统 Lambda 架构向阿里云实时计算 Flink 版+Paimon 统一架构转型的完整实战历程。这不仅是一次技术架构的重大升级,更是中国零售企业拥抱实时数据湖仓一体化的典型案例。
130 0
|
2月前
|
存储 分布式计算 数据库
数据湖技术选型指南:Iceberg vs Delta Lake vs Paimon
对比当前最主流的三种开源湖格式:Iceberg、Delta Lake 和 Paimon,深入分析它们的差异,帮助大家更好地进行技术选型。
485 4
|
4月前
|
存储 SQL 测试技术
抖音集团基于Paimon的流式数据湖应用实践
本文整理自抖音集团数据工程师在Flink Forward Asia 2024的分享,围绕流式湖仓架构的背景、实践与未来展望展开。内容涵盖实时数仓架构演进、Paimon的应用与优化,以及在长周期指标计算和大流量场景下的落地实践经验。
447 0
|
7月前
|
SQL 数据采集 分布式计算
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。
673 34
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
|
SQL 分布式计算 Apache
Dataphin x Iceberg 开箱即用的数据湖治理解决方案
Apache Iceberg作为新一代开源数据湖表格式,具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成,通过全链路适配与性能优化,为企业提供开箱即用的数据湖治理方案,涵盖数据源支持、离线与实时数据集成、数据研发等核心模块,助力构建现代化数据架构。
194 0
|
4月前
|
SQL 安全 BI
Dataphin数据服务API行级权限管控解决方案 ——构建企业级数据安全的精细化管控体系
Dataphin数据服务推出行级权限管控功能,解决传统权限管理中用户权限分散、管控复杂等问题。支持直连与代理双模式访问,实现API与SQL权限统一管理,满足金融、零售、医疗等行业对数据访问的精细化控制需求。通过动态权限决策引擎和自动化继承体系,确保数据安全且提升应用开发效率。
436 0
|
11月前
|
SQL 存储 分布式计算
Paimon助力数据湖仓架构实时化升级
本次分享由阿里云高级技术专家李劲松介绍Paimon助力数据湖仓架构实时化升级。内容涵盖四个部分:1) 数据架构的存储演进,介绍Data LakeHouse结合的优势;2) Paimon实时数据湖,强调其批流一体和高效处理能力;3) 数据湖的实时流式处理,展示Paimon在时效性提升上的应用;4) 数据湖非结构化处理,介绍Paimon对非结构化数据的支持及AI集成。Paimon通过优化存储格式和引入LSM技术,实现了更高效的实时数据处理和查询性能,广泛应用于阿里巴巴内部及各大公司,未来将进一步支持AI相关功能。
|
6月前
|
测试技术 数据处理 调度
Dataphin功能Tips系列(57)「预览」vs「运行」:离线集成的神奇按钮
在数据开发过程中,使用Dataphin处理离线集成任务时,可能遇到数据过滤和字段计算组件配置正确性的验证问题。通过「预览」功能,可快速验证处理逻辑而不影响目标表;对于需要调度的任务,担心资源占用和耗时超出预期时,可使用「运行」功能进行全流程测试,评估实际耗时与资源消耗。「预览」适合逻辑验证,「运行」用于真实环境模拟,两者结合助力高效开发与调试。
155 5
|
6月前
|
SQL Java 关系型数据库
Dataphin功能Tips系列(53)-离线集成任务如何合理配置JVM资源
本文探讨了将MySQL数据同步至Hive时出现OOM问题的解决方案。
152 5
|
6月前
|
SQL 数据采集
Dataphin功能Tips系列(56)如何实现质量规则的批量修改
本文介绍了在Dataphin中针对Dataphin表和全域数据表的自定义SQL规则的批量修改的方法。
154 4

热门文章

最新文章