Dataphin V3.10升级速览丨集成能力提升、15个应用场景、数据治理能力优化……

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: Dataphin V3.10升级速览丨集成能力提升、15个应用场景、数据治理能力优化……


Dataphin V3.10

重点特性的应用场景示例

 


特性1:支持ArgoDB计算引擎



  • 应用场景01:


如果您已经有了星环的ArgoDB,您可以通过Dataphin纳管这些资产,并可同时纳管其他的大数据平台,并进行一站式的大数据集成、研发、盘点、治理和标签化工作。



特性2:支持数据源的跨租户发布



  • 应用场景02:


在生产开发物理隔离的环境下,数据源可在目标环境重建并修改为目标环境的配置,比如在发布到生产环境时,可将业务数据库的地址变更为线上的数据库或者备库。

特性3:下载水印及权限审批保安全



  • 应用场景03:


数据下载后脱离平台后即无法管控数据的再次分享及使用,因此需要 ① 可管控的数据下载,可根据项目开启或关闭数据下载,是否需要审批以及审批流程;② 下载的文件可设置水印用于警示和提醒用户注意数据安全。




特性4:资源组按需分配


  • 应用场景04:


支持按照租户、项目、任务粒度分配资源,可使不同业务部门所使用的资源解耦,从而实现各业务部门按需结算等应用场景。比如可给核心集成任务配置“集成专用资源组”,其他非核心任务使用项目默认资源组,保证核心业务库的集成任务按时运行。


同时支持临时批量运维操作,当每月初都需要回刷上个月的订单数据以更新退款信息,可以创建一个“订单数据回刷专用资源组”,并在补数据时指定使用该资源组,从而保证周期实例的资源消耗不受补数据实例的影响。




特性5:「个人数据中心」一键转交数据资产



  • 应用场景05:


某员工即将离职,需要将自己负责的表统一转交给交接人员,可以在个人数据中心一键转交所有数据表负责人。


当项目管理员需要检查某张核心表的负责人转交详情做审计,可以通过单张数据表的负责人转交记录进行查看。



特性6:基于标准系统属性快速配置质量监控



  • 应用场景06:

Dataphin 提供多条内置内容质量监控的公共系统属性,如:引用“值域”属性,属性的取值方式配置为“范围值-范围区间”,那么在创建数据标准时,填写完成值域属性就会自动生成 1 条“字段值域监控”的质量规则,规则配置和填写的区间值一致,校验配置为“异常行数<=0”,无需额外手动配置。

               

                               


特性7:映射关系支持手动干预



  • 应用场景07:


数据标准创建完成后,需要指定其关联的资产对象才能发挥应用价值。Dataphin 提供多种映射关系的查看视角,包括按数据表汇总及全部展开,可满足不同的查看分析诉求。


针对不合理的映射关系,直接执行“置为无效映射”操作;如果您需要移除某些无效映射关系重新加入落标监控评估,可以执行“解除无效映射”操作。





特性8:质量整改及治理实现闭环



  • 应用场景08:


质量校验时发现的质量问题,会出现在治理工作台中,等待负责人处理。通过治理工作台,可以实现以下治理操作:发起治理、忽略本次异常、添加白名单、重新校验、通知负责人进行具体的问题治理;或者查看问题的历史操作记录,了解历史问题和治理方案。


在治理工作台中发起治理后,可以在治理流程列表中看到和自己相关的治理流程,完成治理后,治理人可以发起验收,提交整个治理流程到验收人处理。


               


                               

  • 应用场景09:


在质量规则配置时,可以选择开启异常归档,开启异常归档后,可以将质量校验过程中的异常数据,存储到指定位置,用于后续的下载分析等用途。


可以在即席查询和代码任务中,针对异常归档表中的异常数据进行更灵活的分析,从而发现更复杂的数据质量问题。





特性9:降低标签类型开发门槛



  • 应用场景10:


该版本将服务视图与实时视图类型整合,仅需根据数据来源选择加工方式即可实现实时视图快速构建。


例如,通过“下单事件”定义视图并开发“最近1天累计消费金额”实时标签,开发者可以选择“事件预加工”加工方式;


通过查询HBase中的交易数据定义实时视图并开发“最近7天下单数”标签,则可选用“HBase视图”来源表字段解析的方式进行实时视图构建;


通过三方开放平台采买数据定义实时视图开发标签时,则可通过解析“HTTP视图”返回参数定义实时视图。




  • 应用场景11:

在前期业务规划时,通过csv文件整理的标签类目可以通过本地文件上传的方式一键生成资产市场标签、群组类目,实现类目快速创建,降低类目创建成本。


群组资产市场详情增加群组规模以及群组血缘,资产成员可以查看上架群组历史规模、上游数据来源以及下游数据应用情况。




特性10:数据服务API对接更便捷



  • 应用场景12:

与企业合作的第三方技术人员需要调用在数据服务开发好的API时,由于第三方人员属于外部人员,往往没有权限登录到系统查看API的文档,需要企业的开发人员花大量的时间与第三方技术人员反复沟通确认。


API文档支持下载并且生成对应API的可执行代码后,企业的技术人员只需要将对应的API文档下载下来,第三方技术人员根据文档即可完成API的调用对接。





特性11:计算任务管理与维护提效


  • 应用场景13:


计算任务列表将计算任务的主要属性作为列表项展示出来,无须打开任务即可同时看到一批任务的属性信息,并可以通过筛选条件,灵活方便的查找定位任务,并支持进行批量操作。





特性12:更完善的监控告警机制


  • 应用场景14:


支持项目级监控告警,支持按照任务类型/调度类型配置项目级别的监控告警。对项目下监控范围内的所有对象均生效,符合条件的新增任务将自动配置对应监控。


支持逻辑表整表级别的监控告警,逻辑表中新增加的字段将自动配置监控告警。





  • 应用场景15:


实时监控指标可以帮助用户及时了解Flink SQL作业的运行情况,包括作业的吞吐量、延迟、并发度、资源利用率等关键指标。Dataphin支持查看checkpoint、IO、watermark、CPU、memory、JVM六大类40余种监控指标。


这些指标可以帮助用户快速发现作业运行的问题,比如性能瓶颈、资源竞争等,及时进行优化和调整,以保证作业的高效稳定运行。


同时,实时监控指标还可以帮助用户进行容量规划和资源优化,以最大限度地提高作业的处理能力和质量。




04  总结与展望 



本次发布的V3.10版本中,Dataphin新增了ArgoDB作为计算引擎;针对客户不同的管控诉求,提供了自定义审批模版、自定义下载和权限审批策略的管控能力;优化了自定义数据源的元数据获取和创建流程;在数据集成、实时研发、数据服务中都新增了多种数据源的适配;在资产治理中,也支持了质量整改、异常数据归档、标准关联质量。


在下一个版本中,我们将针对Dataphin的数据分析能力、数据隐私计算和安全流通、Impala引擎等相关能力进行升级,增强产品能力,持续提升用户体验。

相关文章
|
1月前
|
机器学习/深度学习 算法 PyTorch
125_训练加速:FlashAttention集成 - 推导注意力优化的独特内存节省
2025年,大型语言模型的训练面临着前所未有的挑战。随着模型参数量和序列长度的不断增加,传统注意力机制的内存瓶颈问题日益突出。FlashAttention作为一种突破性的注意力算法,通过创新的内存访问模式和计算优化,显著提升了训练效率和内存利用。
|
5月前
|
存储 文字识别 自然语言处理
通义大模型在文档自动化处理中的高效部署指南(OCR集成与批量处理优化)
本文深入探讨了通义大模型在文档自动化处理中的应用,重点解决传统OCR识别精度低、效率瓶颈等问题。通过多模态编码与跨模态融合技术,通义大模型实现了高精度的文本检测与版面分析。文章详细介绍了OCR集成流程、批量处理优化策略及实战案例,展示了动态批处理和分布式架构带来的性能提升。实验结果表明,优化后系统处理速度可达210页/分钟,准确率达96.8%,单文档延迟降至0.3秒,为文档处理领域提供了高效解决方案。
547 1
|
5月前
|
运维 安全 关系型数据库
【产品升级】Dataphin V5.1版本发布:跨云数据集成、指标管理、平台运维带来重大更新!
V5.1版本新增多项功能:对接AWS生态(支持Amazon EMR、Redshift等),强化研发技术支撑(如API认证升级、全量任务隔离),完善运营消费链路(新增业务指标管理、指标关系图),提升平台综合能力(自定义菜单、缩短升级停机时间)。这些功能助力企业实现高效数据治理与分析,未来还将拓展智能化与国际化支持。
349 0
|
6月前
|
测试技术 数据处理 调度
Dataphin功能Tips系列(57)「预览」vs「运行」:离线集成的神奇按钮
在数据开发过程中,使用Dataphin处理离线集成任务时,可能遇到数据过滤和字段计算组件配置正确性的验证问题。通过「预览」功能,可快速验证处理逻辑而不影响目标表;对于需要调度的任务,担心资源占用和耗时超出预期时,可使用「运行」功能进行全流程测试,评估实际耗时与资源消耗。「预览」适合逻辑验证,「运行」用于真实环境模拟,两者结合助力高效开发与调试。
155 5
|
2月前
|
SQL 运维 关系型数据库
【产品升级】Dataphin V5.0版本发布:助力出海业务、增全量一体集成、异步调用API等更多功能等你发现
Dataphin是瓴羊推出的智能数据建设与治理平台,基于阿里巴巴内部实践,提供一站式数据建设与治理能力。V5.0版本研发新增支持Databricks作为离线计算引擎、支持MySQL数据库一键增全量同步、支持管理Hudi、Delta Lake表等;资产运营与消费持续提效,支持批量编辑目录名称及描述、Quick BI仪表板的上架管理等功能,增加资产可用性与盘点效率。
198 8
|
2月前
|
机器学习/深度学习 运维 算法
【EI复现】一种建筑集成光储系统规划运行综合优化方法(Matlab代码实现)
【EI复现】一种建筑集成光储系统规划运行综合优化方法(Matlab代码实现)
|
2月前
|
SQL 人工智能 搜索推荐
Dataphin功能Tips系列(71)X-数据管家:数据资产运营的「AI外挂」
在企业数据治理中,数据资产规模庞大、字段繁多,手动录入效率低且易出错。Dataphin推出「X-数据管家」,利用大模型智能生成标签、描述及字段类型等信息,支持一键批量上架,大幅提升资产运营效率。
|
6月前
|
运维 监控
Dataphin V5.0:增全量一体实时集成
数据集成中,离线与实时方式各有优劣。为解决传统“全量+增量”双轨模式运维复杂的问题,Dataphin 5.0推出“全量+增量一体化实时同步”功能。用户仅需创建一个实时任务,即可完成整库或多表的数据迁移,系统自动协调全量与增量同步,简化管理并降低运维成本。该功能支持灵活配置启动范围与方式,提供实时监控及操作能力,大幅提升数据同步效率与稳定性。
208 41
|
5月前
|
存储 缓存 分布式计算
OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
MaxCompute直读OSS外部表优化方案,解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化(ORC/Parquet)、分区剪枝、谓词下推与元数据缓存等技术,显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略,实现高效数据分析。
126 2
|
6月前
|
数据采集 存储 监控
星河中的数据旅程:从普通字段到核心指标 -- 基于Dataphin的数据源资产全链路管理
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
169 8

热门文章

最新文章