免费玩转阿里云DataWorks!智能Copilot+用户画像实战,开发效率翻倍攻略

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: DataWorks是阿里云推出的一站式大数据开发与治理平台,具备数据集成、开发、管理、安全及智能监控等功能,支持多行业数据中台建设。其可视化界面与强大调度能力,助力企业高效完成数据处理与分析。

初识DataWorks

image.png

一、产品概述

DataWorks是阿里云推出的一款端到端的大数据开发与治理平台。自2009年起,DataWorks在阿里巴巴集团内部开始孵化,并在2015年正式迁移到云上,为各类企业、政府及组织机构提供大数据平台建设的服务。它不仅是一个数据治理平台,还包含了丰富的一站式大数据研发工具,因此也被阿里云称为数据中台的一部分。

二、核心功能

  1. 数据集成:支持复杂网络环境、丰富数据源之间的数据传输与上云。
  2. 数据质量:通过表级别、字段级别监控规则定义,第一时间感知脏数据,并支持37种内置监控规则和可扩展的自定义规则。
  3. 智能监控:一键实现复杂工作流的全链路监控报警配置,确保核心数据准时产出。
  4. 数据地图/数据管理:提供强大的数据搜索、数据类目、数据血缘等能力。
  5. 数据资产管理:统一管理整个平台的数据表、API等各类数据资产。
  6. 数据安全:提供数据资产识别、敏感数据发现、数据分类分级、脱敏、访问监控、风险发现预警与审计功能。
  7. 数据开发:支持在线批处理、流处理和机器学习等多引擎任务开发,构建复杂的调度依赖,提供开发、生产环境隔离的研发模式。
  8. 实时分析:提供基于电子表格的快速、灵活的即时查询。
  9. 数据服务:零代码快速生成Serverless化的API,支持HTTP方式完成接口调用。
  10. 应用开发:基于Web端的组件拖拉拽轻松构建数据应用。

三、技术特点

  1. 全面的数据治理能力:DataWorks提供数据资产、数据分析、数据质量、智能监控、数据安全等数据治理功能,帮助企业构建符合完整性、一致性、正确性、安全性的大数据体系。
  2. 端到端的数据开发能力:基于大数据计算引擎(如MaxCompute、Hologres、EMR等),提供数据仓库、数据湖和数据湖仓库解决方案,支持离线与实时数据分析。
  3. 可视化的开发界面:提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单的拖拽和开发即可完成复杂的数据分析任务。
  4. 强大的调度能力:提供全面的托管调度服务,支持按照时间、依赖关系的任务触发机制,确保每日千万级别的任务按照DAG关系准确、准时运行。

四、应用场景

DataWorks广泛应用于政务、金融、零售、互联网、汽车、制造等行业,助力企业实现数字化升级和价值创造。具体应用场景包括但不限于:

  1. 电商离线数仓构建:通过DataWorks快速构建电商离线数仓,实现数据的存储、处理和分析。
  2. 新零售数据中台建设:依托阿里云大数据平台,低成本地建设新零售数据中台,并构建实时大屏、商家画像等应用产品赋能商家客户。
  3. 数仓规范化设计:利用DataWorks数据建模进行整个数仓的规范化设计,让数据仓建设从“人治”走向“法治”。

五、产品优势

  1. 功能完整:15年大数据建设沉淀完整的平台,覆盖数据开发治理的全生命周期。
  2. 简单易用:开放灵活的IDE体验,SQL为主数据开发方式智能生成SQL命令。
  3. 安全稳定:经过金融领域专业级别的考验,提供金融级数据安全保障。
  4. 开放兼容:支持多种大数据引擎绑定,开放OpenAPI定制化对接能力。

产品体验

本次体验涉及到两个板块,一个是基于DataWorks和MaxCompute实现对用户画像的分析,一个则是新版Data Studio数据开发平台以及智能助手 Copilot的体验。

开通试用

针对老用户可以参照如下方式进行购买:

进入DataWorks服务开通页,地域选择华东1(杭州)、基础版、按量付费,其他默认。

image.png

image.png

image.png

勾选服务协议,点击确认订单并支付。

image.png

校验通过后,点击下一步。

image.png

价格清单确认无误后,点击下一步创建订单。

image.png

在支付页面,点击支付即可。

image.png

当出现下图这个页面时,就表示DataWorks服务已成功创建。

image.png

如果你是新用户,则可以直接通过活动首页的产品试用链接开通:

image.png

在产品开通页面填入资源组名称,因为试用默认只有一个可用区,所以这里保持默认。

image.png

如果是首次试用DataWorks产品,这里需要先关联角色,点击创建关联角色即可。

image.png

确认如上信息无误后,点击立即试用。

image.png

点击页面的管理试用,可以在费用与成本中看到试用详情。

image.png

由于用户画像分析需要用到MaxCompute,这里也需要一并开通试用。进入产品控制台,点击立即开通。

image.png

这里唯一需要注意的一点就是,产品的可用区要保持和DataWorks一致,比如这里的华东2(上海)。

image.png

提交后,进入下一步

image.png

继续下一步

image.png

在支付页面点击立即支付即可。

image.png

出现下图就表明开通成功。

image.png

实践体验

首先进入DataWorks管理控制台,如果你是刚完成产品试用的提交,此刻可以看到服务正在启动中。

image.png

待状态变成运行中后,就可以开始为资源组配置公网访问了,因为默认创建的通用型Serverless资源组是不具备公网访问能力的,需要通过公网NAT网关添加EIP的方式,为资源组绑定的VPC,使该资源组获得公网访问能力。

这里我们先来到专有网络的控制台,创建一个公网NAT网关。(这里尤其要注意的是可用区不要选错了)

image.png

在公网NAT网关配置中,选择DataWorks资源组绑定的VPC和交换机,这个信息可以在DataWorks资源组列表的详情页中看到,参照如下:

image.png

image.png

访问模式选择VPC全通模式(SNAT),并选择新购弹性公网IP。

image.png

创建完关联角色后,在下一页完成信息确认,点击立即开通。

image.png

提交后,资源开始创建,这里需要稍等片刻。

image.png

服务创建完成后如下

image.png

接下来我们需要创建一个默认的工作空间,进入DataWorks控制台,点击创建工作空间,参照下图配置即可。(如果你是新用户,在领取试用时就已经开通了默认的工作空间,此步骤可忽略)

  • 这里要注意的一点是默认开通的工作空间是简单模式,也就是只有生产环境,没有进行生产和开发环境的隔离,但完成用户画像分析的步骤里使用的是生产和开发隔离的,所以这里要将简单模式进行升级为标准环境

image.png

接着,进入MaxCompute控制台,新建两个项目,参照下图进行配置即可。(这里两个的作用不用,一个用于生产,一个用于开发)

image.png

紧接着进行MaxCompute数据源的绑定,官网提供了两种绑定的方式,下面将挨个展示。

  • 第一种方式就是在DataWorks的工作空间进行绑定,如下:

image.png

新建计算资源,选择MaxCompute。

image.png

填入数据源名称,并勾选MaxCompute项目名称。

image.png

点击“新建计算资源并绑定数据开发”后,就可以看到绑定的数据源信息了。

image.png

  • 另一种方式则是通过工作空间的快速进入——数据开发,后面的步骤则是相同的,就是入口不一样而已。

image.png

完成上述步骤后,接下来就可以开始用户画像的任务开发了,这里可以参考下官网提供的流程设计图,先了解下时如何实现的。

img

进入ETL工作流模板页面,找到网站用户行为分析模板,单击查看详情

image.png

在详情页,单击载入模板。

image.png

参照下图进行配置,完成后点击确认。

image.png

此刻可以看到任务已经开始,数据开始导入。

image.png

大约5分钟后,载入成功,如下:

image.png

点击前往查看,可以看到整个的业务流程。

image.png

双击业务流程画布的任意节点,可查看该节点的内容详情。

image.png

由于通过模板导入的已经时完整的业务流程,所以这里我们直接运行,开始用户画像的分析。

image.png

待所有节点运行成功后,单独运行最后一个节点,即可查看分析结果。

image.png

image.png

运行正式开始前会有一个费用的预估显示,这里直接点击运行即可。

image.png

运行完成后,查询结果如下。

image.png

到这,一个完整的用户画像分析的实践就完成了。以上实践可以简称为一键体验版,比如数据集的导入是直接通过模板载入的。这里官网文档还提供了折腾版的教程,也可以简称为手动版教程,感兴趣的伙伴可以自行点击链接前往了解学习。

新版体验

  • 新版Data Studio

新版Data Studio和旧版的Data Studio相比,最直观的差异在于界面上,比如新版拥有欢迎页,新版有手动切换主题色功能、新版侧边导航功能名称采用了悬浮可见等,实际功能使用上差异并不大。对比截图如下:

image.png

image.png

作为用户来讲,新版给人的感受最大的一点就是更切合实际需求了,将数据开发全流程纳入了平台管理。

体验新版可以直接在创建DataWorks工作空间时,打开下图的按钮。

image.png

  • DataWorks Copilot

参加DataWorks Copilot公测,需要在Copilot公测确认弹窗中进行确认,如下:

image.png

在确认如上协议后,就可以免费体验DataWorks Copilot的功能了,如下版本或者区域就无需额外申请了。

  • DataWorks版本为:基础版、标准版、专业版或企业版。
  • DataWorks项目空间所在地域为:华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)或西南1(成都)。

当前DataWorks Copilot入口已覆盖:数据开发(DataStudio)、数据分析、数据服务。下面我们就拿上述的用户画像分析来体验一番。

在平台右上角直接点击Copilot图标即可开始体验,如下图右侧展示的。

image.png

除了上述方式唤醒外,还可以直接在编辑窗口右键选择,如下:

image.png

还有一种最快捷方便的方式,就是直接按下Ctrl+I键,如下提示

image.png

如果你是第一次使用,不晓得如何下手,不用焦虑,官网友好地提供了演示视频和使用文档,如下:

image.png

image.png

从Copilot首页来看,它能辅助开发者完成代码生成、代码解释、代码问答和快捷找表。下面就按照这个功能项逐个快速体验。

  • 代码生成

针对ads_user_info_1d用户信息表,新增两个字段,右键选择Copilot——SQL生成,如下:

image.png

点击生成后,可以非常快速地写成,还是不错的。但你会发现一个问题,就是将生肖理解成了星座,使用了同样的列名zodiac

  • 代码解释

右键选择Copilot——SQL注释,如下:

image.png

image.png

  • 代码问答

右键选择Copilot——SQL Chat,也就是智能问答,比如下面的这段SQL我看不太明白,让Copilot解释下。如下:

image.png

  • 快捷找表

这个功能就非常直观了,看字面意思就是找表,实际也是这个,通过关键字来找到关联的数据表。如下:

image.png

除了上述主要的四个功能外,实际上还提供了其他多种功能,在DataWorks Copilot窗口点击点击“/”即可,如下:

image.png

通过以上体验,可以非常直观感受到DataWorks Copilot作为阿里云DataWorks平台推出的一款基于大模型的智能SQL编程助手,在提升数据开发工程师和数据分析师在SQL开发和分析方面的效率和体验非常不错。可以简要总结为如下几点:

  • 提高SQL开发效率:DataWorks Copilot通过自然语言生成SQL(NL2SQL),将用户输入的自然语言描述来查询或分析数据,自动生成对应的SQL语句,大大减少了手动编写SQL代码的时间。还能提供智能代码提示建议,帮助用户更快地编写和修改SQL代码。
  • 增强SQL代码质量:DataWorks Copilot可一键为SQL代码生成注释,提高代码的可读性和可维护性。当SQL运行报错时,Copilot还提供一键纠错服务,帮助用户快速定位并修复错误。
  • 简化繁琐复杂操作:DataWorks Copilot可以提供通过自然语言快捷找表的功能,解决了业务人员在实际工作中找表难的问题。
  • 无需部署方便快捷:有了DataWorks Copilot后,遇到SQL代码有关的疑难均可以一键唤醒得到智能答复,以前可能需要借助第三方工具或者网络搜索实现。

然而,从当前体验来看,还存在如下几个不足之处:

  • 由于Copilot生成的代码依赖于其训练的机器学习模型,可能存在准确性不足的问题。比如上面操作上对于生肖和星座的理解就不是非常好。
  • Copilot的使用对于开发者们有一定的技术要求,如果用户对SQL不够了解,可能无法正确理解Copilot生成的代码或充分利用其功能。

写在最后

核心价值体验

  • 智能开发革命性提效

Copilot代码助手在SQL生成、注释补充、错误修复等场景表现突出,复杂查询编写效率提升约30%。实测中,自然语言转SQL的准确率达85%以上(如输入“统计用户地域分布”自动生成分区查询代码)。
多模型自由切换支持DeepSeek-R1-671B等大模型,针对金融级敏感数据场景,可选择国密算法SM3脱敏,兼顾效率与安全。

  • 用户画像分析模板化落地

通过预置模板5分钟完成数据导入(ods_raw_log_d → dwd_log_info_di → ads_user_info_1d分层加工),自动生成画像宽表,减少手动ETL开发量。
数据质量模块自动监控源表变更及脏数据,如ods_raw_log_d字段完整性校验,降低分析偏差风险。

  • 新版Data Studio体验升级

对比旧版,全流程开发视图整合数据建模、开发、运维闭环,任务依赖可视化拖拽效率提升40%。
触发式工作流(2025年7月新增)支持事件驱动任务,满足实时营销场景需求。

实践痛点与优化建议

  • 环境配置复杂度高

新用户易忽略标准/简单模式差异,需反复切换环境(如画像分析需标准模式,但试用默认开通简单模式)。建议:活动文档增加模式选择指引弹窗,开通时强提示。

  • Copilot语义理解局限性

星座与生肖字段混淆(如将zodiac误识别为星座而非生肖),反映模型对业务语义理解不足。建议:开放自定义词典训练接口,支持企业注入领域知识。

  • 实时处理能力待加强

日志流处理延迟超500ms,难以支持秒级用户行为响应。期待:结合Flink引擎深度集成,提供流批一体解决方案。

综上,DataWorks通过智能编程助手+开箱即用行业模板,显著降低大数据开发门槛。建议优先体验Copilot SQL生成与画像分析模板,1小时内可完成从数据接入到画像产出全流程。后续可关注实时流处理与多智能体编排能力演进。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
目录
相关文章
|
SQL 数据采集 分布式计算
DataWorks 基本操作演示|学习笔记
快速学习 DataWorks 基本操作演示
5549 0
DataWorks 基本操作演示|学习笔记
|
11月前
|
人工智能 分布式计算 DataWorks
DataWorks
DataWorks是阿里巴巴推出的智能化大数据开发与治理平台,支持数据仓库、数据湖等架构,集成多种阿里云大数据计算服务,如MaxCompute、Hologres等,助力政府、金融、零售等行业实现数据全生命周期管理,推动数字化转型和数据资产增值。
|
4月前
|
存储 分布式计算 Hadoop
Hadoop框架解析:大数据处理的核心技术
组件是对数据和方法的封装,从用户角度看是实现特定功能的独立黑盒子,能够有效完成任务。组件,也常被称作封装体,是对数据和方法的简洁封装形式。从用户的角度来看,它就像是一个实现了特定功能的黑盒子,具备输入和输出接口,能够独立完成某些任务。
|
6月前
|
传感器 人工智能 自然语言处理
火热邀测!DataWorks数据集成支持大模型AI处理
阿里云DataWorks数据集成新增大模型AI处理功能,支持在数据同步中无缝调用通义千问等AI模型,实现文本翻译、情感分析、摘要生成等功能。适用于电商客服、智能汽车、供应链、医疗、金融、法律及教育等多个场景,大幅提升数据处理效率与洞察深度。用户可通过自然语言配置,快速完成高级数据分析与处理,无需额外部署调试。立即申请测试资格,体验智能化数据处理!
1209 4
火热邀测!DataWorks数据集成支持大模型AI处理
|
7月前
|
数据采集 SQL 人工智能
长文详解|DataWorks Data+AI一体化开发实战图谱
DataWorks是一站式智能大数据开发治理平台,内置阿里巴巴15年大数据建设方法论,深度适配阿里云MaxCompute、EMR、Hologres、Flink、PAI 等数十种大数据和AI计算服务,为数仓、数据湖、OpenLake湖仓一体数据架构提供智能化ETL开发、数据分析与主动式数据资产治理服务,助力“Data+AI”全生命周期的数据管理。
1164 5
|
9月前
|
Java 开发者
【12月更文特别场】获奖名单出炉!
【12月更文特别场】获奖名单出炉!
215 6
|
11月前
|
数据采集 DataWorks 大数据
开发者评测:DataWorks — 数据处理与分析的最佳实践与体验
阿里云DataWorks是一款集成化的大数据开发治理平台,支持从数据导入、清洗、分析到报告生成的全流程自动化。通过用户画像分析实践,验证了其高效的数据处理能力。DataWorks在电商和广告数据处理中表现出色,提供了强大的任务调度、数据质量监控和团队协作功能。相比其他工具,DataWorks易用性高,与阿里云服务集成紧密,但在API支持和成本优化方面有待提升。总体而言,DataWorks为企业提供了强有力的数据开发和治理支持,尤其适合有阿里云生态需求的团队。
813 17
|
数据采集 DataWorks 监控
‌DataWorks的主要功能‌
‌DataWorks的主要功能‌
954 1
|
SQL 人工智能 DataWorks
DataWorks:新一代 Data+AI 数据开发与数据治理平台演进
本文介绍了阿里云 DataWorks 在 DA 数智大会 2024 上的最新进展,包括新一代智能数据开发平台 DataWorks Data Studio、全新升级的 DataWorks Copilot 智能助手、数据资产治理、全面云原生转型以及更开放的开发者体验。这些更新旨在提升数据开发和治理的效率,助力企业实现数据价值最大化和智能化转型。
2574 7