阿里云刘伟光:4万字解读金融行业全域数据“观”(1)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 阿里云刘伟光:4万字解读金融行业全域数据“观”

image.png

作者:刘伟光,阿里巴巴集团副总裁、阿里云智能新金融&互联网事业部总经理,毕业于清华大学电子工程系。加入阿里云之前,在蚂蚁金服负责金融科技的商业推广和生态建设工作以及蚂蚁区块链的商业拓展工作;在企业软件市场深耕多年,曾经创建Pivotal软件大中华区分公司,开创了企业级大数据以及企业级云计算PaaS平台的市场先河。在创建Pivotal中国软件公司之前,刘伟光曾经担任EMC大中国区数据计算事业部总经理,并在甲骨文中国公司工作多年,曾经创建了Exadata大中国区的产品事业部并担任事业部总监。


“大风起于青萍之末,浪成于微澜之间”,用这句话来形容中国金融行业数据领域发展的历程颇为恰当。从2003年银行的数据仓库初建开始到今天整整20年过去了,相比其他行业,金融行业是真正完整地经历了数据仓库建设和大数据建设的两个十年周期;同时经历了从MPP技术到Hadoop大数据开源技术,再到存储计算分离的云原生数据处理技术;再到AI数据智能化的时代;从持续了20年的数据治理到今天的全域数据资产管理的数据中台化架构,关于金融行业的数据计算分析和智能化运营的探索从来没有停止过。但是如何在原有的数据基础和平台技术积累上完成全局视角的数据能力提升和技术体系的迭代,这是今天金融行业共同关注的话题,也是金融机构进入数字化智能时代的重要标志。


阿里云历时5年助力阿里巴巴集团完成了全域数据中台的建设,同时也在数据平台的建设和数据治理方面服务了众多不同类型的金融行业客户;数据智能化方面,在接触了近千家金融机构了解实际业务需求和现状后,激发了我们创造本文的热情与初衷,期望用更全面、更立体的视角去定义数据的技术和业务价值;站在全局视角去剖析数据生命周期的管理;站在云原生技术的视角去建议数据计算能力的未来布局。


同时全文解析了从底层数据计算到数据资产化的完整建设方法和路径;分析了当前数据平台如何从分而治之的建设模式和技术体系逐步演进到全局的数据智能化中台。关于数据领域研究,不仅仅是技术命题,我们也讨论了金融机构内部数据运营模式以及数据人才建设体系这些当前重要话题。


期待本文能够为金融机构不同部门在治理/应用/运营/计算/决策等诸多数据方面的工作,带来有价值的新发现,带来更多关于数据思想的碰撞。


国内各金融机构数据建设历时20年,然而不同阶段、不同技术体系构建的分而治之的数据平台,依然存在“数据底数摸不清、数据质量差、数据不好找、数据用不好、查询响应慢”等诸多问题,本文切入数据领域痛点,通过全局化的数据体系建设的分析视角,从数据的能力体系的建设方法、目标设定、成功标准,技术路线演进路径,数据运营机制等更全局的角度展开分析,期望推动行业实现数据驱动业务高质量发展的终极目标。




一、金融行业数据领域面临的困扰


数字化程度的一个重要标志是“数据与业务的关系”是否能从“跟随”(事后分析),到“伴随”(实时分析),再到“引领”(智能服务)。金融机构的数据能力已经出现了较大的分化,有些已经一骑绝尘、很好地引领业务的创新,有些则不仅不能跟随业务、甚至成为了业务发展的阻碍。


image.png


一是数据平台面临“跟不上”业务,而出现“掉队”的情况。从2017年到2021年,全国数据生产量增长了3倍多,实时数据、触点数据、过程数据、IOT数据、音视频数据等数据价值不断被深入挖掘,未来业务对数据规模、数据时效、数据类型、数据应用需求会更进一步放大,现有的数据架构开始出现“跟不上”业务而“掉队”的情况。


二是数据管理普遍存在“数据有标准、没有落地”“指标同义不同名、同名不同义”“数据处理与元数据两张皮”等局面。以监管报送为例,每年超千万罚单均与数据质量相关,提高数据质量已成为亟待解决的问题。


三是数据资产“缺盘点”。企业往往面临着“指标多、资产少”的困境,报表很多,但能够服务业务,且可复制、可重用的数据资产却很少。


四是数据服务“效率低”。目前大量金融机构用数取数还是传统模式,从需求到拿到数据需要数月时间,“响应慢”是用数部门普遍面临的痛点。


二、金融数据发展瓶颈的破题之术


未来的金融机构都是“数据驱动型”企业。金融服务正在从“大”到“小”到“微”,数据价值也从原来的“结果记录”发展为起到“实时精准制导”的作用。我们认为,数据能力像“水”,数据体系就像盛水的“木桶”,需要打造企业整体数据能力,为此,我们从顶层设计、业务价值、数据服务、数据治理、数智算力、数字人才等六个维度提出“企业数据能力建设参考模型”


image.png


首先,数据体系的建设需要从原来单点需求功能实现转变为自顶向下的总体规划设计,审视构建满足业务战略的数据能力,将“数据+业务+技术+组织”融为一体,有效联动,系统化建设企业级数据体系,全面提升数据能力。


其次,从业务目标上,让数据回归解决业务痛点的本源,将以人为驱动的业务经验总结出来,形成以数据驱动的业务动作;从数据服务上,通过一站式数据门户,转变用数习惯,从按需到交互式自助模式,让数据使用贴近业务;从数据质量上,数据生产源头的治理更加重要,将数据标准有效嵌入到数据生产到消费的各个环节,打造全链路治理能力;从平台算力上,海量近实时化数据和基于数据的智能决策的爆发式增长,需要数据平台架构向云原生化多算力融合能力的升级。


最后,重点需要数字化人才体系的打造,尤其是数据产品经理将成为企业数据领域洞察业务需求、沉淀数据产品、提升服务供给能力的“破局者”。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
uniapp组件库uview1的u-button的问题,u-button多次点击只触发事件一次
uniapp组件库uview1的u-button的问题,u-button多次点击只触发事件一次
601 0
|
编解码 自然语言处理
重磅!阿里巴巴开源最大参数规模大模型——高达720亿参数规模的Qwen-72B发布!还有一个的18亿参数的Qwen-1.8B
阿里巴巴开源了720亿参数规模的Qwen-72B大语言模型,是目前国内最大参数规模的开源模型。该模型在3万亿tokens数据上训练,支持多种语言和代码、数学等数据。Qwen-72B模型具有出色的评估效果,在数学逻辑和意图理解等方面超过了其他开源模型,并且支持多语言扩展。此外,阿里巴巴还开源了18亿参数规模的Qwen-1.8B模型,虽然规模较小但效果不错。Qwen-72B模型已对学术和个人完全开放,商用情况下月活低于100万可直接商用。有兴趣的用户可以通过相关链接获取模型地址和资源信息。
|
SQL 人工智能 数据管理
数据源平台实现AI驱动数据管理
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
人工智能 自然语言处理 机器人
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
10 月 18 日, InfoQ《C 位面对面》栏目邀请到阿里云 CIO 及 aliyun.com 负责人蒋林泉(花名:雁杨),就 AI 时代企业 CIO 的角色转变、企业智能化转型路径、AI 落地实践与人才培养等主题展开了讨论。
18008 69
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
|
安全 数据库 C++
Python Web框架比较:Django vs Flask vs Pyramid
【10月更文挑战第6天】本文比较了Python中三个最受欢迎的Web框架:Django、Flask和Pyramid。Django功能全面,适合快速开发;Flask灵活轻量,易于上手;Pyramid介于两者之间,兼顾灵活性和可扩展性。文章分析了各框架的优缺点,帮助开发者根据项目需求和个人偏好做出合适的选择。
279 4
|
Kubernetes 监控 数据可视化
k8s学习--使用argo-rollouts实现金丝雀发布
k8s学习--使用argo-rollouts实现金丝雀发布
458 1
|
运维 Cloud Native 容灾
阿里云刘伟光:3.5万字拆解「核心系统转型」,核心从业者怎样寻得「出路」?(3)
阿里云刘伟光:3.5万字拆解「核心系统转型」,核心从业者怎样寻得「出路」?
666 0
|
数据采集 存储 弹性计算
阿里云刘伟光:4万字解读金融行业全域数据“观”(2)
阿里云刘伟光:4万字解读金融行业全域数据“观”(1)
223 0
阿里云刘伟光:4万字解读金融行业全域数据“观”(2)
|
SQL Serverless API
Flink自定义函数
Flink自定义函数
294 0
|
缓存 开发工具 Python
jupyter notebook主题(界面优化)及代码自动补全
jupyter notebook主题(界面优化)及代码自动补全
1009 0