ODPS在某公共数据项目上的实践

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。

1 什么是公共数据?

  • 1.公共数据:是指各级行政机关以及具有公共管理和服务职能的事业单位,在依法履行职责过程中获得的各类数据资源。
  • 2.公共数据的范围:包括党政机关、公共服务单位、企事业单位
  • 3.ODPS对比Hadoop的优势
    image.png

2 项目方案

2.1 项目建设目标

参考《数字化改革概论》第2章“一体化智能化公共数据平台”的定义,项目计划建设具体包括六个方面:

  • 一是数据目录,按照“一套目录、两级建设、三级运营”,构建统一的全域数据资源目录体系,推进全省数据资源目录分级维护、动态管理、协同应用,做到一数一源、同步更新。
  • 二是数据归集,主要釆取数据交换、开通“数据高铁”两大方式。通过规范公共数据交换平台建设,促进跨层级、跨部门数据互联互通,通过推进“数据高铁”建设,高效及时归集数据。
  • 三是数据治理,通过“一数一源一标准”建设、存量数据常态化治理和共享数据快速响应治理,让数据可用、好用、易用,为数据共享和数据开放提供高质量数据供给。
  • 四是基础库,统一建设人口综合库、法人综合库、信用信息库、可信电子证照库、自然资源与空间地理信息库五大基础库,为全省各类应用提供基础数据支撑。
  • 五是数据共享,省、市、县三级公共平台主要提供接口共享和批量共享两种共享方式。其中接口共享满足针对特定对象调用特定数据,批量共享满足大数据分析、比对的场景需求。
  • 六是数据开放,分为无条件开放、受限开放、禁止开放三大类。针对无条件开放数据,提供数据集下载、接口访问等方式;针对受限开放数据,通过开放域系统“可用不可见”环境实现安全合规开放。

    2.2 项目子系统规划

    为了满足项目的规划,项目上建设十个子系统去覆盖全业务
    image.png

    2.3 十大子系统的数据流向

    image.png

3 项目实施

3.1 充分利用odps和datawork的能力,支持数据归集、数据治理和数据共享

image.png

3.2 利用DataWorks的数据集成模块,打通数据归集链路。

大部分业务数据的不是实时数据,允许n+1甚至n+2的延迟,所以dataworks+odps构建的数据同步通道可以满足业务归集链路。
image.png

3.3 利用DataWorks的开发模块,日常数据治理

3.3 利用MaxCompute的数据保护模型,落实数据安全管理要求

3.3.1 开启数据保护模式

set security.ProjectProtection=true;
-设置ProjectProtection规则:数据只能流入,不能流出,外表不受限。
set project IDENTIFY_EXTERNAL_TABLE_WRITE_AS_DATALEAK=true;
-设置Project数据不能通过外部表方式流出,即不能通过外部表写入外部存储源。

3.3.2 授信空间共享(批量数据共享)

use porject_01
add trustedproject porject_02
-设置后将允许porject_01中的所有数据流出到porject_02

3.3.3 Package共享

用于少量数据发布的时候,按表为单位在数仓之间进行数据共享。

  创建Package并添加资源
  use prj1
  create package datamining
  -- 创建一个Package。
  add resource datamining.jar to package datamining
  -- 添加资源到Package。
  add table sampletable to package datamining
  -- 添加Table到Package。
  allow project prj2 to install package datamining
  -- 将Package分享给项目空间prj2。

  安装Package到目标项目空间
  use prj2
  install package prj1.datamining
  -- 安装一个Package。
  describe package prj1.datamining
  -- 查看Package中的资源列表。

  目标空间可以通过ACL授权给指定用户
  use prj2
  grant Read on package prj1.datamining to user aliyun$xxs@aliyun.com
  -- 授权使用Package。

3.4 启用数据保护伞功能,进行数据脱敏

image.png

4 项目成果与展望

4.1 业务数据价值通过治理,实现了提升

  • 多部门间通过数据共享,提升了业务数据质量
  • 辅助了线上业务简化办理,群众少填表
  • 支持城市治理决策,针对一个事件可以汇总多部门数据综合决策
  • 运行无数据泄漏事件

    4.2 展望

  • 后续公共数据的治理与大模型技术相结合,提升治理效率并提供更多层次数据产品
  • 技术提升后,进一步提升安全性,真正实现数据可用不可见
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
131 14
|
3月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
3月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
111 0
|
1月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
2月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
118 14
|
23天前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
2月前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
87 1
|
2月前
|
数据采集 自动驾驶 机器人
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
138 1
|
3月前
|
机器学习/深度学习 监控 大数据
数据当“安全带”:金融市场如何用大数据玩转风险控制?
数据当“安全带”:金融市场如何用大数据玩转风险控制?
120 10
|
3月前
|
机器学习/深度学习 自然语言处理 监控
大数据如何影响新兴市场投资决策?——数据才是真正的风向标
大数据如何影响新兴市场投资决策?——数据才是真正的风向标
74 3