DataWorks+Hologres：打造企业级实时数仓与高效OLAP分析平台-阿里云开发者社区

DataWorks+Hologres：打造企业级实时数仓与高效OLAP分析平台

2025-07-10 290

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时数仓Hologres，5000CU*H 100GB 3个月

云原生数据仓库AnalyticDB MySQL版，基础版 8ACU 100GB 1个月

大数据开发治理平台DataWorks，资源组抵扣包 750CU*H

简介： 本方案基于阿里云DataWorks与实时数仓Hologres，实现数据库RDS数据实时同步至Hologres，并通过Hologres高性能OLAP分析能力，完成一站式实时数据分析。DataWorks提供全链路数据集成与治理，Hologres支持实时写入与极速查询，二者深度融合构建离在线一体化数仓，助力企业加速数字化升级。

DataWorks基于阿里云ODPS/EMR/CDP等大数据引擎，为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者，DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论，同时与数万名政务/金融/零售/互联网/能源/制造等客户携手，助力产业数字化升级。

Hologres是阿里云自研一站式实时数仓，统一数据平台架构，支持海量结构化/半结构化数据的实时写入、实时更新、实时加工、实时分析，支持标准SQL（兼容PostgreSQL协议），无缝对接主流BI工具，支持OLAP查询、即席分析、在线服务、向量计算多个场景，分析性能打破TPC-H世界记录，与MaxCompute、Flink、DataWorks深度融合，提供离在线一体化全栈数仓解决方案。

一、方案概述

本方案基于阿里云实时数仓Hologres和DataWorks数据集成，通过简单的产品操作即可完成数据库RDS实时同步数据到Hologres，并通过Hologres强大的查询分析性能，完成一站式高性能的OLAP数据分析。

二、方案部署

1、创建专有网络VPC和交换机

为确保后续任务的网络连通，请务必保证Hologres与DataWorks资源组使用同⼀个VPC。

在创建专有网络页面，您可查看到创建的专有网络VPC和交换机的ID、实例名称等信息。

2、试用实时数仓Hologres。新用户可以有3个月免费试用期。

在实时数仓Hologres面板，根据如下参数说明进行配置，未提及的参数保持默认即可，单击立即试用。

大概需要5-10分钟，在实例列表页面，等待运行状态变为运行正常，即可正常使用。

3、开通DataWorks

创建工作空间列表。注意需要类似XXXX_123这种格式，即字母、数字、下划线都用到才可以。

在资源组列表页面，等待目标资源组的状态变为运行中，即可正常使用资源组。

4、创建公网NAT

首次使用NAT网关时，在创建公网NAT网关页面关联角色创建区域，单击创建关联角色。角色创建成功后即可创建NAT网关。

返回如下页面，表示您已创建成功，可以查看到创建的弹性公网IP、NAT网关等资源的资源ID。

5、创建Hologres表

在实例列表页面，但是实例ID。

在实例详情页面，单击登录实例，进入HoloWeb。

在顶部菜单栏中，单击SQL编辑器。

新建SQL查询

新建Hologres内部表。

将如下命令复制并粘贴至临时Query查询页签中，单击执行，创建Hologres内部表hologres_dataset_github_event.hologres_github_event，后续会将数据实时写入至该表中。

-- 新建schema用于创建内表并导入数据
CREATE SCHEMA IF NOT EXISTS hologres_dataset_github_event;

DROP TABLE IF EXISTS hologres_dataset_github_event.hologres_github_event;

BEGIN;
CREATE TABLE hologres_dataset_github_event.hologres_github_event (
 id bigint PRIMARY KEY,
 actor_id bigint,
 actor_login text,
 repo_id bigint,
 repo_name text,
 org_id bigint,
 org_login text,
 type text,
 created_at timestamp with time zone NOT NULL,
 action text, 
 commit_id text,
 member_id bigint,
 language text
);
CALL set_table_property ('hologres_dataset_github_event.hologres_github_event', 'distribution_key', 'id');
CALL set_table_property ('hologres_dataset_github_event.hologres_github_event', 'event_time_column', 'created_at');
CALL set_table_property ('hologres_dataset_github_event.hologres_github_event', 'clustering_key', 'created_at');

COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.id IS '事件ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.actor_id IS '事件发起⼈ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.actor_login IS '事件发起⼈登录名';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.repo_id IS 'repoID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.repo_name IS 'repo名称';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.org_id IS 'repo所属组织ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.org_login IS 'repo所属组织名称';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.type IS '事件类型';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.created_at IS '事件发⽣时间';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.action IS '事件行为';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.commit_id IS '提交记录ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.member_id IS '成员ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.language IS '编程语⾔';

COMMIT;

执行结束

6、实时同步数据至Hologres

在管理中心页面，在下拉框中选择默认⼯作空间，单击进入管理中心。

在左侧导航栏中，选择数据源 > 数据源列表。

创建MySQL数据源。

配置完成后，在连接配置区域，找到您创建的资源组，单击其右侧的测试连通性。

创建Hologres数据源。

创建实时同步任务。

在数据集成页面，在创建同步任务中，选择来源与去向数据源，单击开始创建。

来源：选择MySQL。去向：选择Hologres

在基本信息区域中，配置任务信息。新任务名称：data_test。同步类型：选择整库实时。

在网络与资源配置区域中，配置任务网络连通。

实时同步任务设置。在选择要同步的库表区域的源端库表中，勾选github_public_event表，然后右移。

在目标表映射区域，勾选github_public_event表，单击批量刷新映射。基于上述已创建的Hologres内部表，将目标Schema名改为hologres_dataset_github_event，目标表名改为hologres_github_event，单击完成配置。

在任务列表页面，单击启动。

在任务详情页面，您可查看到任务的执行情况，请耐心等待任务执行完成。

进度如下：

7、实时OLAP分析

返回至SQL编辑器·HoloWeb页签。在临时Query查询页签中，执行如下命令，查询实时更新的过去24小时GitHub最活跃项⽬。


SELECT
  repo_name,
  COUNT(*) AS events
FROM
  hologres_dataset_github_event.hologres_github_event
WHERE
  created_at >= now() - interval '1 day'
GROUP BY
  repo_name
ORDER BY
  events DESC
LIMIT 5;

查看同步的相关监控数据

三、方案总结

DataWorks与Hologres作为阿里云大数据生态的核心组件，构建了从数据治理到实时价值挖掘的全栈解决方案。二者深度融合后，不仅解决了企业复杂数据架构下的性能瓶颈与协作难题，更通过离在线一体化能力，将数据从采集到决策的价值转化周期缩短至毫秒级，助力政务、金融、零售等千行百业构建实时驱动的智能决策体系，加速产业数字化升级进程。