《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——02 多维协同—— 2.云边协同

简介: 《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——02 多维协同—— 2.云边协同

云边协同

云边协同通道,可以看做是边缘云计算场景下的消息中间件,它主要解决边缘云计算过程中的中

心云-边缘云节点间的管控信令通信问题。相比传统中心云,边缘云计算作为一种分布式系统,其

节点间的信息交互不再局限于单一机房、单一城市或者有限的若干城市,而是需要在全球范围内具

备可靠的消息通信链路,这条链路很难直接使用互联网IP,原因如下:

第一,场景受限。不是所有的场景都是边缘云主动请求到中心的,今天在边缘云管控系统中,中心

会有大量的管控请求主动请求到边缘,单一场景远不能满足业务诉求。

第二,安全受限。边缘云节点是依托ISP网络之上的,由于ACL,安全管控策略等原因,在边缘云

节点内一直遵守着只出不入的原则,确保节点在物理上不会被外部网络直接访问,保证一定的安全

性。

第三,资源/运维受限。在IPv4资源越来越紧张的今天,若按每个业务都申请分配VIP-Server,在

资源上无法满足未来的需求,另一方面,运维成本也相当大,耗费人力和物力,造成重复建设与资

源浪费。

边缘云系统中的云边协同通道应具备以下能力:


类似传统消息中间件,解耦消息生产者和消费者,实现系统间的异步调用;

提供高可用性和稳定性的保障,具备一定的异常处理能力。全球范围内的网络链路是不可靠

的,云边协同通道需要在不可靠的物理信道中构建可靠的信息通路,统一解决分布式通信的疑

难问题;

解决数据安全问题,提供统一的ACL模型,对消息的各个参与方进行身份验证和数据权限,精确

控制每个端的安全策略;

管理消息收发管控策略,根据业务优先级设置不同的消息QOS,保障重要业务的消息可达率。

协同管控,相较于传统数据中心的管控方案,边缘云管控平台需要管理更大规模的分布式边缘云节

点。中心云管与边缘云节点间的连接通常是基于不可靠的互联网链路建立的,在此物理环境下,

为了应对日益扩大的边缘云节点资源规模的需求、支持边缘云业务在断网、弱网状态下可持续运

行,“云边协同管控”和“边缘云节点有限自治”方案就成为了管控技术发展的必然选择。

云边协同管控的主要挑战在于如下:

第一

管理节点数量多,资源规模大。随着边缘云节点数量持续增加,如何有效应对资源规模化增长带来

的中心管控压力,成为了中心管控亟待解决的问题。

第二

云边弱网,连接不可靠。在云边管控通道不稳定时,边缘节点依然需要持续提供服务,如何解决云

边失联情况下数据一致性的问题是第二个技术难点。

第三

带宽成本高,分发效率低。如何快速分发系统镜像到边缘节点并支持大规模并发,以同时提升数据

分发和业务创建效率,也是云边协同重点要解决的问题。

为了解决上述问题,云边协同应具备以下技术方案和能力:

云边两级管控架构

将部分管控能力下沉至边缘,收敛云边交互,降低回传到云的数据压力,可以有效降低因节点数量

增加给中心管控带来的并发压力。

云边状态感知

中心和边缘两级管控架构中,增加云边状态感知能力:在云边失联时,边缘云节点进入自治状态,

边缘业务可持续运行;当云边连接恢复时,边缘云节点能够退出自治状态,并与中心同步,保持数

据一致性。

云边数据协同

通过引入边边网络加速能力,建立云边协同的数据服务系统,既提升了性能,降低了互联网带宽成

本,又能确保服务的高可靠性。

image.png

图15 云边系统管控架构

相关文章
|
14天前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
264 4
|
2月前
|
消息中间件 监控 Java
Apache Kafka 分布式流处理平台技术详解与实践指南
本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统,Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制,帮助开发者构建可靠、可扩展的实时数据流处理系统。
279 4
|
1月前
|
机器学习/深度学习 监控 PyTorch
68_分布式训练技术:DDP与Horovod
随着大型语言模型(LLM)规模的不断扩大,从早期的BERT(数亿参数)到如今的GPT-4(万亿级参数),单卡训练已经成为不可能完成的任务。分布式训练技术应运而生,成为大模型开发的核心基础设施。2025年,分布式训练技术已经发展到相当成熟的阶段,各种优化策略和框架不断涌现,为大模型训练提供了强大的支持。
|
2月前
|
JSON 监控 Java
Elasticsearch 分布式搜索与分析引擎技术详解与实践指南
本文档全面介绍 Elasticsearch 分布式搜索与分析引擎的核心概念、架构设计和实践应用。作为基于 Lucene 的分布式搜索引擎,Elasticsearch 提供了近实时的搜索能力、强大的数据分析功能和可扩展的分布式架构。本文将深入探讨其索引机制、查询 DSL、集群管理、性能优化以及与各种应用场景的集成,帮助开发者构建高性能的搜索和分析系统。
209 0
|
8月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
阿里云PolarDB云原生数据库在TPC-C基准测试中以20.55亿tpmC的成绩刷新世界纪录,展现卓越性能与性价比。其轻量版满足国产化需求,兼具高性能与低成本,适用于多种场景,推动数据库技术革新与发展。
|
6月前
|
安全 JavaScript 前端开发
HarmonyOS NEXT~HarmonyOS 语言仓颉:下一代分布式开发语言的技术解析与应用实践
HarmonyOS语言仓颉是华为专为HarmonyOS生态系统设计的新型编程语言,旨在解决分布式环境下的开发挑战。它以“编码创造”为理念,具备分布式原生、高性能与高效率、安全可靠三大核心特性。仓颉语言通过内置分布式能力简化跨设备开发,提供统一的编程模型和开发体验。文章从语言基础、关键特性、开发实践及未来展望四个方面剖析其技术优势,助力开发者掌握这一新兴工具,构建全场景分布式应用。
615 35
|
7月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
|
9月前
|
机器学习/深度学习 存储
DeepSeek进阶开发与应用4:DeepSeek中的分布式训练技术
随着深度学习模型和数据集规模的扩大,单机训练已无法满足需求,分布式训练技术应运而生。DeepSeek框架支持数据并行和模型并行两种模式,通过将计算任务分配到多个节点上并行执行,显著提高训练效率。本文介绍DeepSeek中的分布式训练技术,包括配置与启动方法,帮助用户轻松实现大规模模型训练。数据并行通过`MirroredStrategy`同步梯度,适用于大多数模型;模型并行则通过`ParameterServerStrategy`异步处理大模型。DeepSeek简化了分布式环境配置,支持单机多卡和多机多卡等场景。
|
10月前
|
存储 人工智能 边缘计算
AI时代下, 边缘云上的技术演进与场景创新
本文介绍了AI时代下边缘云的技术演进与场景创新。主要内容分为三部分:一是边缘云算力形态的多元化演进,强调阿里云边缘节点服务(ENS)在全球600多个节点的部署,提供低时延、本地化和小型化的价值;二是边缘AI推理的创新发展与实践,涵盖低时延、资源广分布、本地化及弹性需求等优势;三是云游戏在边缘承载的技术演进,探讨云游戏对边缘计算的依赖及其技术方案,如多开技术、云存储和网络架构优化,以提升用户体验并降低成本。文章展示了边缘云在未来智能化、实时化解决方案中的重要性。
418 3
|
11月前
|
存储 缓存 负载均衡
从零到一:分布式缓存技术初探
分布式缓存通过将数据存储在多个节点上,利用负载均衡算法提高访问速度、降低数据库负载并增强系统可用性。常见产品有Redis、Memcached等。其优势包括性能扩展、高可用性、负载均衡和容错性,适用于页面缓存、应用对象缓存、状态缓存、并行处理、事件处理及极限事务处理等多种场景。
637 1

热门文章

最新文章