云杉网络DeepFlow帮助5G核心网和电信云构建可观测性

本文涉及的产品
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
可观测监控 Prometheus 版,每月50GB免费额度
简介: 为什么5G核心网和电信云需要可观测性?在过去的2021年,其实5G核心网在全球发生了多次影响范围大、持续时间长、社会影响广的故障。2021年的4月份加拿大Rogers发生了一次长达26个小时全国范围的移动通信网故障,故障发生后缺乏快速定位手段,导致故障难以在短时间内定位、消除。

为什么5G核心网和电信云需要可观测性?在过去的2021年,其实5G核心网在全球发生了多次影响范围大、持续时间长、社会影响广的故障。2021年的4月份加拿大Rogers发生了一次长达26个小时全国范围的移动通信网故障,故障发生后缺乏快速定位手段,导致故障难以在短时间内定位、消除。

5G通信网的稳定运行是保障社会稳定运行的重要基础,而5G核心网则是5G通信网的枢纽和大脑,是整个通信网运行、维护、保障的重中之中。通过以上事件可以感知5G核心网在运行稳定性上还有待提升,另一方面现有的故障监测、快速定位、快速恢复能力存在短板。

# 5G核心网的运维困境

云杉网络通过对多个运营商的一线运维技术人员调研和交流之后,发现现阶段5G核心网的运维痛点集中在:(1)云网络“黑盒化”:(2)运维技术难度高;(3)故障定责定界难;(4)云平台面向业务的保障难。以下举几个实际例子。

例子一:当PCF出问题的时候,核心网运维可能会联系云平台“我们这里的PCF1服务不正常,看到服务器上有告警,你们赶紧处理一下”,而云平台运维可能会觉得“服务器的告警好像和PCF的服务异常没什么关系,是不是PCF软件出问题了?”

例子二:某个VNF升级之后,服务有异常,核心网运维查了半天也找不出原因,最后看到虚拟机有告警,反馈给网络云运维后,很可能得到这样的反馈“升级前后都有相同的告警,升级前没有问题,是不是你们新版本软件的原因?”

追究其原因,5G核心网和电信云是通过通用x86+云技术、容器技术,提供软硬解耦的解决方案,稳定性不确定,更多的需要依靠云、容器的动态、弹性能力提供相对的可靠性。同时,5G核心网完全承载在一个Overlay叠加Underlay的网络上,网元内部复杂的微服务通过一个Full-Mesh的网络互联,网元之间的边界不清晰、路径不清晰,网络基本处于“黑盒”状态。由此也不难看出:可观测性对5G核心网的可靠性运行非常重要!

近几年,云原生可观测性已经成为IT领域解决业务可靠性的重要理论,“可观测性=可靠性”基本成为IT运维的共同认知。所谓云原生可观测性,简单来说就是快速有效的诊断复杂业务系统内部的运行状态。经过近十年的发展,云杉网络从SDN核心技术逐步走向网络自动化和可观测性,致力解决云原生应用诊断难的核心痛点,其中DeepFlow产品在各行各业积累了大量的实战经验,成功帮助数家企业构建多维度、一体化的可观测性平台。

# DeepFlow 帮助5G核心网和电信云构建可观测性

DeepFlow是一款面向5G核心网,应对网络功能服务(NFS)解耦后的新挑战,进行网络流量采集、分发、可视化与监控保障的产品。帮助运营商在5G核心网基于服务架构中统一采集网络、系统、应用的可观测指标数据,并动态关联其资源、服务、业务、事件等属性,实现对5G核心网全景性能监控;并提供容器化后网元服务间访问调用的全栈链路追踪,帮助构建5G核心网可观测性能力,应对云原生特点,紧密结合5G服务,解决5G核心网生产中遇到的监控、运维、保障等难题。

1.多维度、深层次5G核心网全景性能监控

在5G核心网中,自身运行的网络IP节点数量已经百倍以上规模的增长,容器化微服务POD形成一个Full-Mesh的网络,网络的虚拟化、弹性变化,使得整个5G核心网的内部网络“黑盒化”。

对5G核心网来说,可以通过DeepFlow的采集器技术,实现网络+应用的全面可观测性,不用再依赖5GC开发厂商的日志输出能力、指标输出能力、用户追踪数据输出能力。同时借助DeepFlow强大的数据分析能力,可以对5G核心网网元、云平台,从宏观到微观、不同层次、不同维度的全景性能监控。

比如,云平台运维人员:可以从全网宿主机的观测视图,监测云资源池、宿主机之间的流量互访拓扑、业务访问性能;可以从单网元的宿主机观测视图,监测某个网元(比如AMF或SMF)的VNF软件内部的微服务/模块在宿主机上的分布情况,在宿主机之间的互访拓扑、互访性能,快速发现宿主机维度的异常情况。

比如,核心网运维人员:通过VNF网元的维度,观测全网VNF网元SBI口的业务互访关系和业务互访性能;通过VNF网元内部的微服务POD维度,观测VNF网元内部POD粒度的互访关系、互访性能;通过POD到POD的网络全栈链路追踪,观测任意一次客户端到服务端在云网络中的流量流转路径。

2.跨层、逐段分解网络全栈链路追踪

DeepFlow的网络全栈链路追踪,是解决5G核心网、云平台之间快速跨层故障定界的关键能力,将虚拟化所实现的逻辑通信进行逐步展开,清晰展示每段的网络状态、性能,结合知识图谱及丰富的指标数据,快速定位性能异常的问题范围边界。

对于5G核心网和电信云平台的运维人员来说,目前最头痛事情就是故障的跨层定界,通过DeepFlow跨层的网络全栈链路追踪,可以非常迅速的确定某一次业务访问是否有丢包、时延问题,并快速确定故障发生的位置,从而在云平台和软件层之间做快速的定界、定位。

3.业务访问从应用到网络端到端追踪

除了全栈链路追踪,DeepFlow对每一次业务访问的应用层实现了应用+网络的端到端追踪。运维人员可以通过系统检索、分析、追踪任意一次访问,快速洞察应用异常。“从客户端进程——>服务1进程——>服务2进程——>……——>服务n”的端到端服务调用关系,每一段服务调用的时延、异常均实现了关联分析,包括每一段服务调用的流量在云网络中的关键路径及时延指标关联分析,可以说DeepFlow实现了应用+网络统一的可观测性,并且深入且细致到每一次业务访问的粒度。

在5G核心网领域,监控、运维、保障都是新难题,作为一家IT网络解决方案厂商,云杉网络将加大创新力度,重点发展5G方面的业务,持续为中国5G高质量发展贡献力量。

相关实践学习
分布式链路追踪Skywalking
Skywalking是一个基于分布式跟踪的应用程序性能监控系统,用于从服务和云原生等基础设施中收集、分析、聚合以及可视化数据,提供了一种简便的方式来清晰地观测分布式系统,具有分布式追踪、性能指标分析、应用和服务依赖分析等功能。 分布式追踪系统发展很快,种类繁多,给我们带来很大的方便。但在数据采集过程中,有时需要侵入用户代码,并且不同系统的 API 并不兼容,这就导致了如果希望切换追踪系统,往往会带来较大改动。OpenTracing为了解决不同的分布式追踪系统 API 不兼容的问题,诞生了 OpenTracing 规范。OpenTracing 是一个轻量级的标准化层,它位于应用程序/类库和追踪或日志分析程序之间。Skywalking基于OpenTracing规范开发,具有性能好,支持多语言探针,无侵入性等优势,可以帮助我们准确快速的定位到线上故障和性能瓶颈。 在本套课程中,我们将全面的讲解Skywalking相关的知识。从APM系统、分布式调用链等基础概念的学习加深对Skywalking的理解,从0开始搭建一套完整的Skywalking环境,学会对各类应用进行监控,学习Skywalking常用插件。Skywalking原理章节中,将会对Skywalking使用的agent探针技术进行深度剖析,除此之外还会对OpenTracing规范作整体上的介绍。通过对本套课程的学习,不止能学会如何使用Skywalking,还将对其底层原理和分布式架构有更深的理解。本课程由黑马程序员提供。
相关文章
|
2月前
|
前端开发 JavaScript 开发者
JavaScript:构建动态网络的引擎
JavaScript:构建动态网络的引擎
|
4月前
|
机器学习/深度学习 算法 量子技术
GQNN框架:让Python开发者轻松构建量子神经网络
为降低量子神经网络的研发门槛并提升其实用性,本文介绍一个名为GQNN(Generalized Quantum Neural Network)的Python开发框架。
88 4
GQNN框架:让Python开发者轻松构建量子神经网络
|
6月前
|
边缘计算 人工智能 5G
5G引领家庭网络升级:速度、稳定性与智能化的新时代
5G引领家庭网络升级:速度、稳定性与智能化的新时代
445 69
|
5月前
|
运维 Kubernetes 前端开发
如何用 eBPF 实现 Kubernetes 网络可观测性?实战指南
本文深入探讨了Kubernetes网络观测的挑战与eBPF技术的应用。首先分析了传统工具在数据碎片化、上下文缺失和性能瓶颈上的局限性,接着阐述了eBPF通过零拷贝观测、全链路关联和动态过滤等特性带来的优势。文章进一步解析了eBPF观测架构的设计与实现,包括关键数据结构、内核探针部署及生产环境拓扑。实战部分展示了如何构建全栈观测系统,并结合NetworkPolicy验证、跨节点流量分析等高级场景,提供具体代码示例。最后,通过典型案例分析和性能数据对比,验证了eBPF方案的有效性,并展望了未来演进方向,如智能诊断系统与Wasm集成。
181 1
|
6月前
|
人工智能 边缘计算 5G
5G时代,别让能耗成为“隐形杀手”——聊聊5G网络的能耗管理
5G时代,别让能耗成为“隐形杀手”——聊聊5G网络的能耗管理
299 13
|
2月前
|
人工智能 监控 数据可视化
如何破解AI推理延迟难题:构建敏捷多云算力网络
本文探讨了AI企业在突破算力瓶颈后,如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层,并深入解析了AI架构对网络提出的三大核心挑战:跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案,助力AI企业实现多云调度、业务融合承载与精细化流量管理,推动AI服务高效、稳定交付。
|
1月前
|
机器学习/深度学习 分布式计算 Java
Java与图神经网络:构建企业级知识图谱与智能推理系统
图神经网络(GNN)作为处理非欧几里得数据的前沿技术,正成为企业知识管理和智能推理的核心引擎。本文深入探讨如何在Java生态中构建基于GNN的知识图谱系统,涵盖从图数据建模、GNN模型集成、分布式图计算到实时推理的全流程。通过具体的代码实现和架构设计,展示如何将先进的图神经网络技术融入传统Java企业应用,为构建下一代智能决策系统提供完整解决方案。
229 0
|
7月前
|
边缘计算 安全 算法
阿里云CDN:构建全球化智能加速网络的数字高速公路
阿里云CDN构建全球化智能加速网络,拥有2800多个边缘节点覆盖67个国家,实现毫秒级网络延迟。其三级节点拓扑结构与智能路由系统,结合流量预测模型,确保高命中率。全栈式加速技术包括QUIC协议优化和Brotli压缩算法,保障安全与性能。五层防御机制有效抵御攻击,行业解决方案涵盖视频、物联网及游戏等领域,支持新兴AR/VR与元宇宙需求,持续推动数字内容分发技术边界。
450 13
|
2月前
|
机器学习/深度学习 算法 搜索推荐
从零开始构建图注意力网络:GAT算法原理与数值实现详解
本文详细解析了图注意力网络(GAT)的算法原理和实现过程。GAT通过引入注意力机制解决了图卷积网络(GCN)中所有邻居节点贡献相等的局限性,让模型能够自动学习不同邻居的重要性权重。
303 0
从零开始构建图注意力网络:GAT算法原理与数值实现详解
|
4月前
|
监控 安全 Go
使用Go语言构建网络IP层安全防护
在Go语言中构建网络IP层安全防护是一项需求明确的任务,考虑到高性能、并发和跨平台的优势,Go是构建此类安全系统的合适选择。通过紧密遵循上述步骤并结合最佳实践,可以构建一个强大的网络防护系统,以保障数字环境的安全完整。
118 12