2022云栖精选—小米大数据运维管理体系的建设与实践

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 刘志杰小米大数据运维负责人

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

一、  大数据运维数字化转型

image.png

小米业务架构主要分为三层。

第一层,IaaS层。包含IDC、公有云、网络等。

第二层,PaaS层。大数据作为PaaS层核心,向下对接基础资源,向上承接业务需求,帮助业务沉淀数据资产、提升数据效率。

第三层,SaaS层。包含手机、IOT、汽车等数百个核心业务。

image.png

小米大数据服务架构立足于X86ECS之上,自下而上分为四个层级。

数据采集层:主要采用自研Talos实现。

数据存储层:包含各类自研及开源主体,如文件存储的HDFSKV存储的PegasusHbase、对象存储FDS等等。

数据计算层:使用YARN作为统一资源管理服务器,并基于YARN提供多种批处理和流处理引擎。此外OLAP引擎进一步满足数据检索和机器查询的需求。

数据平台层:又称数据工厂,提供一站式的数据开发和数据管理功能。

随着小米业务的不断发展,目前小米大数据服务涵盖国内外20多家的机房区域,达到了千家集群、数万节点的规模。数据总量接近EB存储,每日计算作业约30万。

image.png

小米的运维转型面临了诸多挑战。

第一,传统运维管理方式和服务快速发展之间的矛盾日益突增,具体表现在服务的质量、成本、效率各个方面。

第二,大数据服务场景多,差异化极大,运维复杂度持续增加。

第三,数据孤岛导致数据难以被高效利用,数据分析、决策、执行效率低。

第四,运营单核心发展导致标准化流程落地难,局部出现了“多人多面”的现象。

image.png

轻舟是小米大数据中长期规划战略的代称,其主线是通过建设全能的基线能力,打造极致的承运能力,以实现全生命周期的管理。

轻舟架构包含两层。

一是基线能力层,包含数据集市和发布中心两部分。

二是垂域能力层,完整覆盖服务生命周期,包括服务的创建、运营和消亡。

image.png

轻舟一体化数据集市主要用于解决实践中的数据孤岛问题,在数据源和数据使用方之间搭建数据集市。在数据集市上制定了数据管理规范,并对数据进行分层次处理,通过一条调度同时实现数据的存储和使用。

该方案具有以下两个优点:

第一,统一数据运维体系。解决数据孤岛问题的同时,降低了数据使用门槛。目前,该数据方案应用于所有的大数据运维服务中。

第二,数据场景闭环。历史数据方案以人为中心,最新的数据方案则是以数据场景为中心,降低了计算复杂度。

image.png

轻舟发布中心通过调度编排加低代码的模式,实现了工作流的灵活定义。依托于模板实现SOP固化和沉淀,完成去人工化。

如图所示,该方案针对各种执行底层以及自定义脚本进行统一池化管理,在各个面板上定义了多种区域,如循环区、单次执行区等等。

目前该方案已经推广到所有的大数据服务中,发布效率提升30%以上。

image.png

轻舟运营中心结合数据和AutoOps理念,重点解决了管理过程中经验化程度高的问题。目前已经覆盖了95%上的大数据服务,大幅降低管理成本。

该方案在一定程度上实现了对数据的进一步分析及全场景的容量检测。除此之外,该方案还配有巡检、配置等多个模块。


二、  大数据技术架构实践

image.png

小米核心数据链路以Talos为核心。原始数据通过Hive或其他形式统一进入到Talos中,后端转储模块实时处理Talos中的数据,并将数据接入到其他数据集中,以供进一步分析和使用。

目前,该数据方案已经广泛推广,小米业务中超过50%的数据都是通过该方案进行处理。

image.png

小米最新的数仓架构是由IcebergSparkFlink构成的一套离线实时数仓。原始数据通过核心链路到达离线湖仓中,并在湖中不同数仓层级之间完成FlinkSpark建设。

同时,小米OLAP引擎提供直接查询核心数据功能。

目前,该数仓方案能够达到分钟级延迟。相比KappaLamdba,架构复杂度明显下降,数据存储能力提升明显。

image.png

HDFS实践中一般使用机械盘、固态盘等存储方式进行数据耦合和数据区分。小米为了压缩数据成本,提升数据性价比,使用HDFS Tering网络数据分类架构来实现冷热数据分层。

如图,后台Mover程序读取冷数据,存储在阿里云OSS上,同时更新Mover云数据。

目前,该方案已经完整用于线上,冷数据量超过200P,冷数据成本降低80%

image.png

为支撑小米IOT战略,满足业务海量数据检索的需求,小米研发了SDS。然而,该方案存在以下三个方面的问题。

第一,随着小米业务不断发展,数据规模持续扩张,内部架构问题逐渐暴露。

第二,数据链路较长,排查问题困难,开发维护成本高。

第三,SDS支持物联网持续数据的场景能力较差,开发功能不完善。

image.png

Lindorm兼容开源系统协议,满足架构需求。同时,Lindorm 过程存储以及 SLA协议可以彻底解决系统内历史回流问题。

Lindorm在小米内部测试结果出色,符合业务需求。

image.png

完成选型和测试后,以低成本实现SDSLindorm的转换需要以下三个步骤。

第一步,打通IDC数据链路,完成SDS Lindorm的双向流通。

第二步,保持SDSLindorm数据同步更新,提供了SDS定制Proxy以最小化运营成本。

第三步,将流量和SDS切换到Lindorm上。

目前,整套方案在持续的运营当中。

image.png

小米团队在过去参与了许多大数据事件,如云原生存储建设、跨机房改造等。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
3月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
3月前
|
存储 运维 安全
运维知识沉淀工具深度解析:从结构设计到落地实践全拆解
运维知识沉淀工具助力团队将零散经验结构化存储,实现问题处理路径标准化、知识复用化。通过标签、模板与自动化调取机制,让每次处理都留下可复用资产,提升团队协同效率与系统稳定性。
|
3月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
1月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
2月前
|
机器学习/深度学习 人工智能 运维
三重Reward驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践
这篇文章系统性地阐述了 AI 原生时代下,面向技术风险领域的智能体系统(DeRisk)的架构设计、核心理念、关键技术演进路径与实践落地案例。
三重Reward驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践
|
3月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。
|
2月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
132 14
|
3月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
112 0

热门文章

最新文章