阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。

作者微财技术研发经理 宋鑫

微财介绍

微财是一家创新型的金融科技企业,凭借多年积累的金融科技能力和数据处理优势,为客户提供消费分期等金融信息服务,致力于成为值得信赖的金融机构合作伙伴。旗下拥有好分期等品牌,为高成长用户提供信用分期借款过程中的综合性信息、技术以及辅助服务。

业务挑战

数据资源是金融科技企业的核心价值,微财依托大数据评估用户借款过程中的风险,随着微财业务的快速发展,积累了大量用户数据,大数据集的训练逐渐成为瓶颈,其成熟度对业务的重要性不言而喻。根据性能、成本、安全、易用性、可靠性和扩展性等多维度评估,我们可以发现,要搭建一套成熟、稳定且高效的大数据模型训练平台需要耗费大量人力和时间成本。

选择 Spark 技术栈

在数据平台计算引擎层技术选型上,前期的架构选型我们做了很多的调研,综合各个方面考虑,望选择一个成熟且统一的平台:既能够支持数据处理、数据分析场景,也能够很好地支撑数据科学场景。加上团队成员对 Python 及 Spark 的经验丰富, 且 Spark 拥有比较成熟的机器学习生态,所以,从一开始就将目标锁定到了 Spark 技术栈。

为什么选择阿里云 EMR Serverless Spark

在机器学习场景下需要解决的问题:

  • 一是要突破单机训练使用的数据规模的瓶颈;
  • 二是要提高训练的效率,EMR Serverless Spark 的全托管服务、灵活的弹性扩缩容很好的满足了这两点问题,保证了用户级别的独立资源供给。

通过与阿里云计算平台 EMR 团队进行多方面的技术交流以及实际的概念验证,我们最终选择了阿里云 EMR Serverless Spark。作为 一站式全托管湖仓分析平台,其自研 Fusion 引擎,内置高性能向量化计算和 RSS 能力,统一的数据工程和数据科学等,都是我们决定选择 EMR Serverless Spark 的重要原因。

具体来看,EMR Serverless Spark 提供的核心优势如下:

1. 引擎性能大幅提升:自研 Fusion 引擎,内置高性能向量化计算和 RSS 能力,相对开源版本性能提升 3 倍以上;


2. 完整 Spark 技术栈集成:支持使用 DataFrame、SQL、PySpark 等多种编程方式开发批、流、交互式分析、机器学习等不同类型的任务,并进行调度执行;支持通过 Spark Submit、Livy、Spark Thrift Server 等开源兼容的方式进行任务提交;提供内置 SQL Editor 和 Notebook,提供 ETL 和数据科学一体化开发体验;


3. Serverless 全托管服务:开箱即用,免运维,无需关注底层资源情况,降低运维成本,聚焦分析业务,秒级资源供给,按任务级别弹性扩缩容;


4. 高品质支持以及SLA保障阿里云提供覆盖 EMR Serverless Spark 的技术支持;提供商业化 SLA 保障与7*24小时 EMR Serverless Spark 专家支持服务;


5. 总成本降低:自研 Fusion 性能优势显著;同时基于计算存储分离架构,存储依托阿里云 OSS;能够有效降低集群总体使用成本


“EMR Serverless Spark 让我们有了单独的资源池进行模型训练,避免了资源冲突,同时还解决了我们在存算分离架构下需要处理 Shuffle 稳定性和性能问题的困扰。

——微财产品技术研发负责人”

技术数据平台整体架构

数据采集

在微财数据仓库搭建的初期,我们自主研发了 dw-shell 工具,提供了完善的数据采集能力,并且屏蔽了存储引擎和计算引擎之间的差异。这一工具在我们的上云过程中发挥了至关重要的作用,帮助我们在一个月内完成了所有大数据计算任务的全量迁移。

数据入湖

在数据入湖方面,我们采用了 Apache Paimon 作为数据湖存储框架,并集成了 Apache Spark、Flink 和 Hive 作为计算引擎,构建了一个完整的数据湖生态系统。这一系统已经在实时数据监控和分析等场景中得到了成熟的应用,显著提升了我们的数据处理能力和业务效率。

数据科学

我们将机器学习的训练过程从单机训练迁移到了大数据集群,采用本地 Python 环境 + 云端训练的方式,将训练任务提交到 EMR Serverless Spark,保证了本地开发灵活性的同时,充分利用了集群的计算资源,通过自研的模型开发框架 vulcan-x,使分布式训练代码的编写、超参调优与本地开发无异,大幅降低了分布式训练代码编写的难度,基本消除了数据科学家开发的学习成本。

典型应用场景介绍

智能风控

为了帮助数据科学家无缝将训练任务迁移到 EMR Serverless Spark 执行,我们搭建了风控能力平台 MX FLow,提供以下几方面的能力。

特征挖掘支持

我们在 EMR Serverless Spark 实现了特征挖掘常用的分箱方法,如等频分箱、决策树分箱、卡方分箱等,以及特征评估的相关函数,支持用户使用分布式能力将特征离散化,评估特征的风险区分度。

分布式训练

基于 Spark MLlib 成熟的机器学习生态,我们结合了 Spark MLlib 内置算法、以及相关开源算法,如 SynapseML 提供的 lightgbm 分布式实现,为用户提供与本机训练相同的 API,截至目前累计支持了随机森林、逻辑回归、lightgbm、catboot、xgboost 等算法。

image.png

实际测试中发现,训练耗时基本与数据集的 shape(行数 x 列数) 成正比。在常用的训练 PC 上 400万行的训练集,机器内存已经达到瓶颈,使用 EMR Serverless Spark 默认参数进行分布式训练,训练集 5000 万行时,训练耗时在 20 min 左右。

image.png

自动项目管理

MX Flow 与 vulcan-x 配合使用,形成客户端与服务端的交互模式,用户在本地使用 vulcan-x 编写运行的代码产生的过程或结果数据,自动以数据集服务在服务端组织起来,提供可视化过程数据报告、模型管理等功能。服务端也提供了完整的超参调优功能,兼容开源工具 Optuna,提供调优过程 Dashboard。


image.png image.png image.png

总结与展望

随着微财业务数据量的不断增长,我们将会进一步拓展分布式训练的规模。微财在智能风控场景中已经开始深度学习能力的探索,利用多节点的分布式训练框架,如 Horovod、PyTorch Distributed 等,加速大规模深度学习模型的训练过程。未来也希望能够在 EMR Serverless Spark 上能够使用到 GPU 训练的能力,共同探索分布式训练在深度学习领域的应用方向,提高训练效率和可扩展性。


阿里云 EMR Serverless Spark 版是阿里云开源大数据平台 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,使用户能更专注于数据分析和价值提炼


EMR Serverless Spark 交流钉钉群:58570004119。

image.png

相关文章
|
15天前
|
机器学习/深度学习 人工智能 Serverless
吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎
当前吉利汽车研究院人工智能团队承担了吉利汽车座舱 AI 智能化的方案建设,在和阿里云的合作中,基于星睿智算中心 2.0 的 23.5EFLOPS 强大算力,构建 AI 混合云架构,面向百万级用户的实时推理计算引入阿里云函数计算的 Serverless GPU 算力集群,共同为智能座舱的交互和娱乐功能提供大模型推理业务服务,涵盖的场景如针对模糊指令的复杂意图解析、文生图、情感 TTS 等。
|
3月前
|
运维 NoSQL Serverless
|
3月前
|
人工智能 运维 Cloud Native
阿里云Serverless计算产品入选Gartner®报告「领导者」象限!
近日,Gartner® 发布了 2025 年度全球《云原生应用平台魔力象限》报告,阿里云凭借 Serverless 应用引擎 SAE(以下简称 SAE)和函数计算 FC,成为亚太地区唯一入选「领导者象限」的科技公司。
315 16
|
2月前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
2月前
|
消息中间件 运维 监控
爆款游戏背后:尚娱如何借助阿里云 Kafka Serverless 轻松驾驭“潮汐流量”?
阿里云 Kafka 不仅为尚娱提供了高可靠、低延迟的消息通道,更通过 Serverless 弹性架构实现了资源利用率和成本效益的双重优化,助力尚娱在快速迭代的游戏市场中实现敏捷运营、稳定交付与可持续增长。
139 24
|
30天前
|
人工智能 运维 安全
阿里云函数计算 AgentRun 全新发布,构筑智能体时代的基础设施
阿里云推出以函数计算为核心的AgentRun平台,通过创新体系解决开发、部署、运维难题,提供全面支持,已在多个真实业务场景验证,是AI原生时代重要基础设施。
|
2月前
|
消息中间件 存储 运维
嘉银科技基于阿里云 Kafka Serverless 提升业务弹性能力,节省成本超过 20%
云消息队列 Kafka 版 Serverless 系列凭借其秒级弹性扩展、按需付费、轻运维的优势,助力嘉银科技业务系统实现灵活扩缩容,在业务效率和成本优化上持续取得突破,保证服务的敏捷性和稳定性,并节省超过 20% 的成本。
140 22
|
2月前
|
人工智能 运维 安全
阿里云函数计算 AgentRun 全新发布,构筑智能体时代的基础设施
云原生应用平台 Serverless 计算负责人杨皓然在云栖大会发表主题演讲“Serverless Agent 基础设施:助力大规模 Agent 部署与运维”。本议题深入介绍了阿里云以函数计算为核心打造的 Agent 基础设施——AgentRun,阐述其如何通过创新的运行时、模型服务、网关及可观测体系,为企业构筑坚实、高效、安全的 Agent 时代基石。
|
3月前
|
运维 NoSQL Serverless
《第四纪元》玩得轻松,构建也轻松 | 阿里云云原生 API 网关、函数计算助力 IGame 快速构建轻休闲游戏
在轻休闲游戏流量波动大、生命周期短的背景下,传统架构难以应对成本与扩展挑战。本文介绍了基于阿里云函数计算 FC 和 Redis 构建的新一代服务器架构,实现弹性伸缩、成本优化与高效运维,助力轻休闲游戏快速迭代与稳定运营,提升开发效率并降低运维复杂度。
《第四纪元》玩得轻松,构建也轻松 | 阿里云云原生 API 网关、函数计算助力 IGame 快速构建轻休闲游戏
|
DataWorks 数据挖掘 Serverless
阿里云EMR Serverless StarRocks 内容合集
阿里云 EMR StarRocks 提供存算分离架构,支持实时湖仓分析,适用于多种 OLAP 场景。结合 Paimon 与 Flink,助力企业高效处理海量数据,广泛应用于游戏、教育、生活服务等领域,显著提升数据分析效率与业务响应速度。
208 0