实战 | Hive 数据倾斜问题定位排查及解决 (一)

简介: Hive 数据倾斜怎么发现,怎么定位,怎么解决

Hive 数据倾斜怎么发现,怎么定位,怎么解决


多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。


今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。


当执行过程中任务卡在 99%,大概率是出现了数据倾斜,但是通常我们的 SQL 很大,需要判断出是哪段代码导致的倾斜,才能利于我们解决倾斜。通过下面这个非常简单的例子来看下如何定位产生数据倾斜的代码。


表结构描述


先来了解下这些表中我们需要用的字段及数据量:


表的字段非常多,此处仅列出我们需要的字段


第一张表:user_info (用户信息表,用户粒度)


字段名 字段含义 字段描述
userkey 用户 key 用户标识
idno 用户的身份证号 用户实名认证时获取
phone 用户的手机号 用户注册时的手机号
name 用户的姓名 用户的姓名


user_info 表的数据量:1.02 亿,大小:13.9G,所占空间:41.7G(HDFS三副本)


第二张表:user_active (用户活跃表,用户粒度)


字段名 字段含义 字段描述
userkey 用户 key 用户没有注册会分配一个 key
user_active_at 用户的最后活跃日期 从埋点日志表中获取用户的最后活跃日期


user_active 表的数据量:1.1 亿


第三张表:user_intend(用户意向表,此处只取近六个月的数据,用户粒度)


字段名 字段含义 字段描述
phone 用户的手机号 有意向的用户必须是手机号注册的用户
intend_commodity 用户意向次数最多的商品 客户对某件商品意向次数最多
intend_rank 用户意向等级 用户的购买意愿等级,级数越高,意向越大


user_intend 表的数据量:800 万


第四张表:user_order(用户订单表,此处只取近六个月的订单数据,用户粒度)


字段名 字段含义 字段描述
idno 用户的身份证号 下订单的用户都是实名认证的
order_num 用户的订单次数 用户近六个月下单次数
order_amount 用户的订单总金额 用户近六个月下单总金额


user_order 表的数据量:640 万


1. 需求



需求非常简单,就是将以上四张表关联组成一张大宽表,大宽表中包含用户的基本信息,活跃情况,购买意向及此用户下订单情况。


2. 代码



根据以上需求,我们以 user_info 表为基础表,将其余表关联为一个宽表,代码如下:


select
  a.userkey,
  a.idno,
  a.phone,
  a.name,
  b.user_active_at,
  c.intend_commodity,
  c.intend_rank,
  d.order_num,
  d.order_amount
from user_info a
left join user_active b on a.userkey = b.userkey
left join user_intend c on a.phone = c.phone
left join user_order d on a.idno = d.idno;


执行上述语句,在执行到某个 job 时任务卡在 99%:


image.png


这时我们就应该考虑出现数据倾斜了。其实还有一种情况可能是数据倾斜,就是任务超时被杀掉,Reduce 处理的数据量巨大,在做 full gc 的时候,stop the world。导致响应超时,超出默认的 600 秒,任务被杀掉。报错信息一般如下:


AttemptID:attempt_1624419433039_1569885_r_000000 Timed outafter 600 secs Container killed by the ApplicationMaster. Container killed onrequest. Exit code is 143 Container exited with a non-zero exit code 143


3. 倾斜问题排查



数据倾斜大多数都是大 key 问题导致的。


如何判断是大 key 导致的问题,可以通过下面方法:


1. 通过时间判断


如果某个 reduce 的时间比其他 reduce 时间长的多,如下图,大部分 task 在 1 分钟之内完成,只有 r_000000 这个 task 执行 20 多分钟了还没完成。


image.png


注意:要排除两种情况:


  1. 如果每个 reduce 执行时间差不多,都特别长,不一定是数据倾斜导致的,可能是 reduce 设置过少导致的。


  1. 有时候,某个 task 执行的节点可能有问题,导致任务跑的特别慢。这个时候,mapreduce 的推测执行,会重启一个任务。如果新的任务在很短时间内能完成,通常则是由于 task 执行节点问题导致的个别 task 慢。但是如果推测执行后的 task 执行任务也特别慢,那更说明该 task 可能会有倾斜问题。


2. 通过任务 Counter 判断


Counter 会记录整个 job 以及每个 task 的统计信息。counter 的 url 一般类似:


http://bd001:8088/proxy/application_1624419433039_1569885/mapreduce/singletaskcounter/task_1624419433039_1569885_r_000000/org.apache.hadoop.mapreduce.FileSystemCounter


通过输入记录数,普通的 task counter 如下,输入的记录数是 13 亿多:


image.png


image.png


而 task=000000 的 counter 如下,其输入记录数是 230 多亿。是其他任务的 100 多倍:


image.png

相关文章
|
SQL 存储 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
261 0
|
SQL 分布式计算 数据库
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
652 0
|
6月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
SQL 数据处理 HIVE
HIVE的数据倾斜调优
hive数据倾斜主要是由shuffle引起的,而引起shuffle的又主要有四种情况,分别为: 1.group by 2.join 3.count(distinct) 4.开窗函数
467 8
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
2665 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
SQL 缓存 分布式计算
手把手教你解决 Hive 的数据倾斜
数据倾斜是 Hive 中影响任务执行效率的现象,表现为某些任务处理的数据量或耗时远超其他任务。根本原因是 Shuffle 后 Key 分布不均,导致部分 Reduce 负载过高。常见场景包括空值聚合、不可拆分大文件、数值膨胀、不同数据类型 Join、Count(distinct) 计算以及表 Join 操作。解决方法包括过滤空值、转换数据类型、调整聚合策略、使用 MapJoin 等。通过合理优化,如设置 `hive.groupby.skewindata` 和 `hive.map.aggr` 参数,可以有效缓解数据倾斜问题。
2055 2
|
SQL 分布式计算 算法
【Hive】数据倾斜怎么解决?
【4月更文挑战第16天】【Hive】数据倾斜怎么解决?
|
SQL HIVE
Hive数据倾斜处理集合
Hive数据倾斜处理集合
338 0
|
SQL 数据采集 分布式计算
Hadoop和Hive中的数据倾斜问题及其解决方案
Hadoop和Hive中的数据倾斜问题及其解决方案
315 0
|
SQL HIVE
Hive group by 数据倾斜问题处理
Hive group by 数据倾斜问题处理
266 0