MaxCompute执行作业慢的原因排查-阿里云开发者社区

MaxCompute执行作业慢的原因排查

2017-10-16 24875

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 大家在平时开发过程中经常遇到作业（SQL、MR等）执行慢的原因，今天带大家一起学习自排查方法。 1、wait wait ，job querying 遇到这个提示，就是资源出现了排队，如果你是后付费用户，那就是整个后付费的共享池已经没有富余的资源了，要等前一个作业处理完。

大家在平时开发过程中经常遇到作业（SQL、MR等）执行慢的原因，今天带大家一起学习自排查方法。

1、waiting ,waiting，Job Queueing... Job Queueing...

遇到这个提示，就是资源出现了排队。

6d75607c76e9dd18641bcba1311487332841ee20

排查分析：如果你是后付费用户，那就是整个后付费的共享池已经没有富余的资源了。

解决方案：要等共享池中的前一个作业处理完或者根据作业使用的CU情况，购买预付费CU。

排查分析：如果你是预付费用户，很有可能是其他人的作业占用了过多资源，导致了排队。

解决方案：同一账户多人使用，存在并行多个JOB作业，部门之前可以合理设计JOB作业运行计划，错峰跑JOB作业。

2、作业超时严重，超出了作业平均时间

遇到这种现象，先别着急，打开logview看一下，是不是大部分小作业已经跑完，剩下部分作业没有跑完。

bc43935528472d3a266c5171a97ce516e352116f

排查分析：这种就是典型的数据长尾问题了，因为数据分布不均，导致各个节点的工作量不同，整个任务就需要等最慢的节点完成才能完成，可以通过优化来自行解决。

解决方案：大家可以参考这两篇文档。

bba01b493e1c5d904e882b1c380673c6ebe49a98

MaxCompute执行作业慢的原因排查