大数据行业应用之Hive数据分析航班线路相关的各项指标

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据行业应用之Hive数据分析航班线路相关的各项指标

项目概要

1.项目背景:

飞机航班经常会因为各种原因,如天气原因,雷雨、大雾、大风等情况,或机场原因,导致航班的延误甚至取消,现在有一批航班的历史数据,基于这些数据,对航班的各种重要指标做统计分析,如最繁忙航线、某机场起降最频繁时段等等;最后,利用机器学习,对航班延误做预测,旅客可参考这些统计及预测结果调整行程安排。

2.建设目标:

亲自动手搭建项目所需的实验环境:搭建hadoop集群、分析航空数据的一些指标;

需求分析

1.需求介绍:分析航班相关的各项指标

2.功能点:数据清洗

功能描述:对航班数据flights.csv及airport.csv文件进行数据的清洗,备接下来的数据分析使用。

3.功能点:打开hive分析环境

功能描述:打开数据分析的环境,使用hive命令行的方式分析数据;

4.功能点:读取航班及机场信息

功能描述:使用hive来读取航班及机场信息,并分别注册成临时表,在接下来的分析中会用到这两个视图。

5.功能点:分析共有哪些航班?

功能描述:分析共有哪些航班,对重复的航班进行过滤,只要从航班数据中将经过去重后的航班号求出即可

6.功能点:航班最频繁的5条航线

功能描述:航班从起飞机场origin到落地机场dest(即:origion -> dest),简单定义为航线,现要统计最频繁的5条航线,先将数据按照origin,dest分组,再按每组的个数降序排序,取头5条,从而统计出来航班最频繁的5条航线的相关信息

7.功能点:航班最空闲的航线

功能描述:与上一个需求基本相似,排序顺序相反,以一条数据

8.功能点:航班最多的机场统计

功能描述:将航班flights数据按照origin起飞地分组,降序排序,取头一个

9.功能点:延误最少航班统计

功能描述:先获得每架航班的出发总延误时间,进行降序排序,取头一条;即:对flights数据按照航班分组,求每组的延误时间总和,并降序排序,取头一条

解决方案

架构简介:

本案例使用Hadoop作为底层支持,其中HDFS提供底层存储支持,Yarn提供集群中应用的资源调度支持;Hive提供数据访问支持。

模块名称:(实际使用了哪些模块都要在这里体现出来,并要有描述)

数据存储模块:

数据存储在HDFS中

数据计算模块:

使用hive对表数据进行分析计算

.

准备工作

数据介绍:共两份数据:航班数据及机场数据。

不同年份的航班信息数据,此处以2000年的数据2000.csv为例,字段及说明如下表:

航班信息数据介绍:

Name Description 字段描述

1 Year 1987-2008 此飞行记录所属年份

2 Month 1~12 此飞行记录所属月份

3 DayofMonth 1~31 此飞行记录所属当月的第几天

4 DayOfWeek 1 (Monday) - 7 (Sunday) 此飞行发生在本周第几天

5 DepTime actual departure time (local, hhmm) 实际飞离机场时间(小时分钟,如1940表示19点40分)

6 CRSDepTime scheduled departure time (local, hhmm) 计划分离机场时间(小时分钟,如1940表示19点40分)

7 ArrTime actual arrival time (local, hhmm) 实际抵达机场时间(小时分钟,如1940表示19点40分)

8 CRSArrTime scheduled arrival time (local, hhmm) 计划抵达机场时间(小时分钟,如1940表示19点40分)

9 UniqueCarrier unique carrier code 航空公司代码

10 FlightNum flight number 航班号

11 TailNum plane tail number 机尾编号

12 ActualElapsedTime in minutes 航程实际耗时(单位分钟)

13 CRSElapsedTime in minutes 航程计划耗时(单位分钟)

14 AirTime in minutes 飞机空中飞行时长(单位分钟)

15 ArrDelay arrival delay, in minutes 抵达晚点时长(单位分钟)

16 DepDelay departure delay, in minutes 出发延误时长(单位分钟)

17 Origin origin IATA airport code 出发所在机场编号(国际航空运输协会指定)

18 Dest destination IATA airport code 抵达机场编号(国际航空运输协会指定)

19 Distance in miles 航程(单位英里)

20 Cancelled was the flight cancelled? 航班是否取消

21 CancellationCode reason for cancellation (A = carrier, B = weather, C = NAS, D = security) 航班取消代码

22 Diverted 1 = yes, 0 = no 是否改道(1是,0否)

23 WeatherDelay in minutes 天气原因延迟

24 SecurityDelay in minutes 安全原因延迟

机场数据:数据介绍:

iata 国际航空运输协会代码

airport 机场

city 城市

state 州

country 国家

lat 纬度

long 经度

数据采集

由于本案例采集的获取数据的手册并非是大数据行业中常用的数据采集方案,与大数据相关性不大,所以此案例直接提供采集下来的数据,供案例使用。

数据清洗

航空数据集和机场数据中存在一些不合理的数据,需要对这部分做清洗,清洗后的结果留待接下来的操作中使用。

数据存储

本案例的重点是数据分析,此部分可以自己使用传统的JDBC方式存在到关系型数据库中。

数据计算

数据计算即是数据分析,本案例中对机场数据及航班数据进行分析,得出各项指标。数据计算常用手段有MapReduce, Hive,等等,本案例选择使用hive进行数据分析。具体的数据分析请见实验手册。

数据可视化

隐藏此模块。

开始实验

介绍:主要分两部分,第一部分是实验环境的准备,包括“hadoop集群安装部署”;第二部分是真正的数据分析部分。


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
17天前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
1月前
|
机器学习/深度学习 搜索推荐 数据挖掘
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
117 9
|
2月前
|
数据可视化 数据挖掘 大数据
基于python大数据的水文数据分析可视化系统
本研究针对水文数据分析中的整合难、分析单一和可视化不足等问题,提出构建基于Python的水文数据分析可视化系统。通过整合多源数据,结合大数据、云计算与人工智能技术,实现水文数据的高效处理、深度挖掘与直观展示,为水资源管理、防洪减灾和生态保护提供科学决策支持,具有重要的应用价值和社会意义。
|
3月前
|
存储 数据挖掘 大数据
基于python大数据的用户行为数据分析系统
本系统基于Python大数据技术,深入研究用户行为数据分析,结合Pandas、NumPy等工具提升数据处理效率,利用B/S架构与MySQL数据库实现高效存储与访问。研究涵盖技术背景、学术与商业意义、国内外研究现状及PyCharm、Python语言等关键技术,助力企业精准营销与产品优化,具有广泛的应用前景与社会价值。
|
6月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
6月前
|
人工智能 自然语言处理 Prometheus
不懂 PromQL,AI 智能体帮你玩转大规模指标数据分析
PromQL AI 智能体上线。本文将从自然语言生成 PromQL 实践视角,探讨如何构建知识库、与大模型进行交互、最终生成符合需求的 PromQL 语句。本文还介绍了在 MCP 和云监控控制台下使用 AI 智能体的用例。
521 51
|
4月前
|
机器学习/深度学习 Java 大数据
Java 大视界 -- Java 大数据在智能政务公共资源交易数据分析与监管中的应用(202)
本篇文章深入探讨了 Java 大数据在智能政务公共资源交易监管中的创新应用。通过构建高效的数据采集、智能分析与可视化决策系统,Java 大数据技术成功破解了传统监管中的数据孤岛、效率低下和监管滞后等难题,为公共资源交易打造了“智慧卫士”,助力政务监管迈向智能化、精准化新时代。
|
6月前
|
存储 关系型数据库 MySQL
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
本文详细介绍了在 MySQL 中创建数据库和表的方法。包括安装 MySQL、用命令行和图形化工具创建数据库、选择数据库、创建表(含数据类型介绍与选择建议、案例分析、最佳实践与注意事项)以及查看数据库和表的内容。文章专业、严谨且具可操作性,对数据管理有实际帮助。
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
|
10月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
543 92
|
9月前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。

热门文章

最新文章