2023年职业院校技能大赛中职组----大数据应用与服务赛项任务书试题-阿里云开发者社区

一、竞赛内容

本试卷包含数据库系统运维、数据采集与处理、大数据应用开发三个模块，试卷满分100分。

二、竞赛时间

竞赛时间：共计240分钟。

三、竞赛事项要求

1.参赛选手不得携带通信设备等物品进入赛场，严禁在程序及运行结果中任何位置标注竞赛队的任何信息，违反者按作弊处理。

2.请根据大赛所提供的竞赛环境，检查所列的硬件设备、软件清单、材料清单是否齐全，计算机设备是否能正常使用。

3.竞赛结束前，整合各试题的操作过程和结果数据，并提交完整的文档、代码、截图等竞赛结果到指定目录中。

4.竞赛结束时，后台统一关闭答题通道，禁止将比赛所用的所有物品（包括试卷和稿纸）带离赛场。

模块一：数据库系统运维（25分）

任务一：数据库系统搭建（10分）

【任务要求】

本环节需要使用root用户完成相关配置，实现数据库系统MySQL搭建、配置及使用；

【任务需求背景】

在数据量日益增加的环境下，单一部门的数据通常无法满足整个企业的需求。此时需要通过数据库进行整合，将来自各个部门的数据汇总到一个系统中，实现数据的共享，更好的实现信息共享互通。如物资管理、软件项目管理、人事管理等，这些工作都需要建立相应的数据库进行维护，以便更好地管理相关数据。

【具体任务】

1、添加MySQL数据库系统的用户和组，将完整命令截图粘贴到对应答题报告中

2、将MySQL安装包解压到/usr/local路径，将完整命令截图粘贴到对应答题报告中；

3、在/usr/local目录下将解压出来的Mysql包改名为mysql，将完整命令截图粘贴到对应答题报告中；

4、将/usr/local/目录下的mysql文件夹修改为mysql组所拥有权限，将完整命令截图粘贴到对应答题报告中；

5、在/usr/local/mysql目录下(一定要在mysql目录下执行，注意输出的文字，里边有修改root密码和启动mysql的命令)，初始化MySQL数据库系统，将完整命令及初始化成功的截图粘贴到对应答题报告中；

6、在usr/local/mysql/目录下，执行对MySQL数据库初始化后服务的启动命令，将完整命令及初始化成功的截图粘贴到对应答题报告中；

7、在usr/local/mysql/目录下，设置MySQL数据库的登录用户root的密码，将完整命令及初始化成功的截图粘贴到对应答题报告中；

8、在usr/local/mysql/目录下，设置MySQL数据库的登录用户root的密码，将完整命令的截图粘贴到对应答题报告中；

9、在usr/local/mysql/目录下，拷贝/usr/local/mysql/support-files/my-medium.cn配置文件到etc目录下，增加或者修改MySQL数据库的最大连接数，保存修改后的配置文件，将完整命令及修改配置后的截图粘贴到对应答题报告中；

10、通过root用户登录MySQL数据库系统，查看mysql库下的所有表，将完整命令及执行命令后的结果的截图粘贴到对应答题报告中；

任务二：房源数据库系统运维（15分）

【任务要求】

本环节需要使用MySQL数据库系统完成关于各城市用户租房信息的建库、建表、数据的增、删、改、查等操作。

【任务需求背景】

为了了解各城市租房的整体情况，以便更好的为客户提供服务。通过对租房信息数据进行分析和可视化，可以获得一些重要的信息，如房源面积、房源价格、房源地段等，这些信息可以帮助我们更好的了解城市租房的整体情况，因此，建立一个房源信息管理系统，并通过MySQL数据库进行管理和维护，是非常必要的。

【具体任务】

1、在Mysql库中，创建一个名为tenantdb的数据库并查看这个数据库，将完整命令及结果截图粘贴到对应答题报告中；

2、在Mysql库中，选择并使用刚才创建的tenantdb数据库，将完整命令及结果截图粘贴到对应答题报告中；

3、在tenantdb数据库中创建一个名为rental_info的数据表，包含字段见下表，指定user_id字段为主键，该字段非空且自增，数据库引擎为InnoDB，默认字符集为utf8，字段类型应符合实际意义。将完整命令及运行结果截图粘贴到对应答题报告中；

表1 rental_info表字段说明：

字段	说明
user_id	租户id
user_id	租户id
user_name	租户姓名
sex	租户性别
age	租户年龄
address	家庭住址

4、在Mysql库中，查看刚才创建的rental_info表结构，将完整命令及结果截图粘贴到对应答题报告中；

5、在Mysql库中，修改rental_info表结构，将字段sex修改为user_sex，增加字段rental_address（租房地址），字段类型应符合实际意义。将完整命令及运行结果截图粘贴到对应答题报告中；

6、在Mysql库中，向rental_info表中插入三条租客租房信息：

小张，男，29，成都市天府新区，成都市武侯区；

小李，男，27，成都市成华新区，成都市高新区；

小王，男，32，成都市锦江区，成都市天府新区。

将完整命令及运行结果截图粘贴到对应答题报告中；

7、插入数据后，查询表数据，将完整命令及运行结果截图粘贴到对应答题报告中；

8、将rental_info表中user_id为1的记录，姓名修改为张三，年龄修改为35。将完整命令及运行结果截图粘贴到对应答题报告中；

9、修改rental_info表数据后，查询表数据，将完整命令及运行结果截图粘贴到对应答题报告中；

10、删除rental_info表中姓名为小李的数据，将完整命令及运行结果截图粘贴到对应答题报告中；

11、删除rental_info表数据后，查询表数据，将完整命令及运行结果截图粘贴到对应答题报告中。

模块二：数据采集与处理（30分）

任务一：二手房源数据采集（10分）

【任务要求】

本环节需要使用项目文件中导入的库完成关于房源信息的采集、保存等操作。

【任务需求背景】

互联网中的数据是海量的，通过人力操作进行数据采集低效繁琐，如何高效地获取数据源成为首要问题。本项目使用网络爬虫技术对数据信息进行采集，从“二手房信息查询网站”中抓取房源数据，并将数据进行存储。

【具体任务】

1、使用虚拟机中的谷歌浏览器访问“二手房信息查询网站”，网站访问地址为

【http://127.0.0.1:5000】，网站首页效果图如下；

2、点击城市标签跳转到对应页面。以“成都”为例，“成都二手房信息”页面展示如下图；

3、使用PyCharm打开桌面上的“House”项目，在“spider”包下的“crawl_house.py”文件中进行编码，该文件用于从“二手房信息查询网站”中抓取北京、广州、天津、深圳、佛山、南宁、太原这7个城市的二手房数据，并按城市名分别保存到xlsx文件中。xlsx文件存储到“House”项目中的【spider/house_data/】目录下，若目录不存在，则需自行创建目录。

抓取的二手房信息数据及文件名要求如下：

文件名	列名
城市名_house.xlsx（如“北京_house.xlsx”）	格局、面积、朝向、层数、房龄、总价、平方价格

任务二：房源信息数据清洗（10分）

【任务要求】

本环节需要使用Excel工具对数据文件的处理，包括排序、筛选、数据标注等。

【任务需求背景】

数据资产时代，人口带来了数据，数据成就了社会发展，数据可以说无处不在。随着科技的不断发展，我们生活中产生的数据量越来越大，如何从海量数据中筛选出真正需要的数据是非常关键的。本任务使用Excel工具对数据进行处理，根据要求筛选出对应的房源。

【具体任务】

1、使用Excel打开任务一中保存的“北京”和“深圳”两地的房源信息文件；

2、筛选出面积在90—100m2平方以及价格最低的20个房源信息，在最后一列后面新增一列“意向排行”，按价格顺序从低到高，前10行标注为“优质房源”，后10行标注为“一般房源”。完成后在答题报告上粘贴相应的截图。

任务三：新房数据处理（10分）

【任务要求】

本环节需要使用NumPy、Pandas等数据处理工具完成关于新房信息数据的处理，并将处理后的数据进行保存。

【任务需求背景】

数据处理能将大量可能是杂乱无章的数据分为不同的类别和组织，为人们提供有用、有意义、易于理解的信息，帮助人们更加高效地管理和使用数据。而在现代社会，数据处理貫穿于各个领域，成为了人们对数据分类、组织、编码、存储、查询和维护等活动的关键环节。现在有一批新房信息数据，每个新房信息包括格局、面积、朝向、层数、房龄、价格等字段。需要针对原始数据中的异常数据进行处理，以便后续的使用。

【具体任务】

1、使用PyCharm打开虚拟机桌面上的“House”项目，在“clean_data”包下的“clean_house.py”文件中进行编码，该文件用于清洗新房数据并保存。

2、待清洗数据保存在“House”项目“clean_data”包的“data”下，清洗要求如下：

（1）针对“价格”列进行数据切分，切分后列名设置为“总价”、“平均价格”。

（2）针对“价格”列中存在的缺失数据，如果有另一条数据的“面积”列与之相同，则用该数据中的“价格”进行填充；如果不存在，则删除存在缺失值的数据。

（3）针对其他列中存在缺失值的数据，一律执行删除操作。

3、将处理完成后的数据进行保存，按城市名分别保存为xlsx文件（如“北京_new_house.xlsx”），存储到“House”项目中的【clean_data/house_data/】目录下，若目录不存在，则需自行创建目录。

4、使用Excel打开【clean_data/house_data/】目录下保存的文件，按“面积”列进行排序，完成后在答题报告上粘贴相应的截图。

模块三：大数据应用开发（45分）

任务一：基于Tableau进行数据分析与可视化（10分）

【任务要求】

本环节需要使用数据可视化工具Tableau，基于房源信息数据进行可视化展示；

【任务需求背景】

为了了解各城市租房的整体情况，以便更好的为客户提供服务。通过对租房信息数据进行分析和可视化，可以获得一些重要的信息，如房源面积、房源价格、房源地段等，这些信息可以帮助我们更好的了解城市租房的整体情况。

【具体任务】

1、租房信息相关数据存储在Windows桌面“draw_price”下的“各城市租房信息.csv”中，使用数据可视化工具Tableua连接Windows桌面目录下的csv文件数据源，绘制租房价格随面积变化的折线图。X轴标签显示为面积，Y轴标签设置为最高租赁价格，标题设置为“面积-房价走势图”；

2、根据“各城市租房信息.csv”数据表，使用Tableua连接csv文件数据源，根据“房源地段”统计出各地段的在售房源数据，绘制在售房源数据统计柱状图。X轴刻度标签显示为地段名称，Y轴标签显示为在售房源数量，标题设置为“各地段在售房源对比图”。

3、X轴刻度标签字体大小为自定义大小，Y轴刻度标签字体大小为自定义大小；

4、将绘制完成后的图表进行截图，粘贴到答题报告上对应位置。

任务二：基于Excel进行数据分析与可视化（10分）

【任务要求】

本环节需要使用Excel开发工具，对各城市的租房价格数据表进行数据分析与处理，进行可视化展示；

【任务需求背景】

【具体任务】

1、使用Excel工具打开Windows桌面“draw_price”文件下的“各城市租房信息.csv”，使用该数据源绘制柱状图，X轴标签设置为城市名，Y轴标签设置为平均租房价格，标题设置为“各城市租房均价对比图”，X轴刻度标签字体大小为8，Y轴刻度标签字体大小为8；

（1）使用透视表在新工作表中进行插入，选取所有的城市名作为A列，选取租房的价格求平均后作为B列；

（2）以城市名作为x轴数据，以平均价格作为Y轴数据进行柱状图的绘制；

（3）柱体颜色设置为蓝色，图表使用橙色填充，黑色边框；

2、使用Excel工具打开Windows桌面“draw_price”文件下的“各城市租房信息.csv”，筛选出“北京”的城市数据，根据“房源户型”的分类进行统计，统计出每类户型对应的房源数，基于户型统计数据绘制户型分布圆环图。

3、将绘制完成后的图表进行截图，粘贴到答题报告上对应位置。

任务三：基于Python对租房数据绘制折线图（10分）

【任务要求】

本环节需要使用Pycharm开发工具，Numpy、Pandas、Matplotlib、Seaborn等库，基于房源信息数据绘制租房价格随面积变化的折线图；

【任务需求背景】

【具体任务】

1、租房信息存储在虚拟机桌面的“House”项目中“draw_price”下的“各城市租房信息.csv”中，在同级目录的draw_img1.py中完成折线图绘制；

2、使用Pandas库读取CSV文件，筛选出面积作为X轴数据，以对应价格作为Y轴数据，以城市名作为划分依据，使用Matplotlib库绘制多条折线图，展示各城市下各面积对应房价走势对比图；

3、标题设置为：各城市租房价格对比图；

4、X轴标签显示为房屋面积，Y轴标签显示为租赁价格；

5、X轴刻度标签字体大小为10，Y轴刻度标签字体大小为10；

6、将绘制的图片保存到“House”项目的“Img”路径下，命名为“line.png”，若目录不存在需自行创建。

7、将绘制完成后的图进行截图，粘贴到答题报告上对应位置。

任务四：基于Python对租房数据绘制散点图（10分）

【任务要求】

本环节需要使用Pycharm开发工具，Numpy、Pandas、Matplotlib、Seaborn等库，基于房源信息数据绘制各城市最高租房价格的散点图；

【任务需求背景】

【具体任务】

1、租房信息存储在虚拟机桌面的“House”项目中“draw_price”下的“各城市租房信息.csv”中，在同级目录的draw_img2.py中完成散点图绘制；

2、使用Pandas库读取CSV文件，使用Matplotlib库绘制各城市房价散点图；

（1）以城市名作为划分依据，

（2）将“房屋面积”划分为7类作为X轴数据，分别为“50㎡以下”、“50㎡80㎡”、“80㎡100㎡”、“100㎡120㎡”、“120㎡150㎡”、“150㎡~200㎡”、“200㎡以上”，以每类面积的平均房价作为Y轴数据，绘制散点图。

（3）标题设置为：各城市不同面积租房均价分布图；

（4）X轴标签显示为房屋面积，Y轴标签显示为租赁平均价格；

（5）X轴刻度标签字体大小为8，Y轴刻度标签字体大小为8；

（6）将绘制的散点图保存到“House”项目的“Img”路径下，命名为“scatter.png”，若目录不存在需自行创建。

3、将绘制完成后的图进行截图，粘贴到答题报告上对应位置。

任务五：数据分析报告（5分）

【任务要求】

本环节根据数据分析结果输出数据分析报告；

【任务需求背景】

通过对租房信息数据进行分析和可视化，我们更好的了解城市租房的整体情况，分析出不同区域的户型分布、房价走势、房源数量、租房中介信息等，根据分析可视化结果提出合适的决策建议与方案。

【具体任务】

1、根据“各城市租房信息.csv”信息及前面四个任务的可视化结果，打开虚拟机桌面“House”项目下的“数据分析报告.docx”文件，完善数据分析报告，为“爱家客”中介提出合适的房源上新意见。

2、将填写的内容进行截图并粘贴到答题报告对应位置。