2019 高职大数据技术与应用正式赛卷 F卷-评分标准

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2019 年全国职业院校技能大赛高职组
“大数据技术与应用” 赛项赛卷（GZ-2019032-F 卷）
参考答案
《任务三：数据清洗与分析（25 分）》
任务三：数据清洗与分析（25 分） 1、（题目序号）
1）将 hoteldata.csv 文件上传至 HDFS 新建目录/file3_1 中，将运行命令截图并保存；（1 分）
参考答案截图：红框区域一致得 0.5 分；
2) 设置 JDK 环境变量，并使环境变量只对当前 root 用户生效；将环境变量配置内容截图并保存；（0.5 分）
参考答案截图：红框区域一致得 0.5 分；
3) 从 master 复制 JDK 环境变量文件到 slave1、slave2 节点，命令和结果截图并保存。（1 分）
2019 年全国职业院校技能大赛高职组“大数据技术与应用”赛项任务书 F 卷
参考答案
二、 Sqoop 组件部署
1、解压/h3cu 路径下的 Sqoop 安装包到/usr/local/src 路径下，并使用相关命令，修改解压后文件夹名为 sqoop，进入 sqoop 文件夹，并将查看内容截图；（0.5 分）参考答案截图：红框区域一致得 0.5 分；
参考答案截图：红框区域结果一致得 1 分；
2、（题目序号）
1）运行代码，将字段{星级、评论数、评分}中任意字段为空的数据删除，并打印输出删除条目数，将打印输出结果截图并保存（截图需包含打印语句输出结果的上下各 5 行运行日志）；（1 分）
参考答案截图：每个红框区域结果一致得 0.5 分；（两个红框共 1 分）
3、需安装 Zookeeper 组件，并与 Hadoop HA 环境适配； 1) Zookeeper 配置成功后，在 slave2 节点启动 Zookeeper，查看 Zookeeper 状态，命令和结果截图并保存。（1 分）参考答案截图：红框区域一致得 1 分；
4、启动两个 namenode 和 resourcemanager； 1）在 Zookeeper、Hadoop HA 配置成功后，在 master 节点启动并查看进程状态截图保存。（1 分）参考答案截图：红框区域一致得 1 分
2、修改 Sqoop 环境变量，并使环境变量只对当前 root 用户生效； 1) 修改基于当前用户 root 的环境变量，将环境变量配置内容截图并保存。（0.5 分）参考答案截图：红框区域一致得 0.5 分；
3、修改并配置 sqoop-env.sh 文件，截图并保存结果；（1 分）参考答案截图：红框区域一致得 0.5 分；（两个红框共 1 分）
4、完善 pipelines.py 中内容，将函数内容截图并保存； 1）将完整的 process_item 函数内容截图并保存；（1 分）参考答案截图：红框区域结果一致得 1 分；
5、爬虫程序运行结束后查看 MySQL 数据库，按 seq 倒序排序，返回前 4 行数据，将命令与查看结果截图并保存。（2 分）参考答案截图：每个红框区域结果一致得 1 分；（两个红框共 2 分）
内容
网页源码对应字段
酒店评分
grade
酒店名称
hotel_name
酒店星级
star_level
用户点评数
num_comment
2、完善 hotelscrawl.py 中内容，将函数内容截图并保存 1）将完整的 start_requests 函数内容截图并保存；（2 分）参考答案截图：每个红框区域一致得 1 分；（两个红框共 1 分）
2） WEB 登录主备 namenode；（1 分，每个图 0.5 分）参考答案截图：每图红框区域一致得 0.25 分 IP 地址为 172.16.1.0、172.16.2.0、172.16.3.0 都正确，其他地址错误两个主机其中一个为 active，另一个为 standby，状态不固定，只需确认状态与端口
参考答案 172.16.1.0、172.16.2.0、172.16.3.0 都正确，其他地址错误备节点 resourcemanager；
6、终止 active 的 namenode 进程,并使用 jps 查看各个节点进程,（截上主机名称）,访问两个 namenode 和 resourcemanager web 界面。并截图保存（要求截到 url 和状态）； 1）终止 active 节点的 namenode 进程，并查看该节点进程，将终止命令和查看进程结果截图；（1 分）参考答案截图：每个红框区域一致得 1 分注：终止命令 0.5 分、jps 命令结果中无 NameNode，得 0.5 分
5、使用查看进程命令查看进程,并截图（要求截取主机名称）,访问两个 namenode 和 resourcemanager web 界面，并截图保存（要求截到 url 状态）； 1） Hadoop HA 配置成功后，在 slave1 节点查看进程；（1 分）参考答案截图：红框区域一致得 1 分；
2019 年全国职业院校技能大赛高职组
“大数据技术与应用” 赛项赛卷（GZ-2019032-F 卷）
参考答案
《任务一：Hadoop 相关组件安装部署（15 分）》
任务一：Hadoop 相关组件安装部署（15 分）一、 Hadoop HA 部署
1、解压 JDK 安装包到/usr/local/src 路径，并配置环境变量；截取环境变量配置文件截图。 1) 将/h3cu 下的 JDK 包解压到/usr/local/src，命令（命令中使用绝对路径）截图并保存；（0.5 分）
参考答案截图：每个红框区域结果一致得 0.5 分；（两个红框共 1 分）
参考答案截图：每个红框区域结果一致得 0.5 分；（两个红框共 1 分）
2）运行代码，打印输出城市总订单，城市酒店平均用户评分，城市酒店总评论数三个指标的最大值和最小值，将打印输出结果截图并保存（截图需包含打印语句输出结果的上下各 5 行运行日志）；（1 分）
参考答案截图：每个红框区域结果一致得 0.5 分；（两个红框共 1 分）
“大数据技术与应用” 赛项赛卷（GZ-2019032-F 卷）
参考答案
《任务二：数据采集（20 分）》
任务二：数据采集（20 分）
1、使用 chrome 浏览器，查找网站异步请求的数据，在计算机桌面“GZ-032 竞赛文档” 文件夹“XXX-02.docx（XXX 代表赛位号、02 代表任务二）”文件中创建并编写完成下表：（2 分）参考答案见下表：网页源码对应字段每个字段一致得 0.5 分；
2）将完整的 get_city 函数内容截图并保存；（5 分）参考答案截图：每个红框区域一致得 1 分；（五个红框共 5 分）
3）将完整的 get_page 函数内容截图并保存；（1 分）参考答案截图：每个红框区域一致得 1 分；
4）将完整的 get_hotel_id 函数内容截图并保存；（4 分）参考答案截图：每个红框区域一致得 1 分；（四个红框共 4 分）
3）运行代码，将城市总订单、城市酒店平均用户评分、城市酒店总评论数进行归一化处理，将结果保存至/hotelsparktask4_3（输出字段为：seq，城市总订单，城市酒店平均用户评分，城市酒店总评论数，城市总订单归一化结果，城市酒店平均用户评分归一化结果，城市酒店总评论数归一化结果），并在控制台按顺序打印输出广州、上海、北京三个城市的城市总订单、城市酒店平均用户评分、城市酒店总评论数三个指标的归一化结果，将打印输出结果截图并保存（截图需包含打印语句输出结果的上下各 5 行运行日志）。（1 分）
4、测试 Sqoop 连接 MySQL 数据库是否成功，截图并保存结果；（1 分） 1) 使用 Sqoop 命令连接 MySQL 数据库，查询 MySQL 中所有数据库名称，将命令和结果截图并保存。
参考答案截图：红框区域一致得 0.5 分；（两个红框共 1 分）
2019 年全国职业院校技能大赛高职组
参考答案截图：红框区域一致得 1 分；
2、环境中已创建 ssh 密钥，实现主节点与从节点的无密码登录；截取主节点登录其中一个从节点的结果； 1）根据环境中已配置完成的 SSH 密钥登录，实现从 master 登录到 slave1，命令和结果截图并保存。（1 分）参考答案截图：红框区域一致得 1 分；
参考答案截图：每个红框区域结果一致得 1 分；（两个红框共 2 分）
2）使用 Hadoop shell 命令查看清洗后输出的结果/hotelsparktask3 总行数，将运行结果截图并保存；（1 分）
参考答案截图：红框区域结果一致得 1 分；
4、（题目序号）
1）运行代码，计算城市总订单、城市酒店平均用户评分、城市酒店总评论数，将结果保存至/hotelsparktask4_1（输出字段为 seq、城市总订单、城市酒店平均用户评分、城市酒店总评论数），并在控制台按顺序打印输出广州、北京、上海三个城市的总订单数、城市酒店平均用户评分、城市酒店总评论数，将打印输出结果截图并保存（截图需包含打印语句输出结果的上下各 5 行运行日志）；（1 分）
2）使用 Hadoop shell 命令查看清洗后输出的结果文件/hotelsparktask2 总行数，将运行结果截图并保存。（1 分）
参考答案截图：红框区域结果一致得 1 分；
3、（题目序号）
1）运行代码，剔除数据集中评分、星级字段的非法数据和数据集中重复数据，并打印输出各个字段删除的条目数，将打印输出结果截图并保存（截图需包含打印语句输出结果的上下各 5 行运行日志）；（2 分）
参考答案截图：红框区域结果一致得 1 分；
2）运行代码，删除数据源中缺失值大于 3 个字段的数据，打印输出删除条目数，将打印输出结果截图并保存（截图需包含打印语句输出结果的上下各 5 行运行日志）；（1 分）
参考答案截图：每个红框区域结果一致得 0.5 分；（两个红框共 1 分）
3）使用 Hadoop shell 命令查看清洗后输出的结果文件总行数/hotelsparktask1，将运行结果截图并保存；（1 分）
5）将完整的 parse 函数内容截图并保存；（2 分）参考答案截图：红框区域每行代码一致得 0.5 分；（四行代码共 2 分）
3、根据爬取字段，在 MySQL 中创建 crawl 数据库，根据爬虫字段，在该数据库中创建 hotels 表，并查看表结构，将查看结果（含字段总行数）截图并保存；（1 分）参考答案截图：红框区域结果一致得 1 分；
号无关
2019 年全国职业院校技能大赛高职组“大数据技术与应用”赛项任务书 F 卷
参考答案
3） Web 登录主备 resourcemanager。（1 分，每个图 0.5 分）参考答案截图：图中红框区域一致得 0.5 分 IP 地址为 172.16.1.0、172.16.2.0、172.16.3.0 都正确，其他地址错误
2） namenode 切到备节点，截图 url 和状态保存；（1 分）参考答案截图：每个红框区域一致得 0.5 分（两个红框共 1 分）； namenode 备节点 standby 状态变更为 active IP 地址为 172.16.1.0、172.16.2.0、172.16.3.0 都正确，其他地址错误
7、重启刚才终止的 namenode,并查看 jps 进程,截图访问两个 namenode 的 web 界面,并截图保存。 1) 重启刚才终止的 namenode,并查看 jps 进程；（1 分）参考答案截图：每个红框区域一致得 0.5 分（两个红框共 1 分）；
2) 截图访问两个 namenode 的 web 界面。（1 分）参考答案截图：每个红框区域一致得 0.25 分（四个红框共 1 分）两个主机 active 和 standby 状态发生切换，与步骤 5 中的状态相反

2019 高职 大数据技术与应用 正式赛卷 F卷-评分标准

2019 高职大数据技术与应用正式赛卷 F卷-评分标准