2019 高职 大数据技术与应用 正式赛卷 F卷-评分标准

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2019 年全国职业院校技能大赛 高职组
“大数据技术与应用” 赛项赛卷(GZ-2019032-F 卷)
参 考 答 案
《任务三:数据清洗与分析(25 分)》
任务三:数据清洗与分析(25 分) 1、(题目序号)
1) 将 hoteldata.csv 文件上传至 HDFS 新建目录/file3_1 中,将运行命令截图并保存;(1 分)
参考答案截图:红框区域一致得 0.5 分;
2) 设置 JDK 环境变量,并使环境变量只对当前 root 用户生效;将环境变量配置内容截图 并保存;(0.5 分)
参考答案截图:红框区域一致得 0.5 分;
3) 从 master 复制 JDK 环境变量文件到 slave1、slave2 节点,命令和结果截图并保存。(1 分)
2019 年全国职业院校技能大赛高职组“大数据技术与应用”赛项任务书 F 卷
参考答案
二、 Sqoop 组件部署
1、 解压/h3cu 路径下的 Sqoop 安装包到/usr/local/src 路径下,并使用相关命令,修改解压 后文件夹名为 sqoop,进入 sqoop 文件夹,并将查看内容截图;(0.5 分) 参考答案截图:红框区域一致得 0.5 分;
参考答案截图:红框区域结果一致得 1 分;
2、(题目序号)
1) 运行代码,将字段{星级、评论数、评分}中任意字段为空的数据删除,并打印输出 删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);(1 分)
参考答案截图:每个红框区域结果一致得 0.5 分;(两个红框共 1 分)
3、 需安装 Zookeeper 组件,并与 Hadoop HA 环境适配; 1) Zookeeper 配置成功后,在 slave2 节点启动 Zookeeper,查看 Zookeeper 状态,命令 和结果截图并保存。(1 分) 参考答案截图:红框区域一致得 1 分;
4、 启动两个 namenode 和 resourcemanager; 1) 在 Zookeeper、Hadoop HA 配置成功后,在 master 节点启动并查看进程状态截图保 存。(1 分) 参考答案截图:红框区域一致得 1 分
2、 修改 Sqoop 环境变量,并使环境变量只对当前 root 用户生效; 1) 修改基于当前用户 root 的环境变量,将环境变量配置内容截图并保存。(0.5 分) 参考答案截图:红框区域一致得 0.5 分;
3、 修改并配置 sqoop-env.sh 文件,截图并保存结果;(1 分) 参考答案截图:红框区域一致得 0.5 分;(两个红框共 1 分)
4、 完善 pipelines.py 中内容,将函数内容截图并保存; 1) 将完整的 process_item 函数内容截图并保存;(1 分) 参考答案截图:红框区域结果一致得 1 分;
5、 爬虫程序运行结束后查看 MySQL 数据库,按 seq 倒序排序,返回前 4 行数据,将命 令与查看结果截图并保存。(2 分) 参考答案截图:每个红框区域结果一致得 1 分;(两个红框共 2 分)
内容
网页源码对应字段
酒店评分
grade
酒店名称
hotel_name
酒店星级
star_level
用户点评数
num_comment
2、 完善 hotelscrawl.py 中内容,将函数内容截图并保存 1) 将完整的 start_requests 函数内容截图并保存;(2 分) 参考答案截图:每个红框区域一致得 1 分;(两个红框共 1 分)
2) WEB 登录主备 namenode;(1 分,每个图 0.5 分) 参考答案截图:每图红框区域一致得 0.25 分 IP 地址为 172.16.1.0、172.16.2.0、172.16.3.0 都正确,其他地址错误 两个主机其中一个为 active,另一个为 standby,状态不固定,只需确认状态与端口
参考答案 172.16.1.0、172.16.2.0、172.16.3.0 都正确,其他地址错误 备节点 resourcemanager;
6、 终止 active 的 namenode 进程,并使用 jps 查看各个节点进程,(截上主机名称),访问两 个 namenode 和 resourcemanager web 界面。并截图保存(要求截到 url 和状态); 1) 终止 active 节点的 namenode 进程,并查看该节点进程,将终止命令和查看进程结 果截图;(1 分) 参考答案截图:每个红框区域一致得 1 分 注:终止命令 0.5 分、jps 命令结果中无 NameNode,得 0.5 分
5、 使用查看进程命令查看进程,并截图(要求截取主机名称),访问两个 namenode 和 resourcemanager web 界面,并截图保存(要求截到 url 状态); 1) Hadoop HA 配置成功后,在 slave1 节点查看进程;(1 分) 参考答案截图:红框区域一致得 1 分;
2019 年全国职业院校技能大赛 高职组
“大数据技术与应用” 赛项赛卷(GZ-2019032-F 卷)
参 考 答 案
《任务一:Hadoop 相关组件安装部署(15 分)》
任务一:Hadoop 相关组件安装部署(15 分) 一、 Hadoop HA 部署
1、 解压 JDK 安装包到/usr/local/src 路径,并配置环境变量;截取环境变量配置文件截图。 1) 将/h3cu 下的 JDK 包解压到/usr/local/src,命令(命令中使用绝对路径)截图并保存;(0.5 分)
参考答案截图:每个红框区域结果一致得 0.5 分;(两个红框共 1 分)
参考答案截图:每个红框区域结果一致得 0.5 分;(两个红框共 1 分)
2) 运行代码,打印输出城市总订单,城市酒店平均用户评分,城市酒店总评论数三个 指标的最大值和最小值,将打印输出结果截图并保存(截图需包含打印语句输出结 果的上下各 5 行运行日志);(1 分)
参考答案截图:每个红框区域结果一致得 0.5 分;(两个红框共 1 分)
“大数据技术与应用” 赛项赛卷(GZ-2019032-F 卷)
参 考 答 案
《任务二:数据采集(20 分)》
任务二:数据采集(20 分)
1、 使用 chrome 浏览器,查找网站异步请求的数据,在计算机桌面“GZ-032 竞赛文档” 文件夹“XXX-02.docx(XXX 代表赛位号、02 代表任务二)”文件中创建并编写完成下 表:(2 分) 参考答案见下表:网页源码对应字段每个字段一致得 0.5 分;
2) 将完整的 get_city 函数内容截图并保存;(5 分) 参考答案截图:每个红框区域一致得 1 分;(五个红框共 5 分)
3) 将完整的 get_page 函数内容截图并保存;(1 分) 参考答案截图:每个红框区域一致得 1 分;
4) 将完整的 get_hotel_id 函数内容截图并保存;(4 分) 参考答案截图:每个红框区域一致得 1 分;(四个红框共 4 分)
3) 运行代码,将城市总订单、城市酒店平均用户评分、城市酒店总评论数进行归一化 处理,将结果保存至/hotelsparktask4_3(输出字段为:seq,城市总订单,城市酒店 平均用户评分,城市酒店总评论数,城市总订单归一化结果,城市酒店平均用户评 分归一化结果,城市酒店总评论数归一化结果),并在控制台按顺序打印输出广州、 上海、北京三个城市的城市总订单、城市酒店平均用户评分、城市酒店总评论数三 个指标的归一化结果,将打印输出结果截图并保存(截图需包含打印语句输出结果 的上下各 5 行运行日志)。(1 分)
4、 测试 Sqoop 连接 MySQL 数据库是否成功,截图并保存结果;(1 分) 1) 使用 Sqoop 命令连接 MySQL 数据库,查询 MySQL 中所有数据库名称,将命令和结 果截图并保存。
参考答案截图:红框区域一致得 0.5 分;(两个红框共 1 分)
2019 年全国职业院校技能大赛 高职组
参考答案截图:红框区域一致得 1 分;
2、 环境中已创建 ssh 密钥,实现主节点与从节点的无密码登录;截取主节点登录其中一个 从节点的结果; 1) 根据环境中已配置完成的 SSH 密钥登录,实现从 master 登录到 slave1,命令和结果 截图并保存。(1 分) 参考答案截图:红框区域一致得 1 分;
参考答案截图:每个红框区域结果一致得 1 分;(两个红框共 2 分)
2) 使用 Hadoop shell 命令查看清洗后输出的结果/hotelsparktask3 总行数,将运行结果 截图并保存;(1 分)
参考答案截图:红框区域结果一致得 1 分;
4、(题目序号)
1) 运行代码,计算城市总订单、城市酒店平均用户评分、城市酒店总评论数,将结果 保存至/hotelsparktask4_1(输出字段为 seq、城市总订单、城市酒店平均用户评分、 城市酒店总评论数),并在控制台按顺序打印输出广州、北京、上海三个城市的总 订单数、城市酒店平均用户评分、城市酒店总评论数,将打印输出结果截图并保存 (截图需包含打印语句输出结果的上下各 5 行运行日志);(1 分)
2) 使用 Hadoop shell 命令查看清洗后输出的结果文件/hotelsparktask2 总行数,将运行 结果截图并保存。(1 分)
参考答案截图:红框区域结果一致得 1 分;
3、(题目序号)
1) 运行代码,剔除数据集中评分、星级字段的非法数据和数据集中重复数据,并打印 输出各个字段删除的条目数,将打印输出结果截图并保存(截图需包含打印语句输 出结果的上下各 5 行运行日志);(2 分)
参考答案截图:红框区域结果一致得 1 分;
2) 运行代码,删除数据源中缺失值大于 3 个字段的数据,打印输出删除条目数,将打 印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);(1 分)
参考答案截图:每个红框区域结果一致得 0.5 分;(两个红框共 1 分)
3) 使用 Hadoop shell 命令查看清洗后输出的结果文件总行数/hotelsparktask1,将运行 结果截图并保存;(1 分)
5) 将完整的 parse 函数内容截图并保存;(2 分) 参考答案截图:红框区域每行代码一致得 0.5 分;(四行代码共 2 分)
3、 根据爬取字段,在 MySQL 中创建 crawl 数据库,根据爬虫字段,在该数据库中创建 hotels 表,并查看表结构,将查看结果(含字段总行数)截图并保存;(1 分) 参考答案截图:红框区域结果一致得 1 分;
号无关
2019 年全国职业院校技能大赛高职组“大数据技术与应用”赛项任务书 F 卷
参考答案
3) Web 登录主备 resourcemanager。(1 分,每个图 0.5 分) 参考答案截图:图中红框区域一致得 0.5 分 IP 地址为 172.16.1.0、172.16.2.0、172.16.3.0 都正确,其他地址错误
2) namenode 切到备节点,截图 url 和状态保存;(1 分) 参考答案截图:每个红框区域一致得 0.5 分(两个红框共 1 分); namenode 备节点 standby 状态变更为 active IP 地址为 172.16.1.0、172.16.2.0、172.16.3.0 都正确,其他地址错误
7、 重启刚才终止的 namenode,并查看 jps 进程,截图访问两个 namenode 的 web 界面,并截 图保存。 1) 重启刚才终止的 namenode,并查看 jps 进程;(1 分) 参考答案截图:每个红框区域一致得 0.5 分(两个红框共 1 分);
2) 截图访问两个 namenode 的 web 界面。(1 分) 参考答案截图:每个红框区域一致得 0.25 分(四个红框共 1 分) 两个主机 active 和 standby 状态发生切换,与步骤 5 中的状态相反
相关文档
最新文档