电子工业版信息技术七下 1.3 使用网络爬虫爬取网页数据 教案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话框,在对话框中输入扩展库名称“lxml”。单击“安装”按钮,若出现“Successfully installed”,就表示lxml模块安装好了。
4、XPath(XML Path Language)是一种小型查询语言,用于在XML(可扩展标记语言)文档中查找信息。
5、获取网页中指定位置的XPath路径地址
(1)使用浏览器打开网页,按F12键进入开发者模式,查看网页源代码;
(2)单击“选取页面中的元素”按钮口,选中要抓取的网页内容,对应的,开发者窗格中会有一段高亮显示的代码;
(3)将鼠标指针指向高亮代码部分,并在其上面右击;
(4)打开快捷菜单,执行“复制”→“复制XPath”命令,就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。
2、mpython源程序代码和运行结果。
3、加பைடு நூலகம்网络爬虫程序需要的模块。
(1)在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话框,在对话框中输入扩展库名称“requests”。单击“安装”按钮,若出现“Successfully installed”,就表示requests模块安装好了。
课题
使用网络爬虫爬取网页数据
单元
第一单元
学科
信息科技
年级
七年级下
教材
分析
使用网络爬虫爬取网页数据选自《信息科技》(电子工业版)的第一章第三节的内容,教材由“认识网络爬虫”、“编程实现网络爬虫”、“熟悉网络爬虫的‘君子协议’”三部分内容组成。学生通过对本教材的学习逐步掌握信息科技的相关知识,具备一定的科学精神和科技伦理,提高创新能力,夯实信息社会责任,发挥信息科技课程的独特育人价值,为数字强国培养优秀接班人和建设者。
(3)WEB采集工具;
(4)数据库查询;
(5)人工采集。
2、网络爬虫也叫网络蜘蛛,是一种按照一定规则自动抓取网页数据的网络机器人。
3、网络爬虫如何爬取数据。
(1)互联网比作蜘蛛网;
(2)数据存放在各个节点;
(3)网络爬虫就像一只蜘蛛;
(4)网络路径去“探测”数据;
(5)数据“搬运”回来。
练一练
思考——网络中信息如何编码与呈现。
教学
目标
1、信息意识:具有自主动手解决问题、掌握核心技术的意识。
2、计算思维:知道网络中信息编码、传输和呈现的原理。
3、数字化学习与创新:根据任务要求,借助在线平台,合作伙伴协作设计和创作作品。
4、信息社会责任:明确科技活动中应遵循的价值观念、道德责任和行为准则。
重点
1、了解网络爬虫的概念与工作过程;
三、熟悉网络爬虫的“君子协议”
1、网络爬虫的“君子协议”——Robots协议(爬虫协议、机器人协议),其全称是网络爬虫排除标准。
2、网络爬虫的“君子协议”规定:网站管理员在网站域名的根目录下存放一个Robots.txt文本文件,文件里指定该网站的哪些内容可以爬取,哪些内容不可以爬取。使用网络爬虫程序采集网站信息前,要先阅读该网站的这个文件,根据文件的规则来采集网站的数据。
Disallo/淘宝不允许的机器人访问其网站下其所有的目录。
项目实施
1、使用python编程爬取我国科技领域的重大创新成果,放入到“科技创新自主可控”的网页中。
2、结合制作网页、爬取网页信息的过程,归纳总结自己对网页信息编码和解码的认识。
3、网络爬虫爬取数据注意事项:
(1)爬取网页数据时,要严格遵守网站的Robots协议;
(2)在爬取要使用的信息前,应先进行审查;
(3)如发现用户的个人信息或商业秘密,应及时停止爬取并删除已爬取的信息。
4、例:禁止所有搜索引擎访问网站的任何部分。
实例分析:淘宝网的Robots.t数据的实质;
3、了解网络爬虫的“君子协议”—Robots协议概念。
难点
1、掌握mpython源程序代码;
2、掌握网络爬虫的“君子协议” 规定和注意事项。
教学过程
教学环节
教师活动
学生活动
设计意图
导入新课
随着大数据等技术的发展,网络爬虫的影响力逐渐增加,不仅爬数、甚至于抢票、盗号、供给计算机系统等,也都有爬虫的身影,而使得它渐渐进入公众视野。网络爬虫又称为“网页蜘蛛”“网络机器人”,是互联网时代下的一种网络信息搜集技术,也可以理解为一种自动在网络上模拟人操作行为的计算机程序。
(1)使用requests模块和lxml模块加载网络爬虫程序。
(2)用requests模块的get()方法获取爬虫需要“爬”的网页地址,将网页文本保存在变量txt中,再将网页文本解析为HTML文档。
(3)使用HTML的xpath()方法定位爬虫的位置,并将“爬”到的内容保存在列表变量title中。
(4)输出爬虫“爬”到的内容。
网页上的文本、图片等,就是使用HTML代码进行编码,经过浏览器“翻译”呈现出来。
4、网络爬虫爬取数据的实质。
网络爬虫爬取就是通过程序模拟浏览网页的行为,将HTML代码进行分析和过滤,实现对图片、文本等资源的获取。
5、网络爬虫在日常生活中的应用。
二、编程实现网络爬虫
1、启动mpython,单击mpython窗口左上角的“硬件编程”选择python,进入python代码编程界面。
观看视频引出今天的教学内容使用网络爬虫爬取网页数据。
学生听教师引导生活中的案例,学生讨论,回答提问。
激发学生对网络爬虫爬取网页数据的学习兴趣并快速进入学习状态。
讲授新课
一、认识网络爬虫
1、人们通过在网页上搜索、复制、粘贴来获取数据,那么互联网中常用的获取数据的方式:
(1)爬虫抓取;
(2)API调用;
练一练
1、编辑网页信息的方法。
(1)在线HTML编辑器;
(2)专业的网页编辑工具;
(3)记事本编写网页源代码;
(4)文本类的工具编写网页源代码。
2、HTML语言。
HTML的全称为超文本标记语言,是一种标记语言。它包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接网页字符编码格式。
相关文档
最新文档