电子工业版信息技术七下 1.3 使用网络爬虫爬取网页数据教案

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（2）在mPython的Python编程界面中单击上方的“添加库”，再单击“PIP安装”，打开一个对话框，在对话框中输入扩展库名称“lxml”。单击“安装”按钮，若出现“Successfully installed”，就表示lxml模块安装好了。
4、XPath(XML Path Language)是一种小型查询语言，用于在XML(可扩展标记语言)文档中查找信息。
5、获取网页中指定位置的XPath路径地址
（1）使用浏览器打开网页，按F12键进入开发者模式，查看网页源代码；
（2）单击“选取页面中的元素”按钮口，选中要抓取的网页内容，对应的，开发者窗格中会有一段高亮显示的代码;
（3）将鼠标指针指向高亮代码部分，并在其上面右击;
（4）打开快捷菜单，执行“复制”→“复制XPath”命令，就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。
2、mpython源程序代码和运行结果。
3、加பைடு நூலகம்网络爬虫程序需要的模块。
（1）在mPython的Python编程界面中单击上方的“添加库”，再单击“PIP安装”，打开一个对话框，在对话框中输入扩展库名称“requests”。单击“安装”按钮，若出现“Successfully installed”，就表示requests模块安装好了。
课题
使用网络爬虫爬取网页数据
单元
第一单元
学科
信息科技
年级
七年级下
教材
分析
使用网络爬虫爬取网页数据选自《信息科技》（电子工业版）的第一章第三节的内容，教材由“认识网络爬虫”、“编程实现网络爬虫”、“熟悉网络爬虫的‘君子协议’”三部分内容组成。学生通过对本教材的学习逐步掌握信息科技的相关知识，具备一定的科学精神和科技伦理，提高创新能力，夯实信息社会责任，发挥信息科技课程的独特育人价值，为数字强国培养优秀接班人和建设者。
（3）WEB采集工具；
（4）数据库查询；
（5）人工采集。
2、网络爬虫也叫网络蜘蛛，是一种按照一定规则自动抓取网页数据的网络机器人。
3、网络爬虫如何爬取数据。
（1）互联网比作蜘蛛网；
（2）数据存放在各个节点；
（3）网络爬虫就像一只蜘蛛；
（4）网络路径去“探测”数据；
（5）数据“搬运”回来。
练一练
思考——网络中信息如何编码与呈现。
教学
目标
1、信息意识：具有自主动手解决问题、掌握核心技术的意识。
2、计算思维：知道网络中信息编码、传输和呈现的原理。
3、数字化学习与创新：根据任务要求，借助在线平台，合作伙伴协作设计和创作作品。
4、信息社会责任：明确科技活动中应遵循的价值观念、道德责任和行为准则。
重点
1、了解网络爬虫的概念与工作过程；
三、熟悉网络爬虫的“君子协议”
1、网络爬虫的“君子协议”——Robots协议(爬虫协议、机器人协议)，其全称是网络爬虫排除标准。
2、网络爬虫的“君子协议”规定：网站管理员在网站域名的根目录下存放一个Robots.txt文本文件，文件里指定该网站的哪些内容可以爬取，哪些内容不可以爬取。使用网络爬虫程序采集网站信息前，要先阅读该网站的这个文件，根据文件的规则来采集网站的数据。
Disallo/淘宝不允许的机器人访问其网站下其所有的目录。
项目实施
1、使用python编程爬取我国科技领域的重大创新成果，放入到“科技创新自主可控”的网页中。
2、结合制作网页、爬取网页信息的过程，归纳总结自己对网页信息编码和解码的认识。
3、网络爬虫爬取数据注意事项：
（1）爬取网页数据时，要严格遵守网站的Robots协议；
（2）在爬取要使用的信息前，应先进行审查；
（3）如发现用户的个人信息或商业秘密，应及时停止爬取并删除已爬取的信息。
4、例：禁止所有搜索引擎访问网站的任何部分。
实例分析：淘宝网的Robots.t数据的实质；
3、了解网络爬虫的“君子协议”—Robots协议概念。
难点
1、掌握mpython源程序代码；
2、掌握网络爬虫的“君子协议” 规定和注意事项。
教学过程
教学环节
教师活动
学生活动
设计意图
导入新课
随着大数据等技术的发展，网络爬虫的影响力逐渐增加，不仅爬数、甚至于抢票、盗号、供给计算机系统等，也都有爬虫的身影，而使得它渐渐进入公众视野。网络爬虫又称为“网页蜘蛛”“网络机器人”，是互联网时代下的一种网络信息搜集技术，也可以理解为一种自动在网络上模拟人操作行为的计算机程序。
（1）使用requests模块和lxml模块加载网络爬虫程序。
（2)用requests模块的get()方法获取爬虫需要“爬”的网页地址，将网页文本保存在变量txt中，再将网页文本解析为HTML文档。
（3）使用HTML的xpath()方法定位爬虫的位置，并将“爬”到的内容保存在列表变量title中。
（4)输出爬虫“爬”到的内容。
网页上的文本、图片等，就是使用HTML代码进行编码，经过浏览器“翻译”呈现出来。
4、网络爬虫爬取数据的实质。
网络爬虫爬取就是通过程序模拟浏览网页的行为，将HTML代码进行分析和过滤，实现对图片、文本等资源的获取。
5、网络爬虫在日常生活中的应用。
二、编程实现网络爬虫
1、启动mpython，单击mpython窗口左上角的“硬件编程”选择python，进入python代码编程界面。
观看视频引出今天的教学内容使用网络爬虫爬取网页数据。
学生听教师引导生活中的案例，学生讨论，回答提问。
激发学生对网络爬虫爬取网页数据的学习兴趣并快速进入学习状态。
讲授新课
一、认识网络爬虫
1、人们通过在网页上搜索、复制、粘贴来获取数据，那么互联网中常用的获取数据的方式：
（1）爬虫抓取；
（2）API调用；
练一练
1、编辑网页信息的方法。
（1）在线HTML编辑器；
（2）专业的网页编辑工具；
（3）记事本编写网页源代码；
（4）文本类的工具编写网页源代码。
2、HTML语言。
HTML的全称为超文本标记语言，是一种标记语言。它包括一系列标签，通过这些标签可以将网络上的文档格式统一，使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本，HTML命令可以说明文字，图形、动画、声音、表格、链接网页字符编码格式。

电子工业版信息技术七下 1.3 使用网络爬虫爬取网页数据 教案

电子工业版信息技术七下 1.3 使用网络爬虫爬取网页数据教案