《Python爬虫程序设计》课程标准

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《Python爬虫程序设计》课程标准

课程名称：Python爬虫程序设计

适用专业：软件技术

课程编码：

参考学时：56

一、课程概述

随着互联网技术的飞速发展，以及国家产业信息化进程的大力推进下，在大数据时代背景下，产生了对基于Web网站的数据的大量需求。快速、稳定、健壮、分布式的爬虫程序呼之欲出，业界对于爬虫程序的开发人员需求很大，而此类人才在目前的人才市场上比较稀缺，造成爬虫程序工程师等职位的需求缺口较大。

本门课程旨在通过学习与实践培养学生的爬虫程序开发能力，为社会输送急需人才；课程对应的网页爬虫开发工程师岗位有着相对较高的薪酬水平和较为广阔的发展前景，可以为参加学习的学生提供良好职业预期发展。

本课程主要面向岗位为网页爬虫开发工程师，能力辐射岗位有：Web开发工程师、数据分析师、测试工程师、文档工程师、售前/售后工程师等。

1.课程性质

本课程注重对学生职业能力和创新精神、实践能力的培养。本课程旨在对学生的程序设计思想和技能进行，培养学生利用主流scrapy框架进行爬虫项目的设计与开发。

《Python爬虫程序设计》课程是软件技术专业Python方向的专业核心课程，是融理论与实践一体化，教、学、做一体化的专业课程，是基于设计的工作过程系统化学习领域课程，是工学结合课程。

本课程的前续课程安排为：“Python程序设计基础”、“HTML5基础”、“数据库技术”；与本课程可以平行开展的课程为web后台技术类课程如:“PHP开发基础”、“Web应用开发技术”等相关课程；本课程的后续课程为“Python数据分析技术”。

2设计思路

课程开发遵循的基于工作过程导向的现代职业教育指导思想，课程的目标是网页爬虫程序开发职业能力培养。

课程教学内容的取舍和内容排序遵循以工作需求为目标原则，务求反映当前网页爬虫开发的主流技术和主流开发工具，同时重视软件工程的标准规范，重视业内工作过程中的即成约定，努力使学生的学习内容与目标工作岗位能力要求无缝对接。

本课程采用了“项目引领，任务驱动”的教学模式。在充分分析深圳市行业发展的特点与方向的基础上，分别选取了“Quotes to Scrapy”网站、“京东商城”等网站具有发展前景的行业中的知名互联网系统，在由浅入深、循序渐进的过程中要求学生设计实现目标项目，并将目前爬虫程序必备功能组件如用网页数据下载、数据分析、数据存储、网页递归爬取等技术作为项目中的系列任务。课程章节的演进则按照爬虫程序技术知识点的难易程度和之间的关联关系进行组织。在授课过程中，项目的主要开发阶段模块化，特定的功能任务化，学生在完成各个“任务”的同时，学习并掌握项目开发过程中所需的技能和应遵守的业内规范，为学生职业能力发展奠定良好的基础等。

课程设计的总体原则是“基于课程对应的就业岗位工作过程”，基于此原则课程组进行了充分的调研，过程如下：

第一步：岗位需求调研；

第二步：确定课程对应的岗位能力需求；

第三步：根据岗位能力需求确定教学目标；

第四步：明确课程的学习任务；

第五步：并根据任务设计学习活动

二、课程目标

本课程内容涵盖了对学生在“基本理论”、“基本技能”和“职业素质”三个层次的培养。以网页爬虫开发岗位必备的开发技能为重点并具备相应的理论基础的同

时，注重综合职业素质的养成，课程采用启发诱导式教学，鼓励学生“勤于思考，勤于动手”。

1)基本理论要求：

●掌握爬虫程序设计理念；

●掌握数据提取与存储思想

●掌握scrapy爬虫框架设计思想。

2)基本技能要求：

●熟练掌握ullib网页下载方法；

●熟练掌握正则表达式选取数据的规则；

●熟练掌握BeautifulSoup工具选择数据的方法；

●熟练掌握xpath、css选择数据的方法；

●熟练掌握scrapy网页爬取的工作流程；

●熟练掌握scrapy中Item、Pipeline数据的序列化输出方法；

●熟练掌握scrapy中Spider的网页递归爬取技术；

●熟练掌握scrapy中中间件的使用方法；

3)职业素质要求：

●能够完成真实业务逻辑向代码的转化；

●能够独立分析解决技术问题；

●自学能力强，能够快速准确地查找参考资料；

●能够按照规范编写技术文档；

●沟通能力强，能够与小组其他成员通力合作。

本门着重培养学生独立完成交互式爬虫程序项目的设计、开发以及测试等能力。课程对学生专业能力的培养及要求学生达到的水平目标如下表所示：

编号能力目标知识水平目标

1使用ullib实现网页下载能够通过ullib网页下载函数方法下载网页

能够实现编码的转换

2使用正则表达式获取网页数据能够根据功能组件的不同实现需求，使用正则表达式匹配并提取网页中的数据

3使用BeautifulSoup工具选择数据能够使用BeautifulSoup工具选择数据掌握find_all等常用方法

4使用xpath、css选择数据能够xpath、css选择复杂的数据

5使用scrapy编写网页爬能够使用scrapy网页爬取的工作流程爬取单个网页的某几个特

虫程序征数据

6使用Item、Pipeline实现

数据序列化与存储

能够使用scrapy中Pipeline进行数据提取与数据存储。

7使用scrapy实现网页递归爬取能够使用scrapy中Spider的网页递归爬取循环，能实现数据的提取与存储

8网站爬虫程序综合开发能够使用scrapy框架开发爬虫程序，爬取Quotes Scrapy网站的

作者信息

三、能力解析表

能力目标使用ullib实现网页下载编号1

具体描述能够通过ullib网页下载函数方法下载网页，实现编码的转换

步骤 1.搭建前端开发环境

2.搭建后端静态网页

3.例用urllib下载后端网页

4.编写程序实现编码（GBK,UTF-8)的自动识别与转换

5.存储网页到文件或者数据库

工具与设备 1.PC

2.Python开发工具、PyCharm等主流IDE

3.Web后台服务器，例如IIS,Tomcat等

4.互联网环境

知识基础 1.html标准

2.GBK、UTF8编码规则

3.Python程序基础

4.数据文件或者数据库基础

态度、素质 1.负责任的态度

2.有进取心

3.遵守标签书写规范

4.自学能力强

考核标准 1.熟记HTML常用标签

2.GBK、UTF8识别与转换知识与技能

3.Web网站的访问与网页数据下载知识与技能

4.网页文件的存储知识与技能

5.urllib库的使用方法

积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片