金融数据挖掘案例实战-百度新闻搜狐新闻新浪财经数据挖掘实战
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三讲金融数据挖掘案例实战1 -百度新闻、搜狐新闻、新浪财经数据挖掘实战
3.1 正则提取百度新闻标题、网址、日期及来源
3.2 批量获取多个公司的百度新闻及自动生成数据报告
3.3 异常处理及24小时实时数据挖掘实战
3.4 按时间顺序爬取及批量爬取多页
3.5 搜狐新闻与新浪财经数据挖掘实战
3.1.1 获取网页源代码
首先回顾一下2.3小节获得网页源代码的代码:
3.1.2 编写正则表达式提炼相关新闻信息
(1)获取新闻的来源和日期
在2.3.3小节中也提过,通过观察网页源代码,发现每个新闻的来源和发布日期都是夹在
之间。2.3.3的代码:3.1.2 编写正则表达式提炼相关新闻信息(1)获取新闻的来源和日期
所以获取新闻的来源和日期代码是:
3.1.2 编写正则表达式提炼相关新闻信息(1)获取新闻的来源和日期
弹出的结果:
3.1.2 编写正则表达式提炼相关新闻信息
(2) 获取新闻的网址和标题
这个在2.4.3、2.4.4小节的时候已经讲过了,2.4.4弹出的结果:
3.1.2 编写正则表达式提炼相关新闻信息(2) 获取新闻的网址和标题
我们可以使用以下的代码来获取网址:
获取标题的代码:
3.1.3数据清洗并打印输出
(1)清理新闻标题
我们可以看到每个标题开头结尾含有\n换行符和一些空格;另一个是中间则含有一些和等无效字符
Print(href)和print(title)弹出的结果:
3.1.3数据清洗并打印输出
(1)清理新闻标题
我们可以使用2.4.4.讲解的.strip()函数去掉空格和换行符:
然后是2.4.5.讲解的re.sub()函数去掉和:
3.1.3数据清洗并打印输出
(2) 清理新闻来源和发布日期
3.1.2 弹出的结果:
3.1.3数据清洗并打印输出
(2) 清理新闻来源和发布日期
从3.1.2 的结果我们用三大问题:
1.夹杂着很多等的图片标签信息,需要将其清除掉
2.来源和日期都在一起了,需要把它分开
3.来源和日期的首尾都有一些空格和换行符等内容,需要把它们清理掉第一个问题除掉我们可以使用:
3.1.3数据清洗并打印输出
(2) 清理新闻来源和发布日期
第二个问题我们可以看到来源和日期的中间有: 我们可以用.split()函数来分开来元和日期:
第三个问题我们通过strip()函数可以去除多余的空格和换行符:
3.1.3数据清洗并打印输出
(2) 清理新闻来源和发布日期
我们结合使用这三大解决方法的代码会变成:
3.1.3数据清洗并打印输出(2) 清理新闻来源和发布日期打印出来的结果:
我们综合一下3.1 全部使用的代码:第一部: 获取网页源代码
我们综合一下3.1 全部使用的代码:第二部: 正则提取
我们综合一下3.1 全部使用的代码:第三部(1): 数据清洗
我们综合一下3.1 全部使用的代码:第三部(2): 数据打印
我们综合一下3.1 全部使用的代码:第四部: 打印弹出的结果:
3.2 批量获取多个公司的百度新闻及自动生成数据报告
3.2.1 批量爬取多个公司的百度新闻
我们可以使用以下的代码:
动生成数据报告3.2.2 自动生成txt报告:
动生成数据报告
3.2.2 自动生成txt报告的写入方式:
写入方式含义
w每次新写入数据,都会把原来的数据清除
a不清除原来数据,在原数据之后写入新内容
3.2.2 自动生成txt报告的写入方式代码:
3.3.2 24小时实时爬取实战
三个小时
3.3.2 24小时实时爬取实战
三个小时
3.4.1 按时间顺序爬取百度新闻
只需要在上面这个红色
框里选择“按时间排序”
3.4.1 按时间顺序爬取百度新闻
我们只需要把原来的代码
从rtt=1改成rtt=4
3.4.2 一次性爬取多页(供参考学习)
3.4.2 一次性爬取多页(供参考学习)
(1) 爬取一家公司的多页代码:
&pn=00
3.4.2 一次性爬取多页(供参考学习) (1) 爬取一家公司的多页代码:
3.4 按时间顺序爬取及批量爬取多页3.
4.2 一次性爬取多页(供参考学习)
(2) 爬取一家公司的多页代码:
3.5.1 搜狐新闻数据挖掘实战
(1)获取网页源码:
搜狗搜阿里巴巴新闻的网址是:网址为:https:///news?
mode=1&sort=0&fixrank=1&query=%B0%A2%C0%EF%B0%CD%B0%
CD&shid=djt1
我们可以猜到=%B0%A2%C0%EF%B0%CD%B0%CD是搜狗浏览器上的翻译语言。
换上阿里巴巴:https:///news?
mode=1&sort=0&fixrank=1&query阿里巴巴&shid=djt1
3.5.1 搜狐新闻数据挖掘实战(1)获取网页源码:
3.5.1 搜狐新闻数据挖掘实战
(2) 编写正则表达式,是f12 + (cltr+f)搜到的新闻网址: