金融数据挖掘案例实战-百度新闻搜狐新闻新浪财经数据挖掘实战

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三讲金融数据挖掘案例实战1 -百度新闻、搜狐新闻、新浪财经数据挖掘实战

3.1 正则提取百度新闻标题、网址、日期及来源

3.2 批量获取多个公司的百度新闻及自动生成数据报告

3.3 异常处理及24小时实时数据挖掘实战

3.4 按时间顺序爬取及批量爬取多页

3.5 搜狐新闻与新浪财经数据挖掘实战

3.1.1 获取网页源代码

首先回顾一下2.3小节获得网页源代码的代码:

3.1.2 编写正则表达式提炼相关新闻信息

(1)获取新闻的来源和日期

在2.3.3小节中也提过,通过观察网页源代码,发现每个新闻的来源和发布日期都是夹在

之间。2.3.3的代码:

3.1.2 编写正则表达式提炼相关新闻信息(1)获取新闻的来源和日期

所以获取新闻的来源和日期代码是:

3.1.2 编写正则表达式提炼相关新闻信息(1)获取新闻的来源和日期

弹出的结果:

3.1.2 编写正则表达式提炼相关新闻信息

(2) 获取新闻的网址和标题

这个在2.4.3、2.4.4小节的时候已经讲过了,2.4.4弹出的结果:

3.1.2 编写正则表达式提炼相关新闻信息(2) 获取新闻的网址和标题

我们可以使用以下的代码来获取网址:

获取标题的代码:

3.1.3数据清洗并打印输出

(1)清理新闻标题

我们可以看到每个标题开头结尾含有\n换行符和一些空格;另一个是中间则含有一些等无效字符

Print(href)和print(title)弹出的结果:

3.1.3数据清洗并打印输出

(1)清理新闻标题

我们可以使用2.4.4.讲解的.strip()函数去掉空格和换行符:

然后是2.4.5.讲解的re.sub()函数去掉

3.1.3数据清洗并打印输出

(2) 清理新闻来源和发布日期

3.1.2 弹出的结果:

3.1.3数据清洗并打印输出

(2) 清理新闻来源和发布日期

从3.1.2 的结果我们用三大问题:

1.夹杂着很多等的图片标签信息,需要将其清除掉

2.来源和日期都在一起了,需要把它分开

3.来源和日期的首尾都有一些空格和换行符等内容,需要把它们清理掉第一个问题除掉我们可以使用:

3.1.3数据清洗并打印输出

(2) 清理新闻来源和发布日期

第二个问题我们可以看到来源和日期的中间有:  我们可以用.split()函数来分开来元和日期:

第三个问题我们通过strip()函数可以去除多余的空格和换行符:

3.1.3数据清洗并打印输出

(2) 清理新闻来源和发布日期

我们结合使用这三大解决方法的代码会变成:

3.1.3数据清洗并打印输出(2) 清理新闻来源和发布日期打印出来的结果:

我们综合一下3.1 全部使用的代码:第一部: 获取网页源代码

我们综合一下3.1 全部使用的代码:第二部: 正则提取

我们综合一下3.1 全部使用的代码:第三部(1): 数据清洗

我们综合一下3.1 全部使用的代码:第三部(2): 数据打印

我们综合一下3.1 全部使用的代码:第四部: 打印弹出的结果:

3.2 批量获取多个公司的百度新闻及自动生成数据报告

3.2.1 批量爬取多个公司的百度新闻

我们可以使用以下的代码:

动生成数据报告3.2.2 自动生成txt报告:

动生成数据报告

3.2.2 自动生成txt报告的写入方式:

写入方式含义

w每次新写入数据,都会把原来的数据清除

a不清除原来数据,在原数据之后写入新内容

3.2.2 自动生成txt报告的写入方式代码:

3.3.2 24小时实时爬取实战

三个小时

3.3.2 24小时实时爬取实战

三个小时

3.4.1 按时间顺序爬取百度新闻

只需要在上面这个红色

框里选择“按时间排序”

3.4.1 按时间顺序爬取百度新闻

我们只需要把原来的代码

从rtt=1改成rtt=4

3.4.2 一次性爬取多页(供参考学习)

3.4.2 一次性爬取多页(供参考学习)

(1) 爬取一家公司的多页代码:

&pn=00

3.4.2 一次性爬取多页(供参考学习) (1) 爬取一家公司的多页代码:

3.4 按时间顺序爬取及批量爬取多页3.

4.2 一次性爬取多页(供参考学习)

(2) 爬取一家公司的多页代码:

3.5.1 搜狐新闻数据挖掘实战

(1)获取网页源码:

搜狗搜阿里巴巴新闻的网址是:网址为:https:///news?

mode=1&sort=0&fixrank=1&query=%B0%A2%C0%EF%B0%CD%B0%

CD&shid=djt1

我们可以猜到=%B0%A2%C0%EF%B0%CD%B0%CD是搜狗浏览器上的翻译语言。

换上阿里巴巴:https:///news?

mode=1&sort=0&fixrank=1&query阿里巴巴&shid=djt1

3.5.1 搜狐新闻数据挖掘实战(1)获取网页源码:

3.5.1 搜狐新闻数据挖掘实战

(2) 编写正则表达式,是f12 + (cltr+f)搜到的新闻网址:

相关文档
最新文档