文本挖掘方法概述剖析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习方法主要是通过已经标注好的语料分为训练集和测试集, 采用支持向量机(SVM)、最大熵、KNN等分类器使用训练预料进行 训练并用测试预料测试分类器的准确度。机器学习包很多,比如 python的NLTK + scikit-learn就很好。
中文分词工具
中文分词工具主要有MSRSeg、 Hylanda 、HIT、ICTCLAS等。 其中ICTCLAS是中国科学院计算机研究所研制的。主要功能包括中 文分词、词性标注、命名实体识别、新词识别同时支持用户词典。是当 前世界上最好的汉语词法分析器。 另外,Python的jieba扩展包用于分词也是非常好的工具。
大数据分析技术
文本挖掘的一般方法
文档
物征提 取/文本
表示
特征选 择
挖掘方 法获取 知识模
式
用户评 价
知识
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
数据获取
网络文本数据包括各大门户网站的新闻、论坛的帖子 、微博、博客等等。
爬取数据可以使用“火车头”、“网络神采”等工 具。也可以使用java、python等的开源的爬虫框架。自 己编写爬虫的话,对于网页解析可以用“正则表达式” 或 Beautiful soup。
数据获取——常用两个类库
Selenium①一个用于Web应用程序测试的工具。②直接运行在浏览器中的一
款测试工具,和真正的用户打开浏览网页一样。③用selenium打开网页后,使 用beautiful soup解析加载页面的内容,其主要的功能特点能让我们非常精确地 获取网页数据。
使用python的scrapy框架爬取了中国房地产信息网的 政策动向中的土地政策、金融政策、财税政策、保障政策 和中介政策。并以csv格式存取。
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题提取 04 情感计算
中文分词及词性标注
如果以每条评论为单位来进行产品特征评论语句来分类容易产生 混淆分词之前需要对文本进行分句,可以用Python程序按照标点(或 空格)分句。
数据存取
对于数据量不是很大的话可以用json和csv格式来存 储,比较好处理,对于数据量很大的话就直接存入数据 库(如sqlserver)中。对于有些数据结构,存入非关系 型数据库比较好,常见的非关系型数据有MongoDB等 ,具体可以参考http://nosql-database.org/。
示例——爬取中国房地产信息网的数据
PPT模板下载:www.1ppt.com/moban/ 节日PPT模板:www.1ppt.com/jieri/ PPT背景图片:www.1ppt.com/beijing/ 优秀PPT下载:www.1ppt.com/xiazai/ Word教程: www.1ppt.com/word/ 资料下载:www.1ppt.com/ziliao/ 范文下载:www.1ppt.com/fanwen/ 教案下载:www.1ppt.com/jiaoan/
用于实现LSI、LDA模型的python软件包——gensim
Gensim是用来计算文档相似性的python软件包, 使用非常简单。
LDA模型的计算举例
针对从中国房地产信息网爬取的数据进行主题提取,一共有8301 篇文档,提取10个主题,由于分词后对于停用词没有去除,所以结果 中有的词不是很好,但进行相似性分析(取第8篇文章与其余的进行相 似性分析,并按相似性排序)时还是比较准的。
分词后
词性标注
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
文本相似性计算
计算文本的相似度在工程中有着重要的应用,比如文本去重,搜索 引擎网页判重,论文的反抄袭,ACM竞赛中反作弊,个性化推荐、社交 网络、广告预测等等。
计算文本相似性的主要算法
计算文本相似度的算法有IF-IDF、基于向量空间的余弦算法、隐 形语义标引(LSI/LSA)、主题模型—LDA。
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列 切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范 重新组合成词序列的过程。
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行 中文分词,可以达到电脑自动识别语句含义的效果。
所谓词性标注就是根据句子的上下文信息给句中的每个词确定一 个最为合适的词性标记。
Beautiful Soup ①提供一些简单的、pyth百度文库n式的函数用来处理导航、搜索、
修改分析树等功能。②它是一个工具箱,通过解析文档为用户提供需要抓取的 数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
使用selenium模拟用户点击网页,打开页面后使用beautiful soup将其 网页内容解析,获取我们想要的数据,将两者结合,就能够将各个机构 提供的数据从其网页上抓取下来。
行业PPT模板:www.1ppt.com/hangye/ PPT素材下载:www.1ppt.com/sucai/ PPT图表下载:www.1ppt.com/tubiao/ PPT教程: www.1ppt.com/powerpoint/ Excel教程:www.1ppt.com/excel/ PPT课件下载:www.1ppt.com/kejian/ 试卷下载:www.1ppt.com/shiti/
去除停用词
在进行了分词和词性标注之后,得到的数据对我们来说还是冗余的 ,一些介词、量词、助词、标点符号等对文本研究无意义的词,需要剔 除,所以我们还需要对这些评论语料进行停用词过滤和标点符号过滤。 停用词和标点符号的过滤我们采用根据停用词表取出停用词,再使用 python编写过滤程序。
分词示例
原始文本
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
情感极性判断
情感极性的判断主要分为两类:第一类是利用情感词典的方法,第 二类是采用机器学习的方法。
情感词典方法是通过建立情感词典也叫情感语料库,进行文本的情 感计算。常用的情感语料库有知网语料库,大连理工大学的情感本体库 等
中文分词工具
中文分词工具主要有MSRSeg、 Hylanda 、HIT、ICTCLAS等。 其中ICTCLAS是中国科学院计算机研究所研制的。主要功能包括中 文分词、词性标注、命名实体识别、新词识别同时支持用户词典。是当 前世界上最好的汉语词法分析器。 另外,Python的jieba扩展包用于分词也是非常好的工具。
大数据分析技术
文本挖掘的一般方法
文档
物征提 取/文本
表示
特征选 择
挖掘方 法获取 知识模
式
用户评 价
知识
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
数据获取
网络文本数据包括各大门户网站的新闻、论坛的帖子 、微博、博客等等。
爬取数据可以使用“火车头”、“网络神采”等工 具。也可以使用java、python等的开源的爬虫框架。自 己编写爬虫的话,对于网页解析可以用“正则表达式” 或 Beautiful soup。
数据获取——常用两个类库
Selenium①一个用于Web应用程序测试的工具。②直接运行在浏览器中的一
款测试工具,和真正的用户打开浏览网页一样。③用selenium打开网页后,使 用beautiful soup解析加载页面的内容,其主要的功能特点能让我们非常精确地 获取网页数据。
使用python的scrapy框架爬取了中国房地产信息网的 政策动向中的土地政策、金融政策、财税政策、保障政策 和中介政策。并以csv格式存取。
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题提取 04 情感计算
中文分词及词性标注
如果以每条评论为单位来进行产品特征评论语句来分类容易产生 混淆分词之前需要对文本进行分句,可以用Python程序按照标点(或 空格)分句。
数据存取
对于数据量不是很大的话可以用json和csv格式来存 储,比较好处理,对于数据量很大的话就直接存入数据 库(如sqlserver)中。对于有些数据结构,存入非关系 型数据库比较好,常见的非关系型数据有MongoDB等 ,具体可以参考http://nosql-database.org/。
示例——爬取中国房地产信息网的数据
PPT模板下载:www.1ppt.com/moban/ 节日PPT模板:www.1ppt.com/jieri/ PPT背景图片:www.1ppt.com/beijing/ 优秀PPT下载:www.1ppt.com/xiazai/ Word教程: www.1ppt.com/word/ 资料下载:www.1ppt.com/ziliao/ 范文下载:www.1ppt.com/fanwen/ 教案下载:www.1ppt.com/jiaoan/
用于实现LSI、LDA模型的python软件包——gensim
Gensim是用来计算文档相似性的python软件包, 使用非常简单。
LDA模型的计算举例
针对从中国房地产信息网爬取的数据进行主题提取,一共有8301 篇文档,提取10个主题,由于分词后对于停用词没有去除,所以结果 中有的词不是很好,但进行相似性分析(取第8篇文章与其余的进行相 似性分析,并按相似性排序)时还是比较准的。
分词后
词性标注
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
文本相似性计算
计算文本的相似度在工程中有着重要的应用,比如文本去重,搜索 引擎网页判重,论文的反抄袭,ACM竞赛中反作弊,个性化推荐、社交 网络、广告预测等等。
计算文本相似性的主要算法
计算文本相似度的算法有IF-IDF、基于向量空间的余弦算法、隐 形语义标引(LSI/LSA)、主题模型—LDA。
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列 切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范 重新组合成词序列的过程。
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行 中文分词,可以达到电脑自动识别语句含义的效果。
所谓词性标注就是根据句子的上下文信息给句中的每个词确定一 个最为合适的词性标记。
Beautiful Soup ①提供一些简单的、pyth百度文库n式的函数用来处理导航、搜索、
修改分析树等功能。②它是一个工具箱,通过解析文档为用户提供需要抓取的 数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
使用selenium模拟用户点击网页,打开页面后使用beautiful soup将其 网页内容解析,获取我们想要的数据,将两者结合,就能够将各个机构 提供的数据从其网页上抓取下来。
行业PPT模板:www.1ppt.com/hangye/ PPT素材下载:www.1ppt.com/sucai/ PPT图表下载:www.1ppt.com/tubiao/ PPT教程: www.1ppt.com/powerpoint/ Excel教程:www.1ppt.com/excel/ PPT课件下载:www.1ppt.com/kejian/ 试卷下载:www.1ppt.com/shiti/
去除停用词
在进行了分词和词性标注之后,得到的数据对我们来说还是冗余的 ,一些介词、量词、助词、标点符号等对文本研究无意义的词,需要剔 除,所以我们还需要对这些评论语料进行停用词过滤和标点符号过滤。 停用词和标点符号的过滤我们采用根据停用词表取出停用词,再使用 python编写过滤程序。
分词示例
原始文本
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
情感极性判断
情感极性的判断主要分为两类:第一类是利用情感词典的方法,第 二类是采用机器学习的方法。
情感词典方法是通过建立情感词典也叫情感语料库,进行文本的情 感计算。常用的情感语料库有知网语料库,大连理工大学的情感本体库 等