文本挖掘方法概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习方法主要是通过已经标注好的语料分为训练集和测试集, 采用支持向量机(SVM)、最大熵、KNN等分类器使用训练预料进行 训练并用测试预料测试分类器的准确度。机器学习包很多,比如 python的NLTK + scikit-learn就很好。
用于实现LSI、LDA模型的python软件包——gensim
Gensim是用来计算文档相似性的python软件包, 使用非常简单。
LDA模型的计算举例
针对从中国房地产信息网爬取的数据进行主题提取,一共有8301 篇文档,提取10个主题,由于分词后对于停用词没有去除,所以结果 中有的词不是很好,但进行相似性分析(取第8篇文章与其余的进行相 似性分析,并按相似性排序)时还是比较准的。
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
情感极性判断
情感极性的判断主要分为两类:第一类是利用情感词典的方法,第 二类是采用机器学习的方法。
情感词典方法是通过建立情感词典也叫情感语料库,进行文本的情 感计算。常用的情感语料库有知网语料库,大连理工大学的情感本体库 等
行业PPT模板:www.1ppt.com/hangye/ PPT素材下载:www.1ppt.com/sucai/ PPT图表下载:www.1ppt.com/tubiao/ PPT教程: www.1ppt.com/powerpoint/ Excel教程:www.1ppt.com/excel/ PPT课件下载:www.1ppt.com/kejian/ 试卷下载:www.1ppt.com/shiti/
中文分词工具
中文分词工具主要有MSRSeg、 Hylanda 、HIT、ICTCLAS等。 其中ICTCLAS是中国科学院计算机研究所研制的。主要功能包括中 文分词、词性标注、命名实体识别、新词识别同时支持用户词典。是当 前世界上最好的汉语词法分析器。 另外,Python的jieba扩展包用于分词也是非常好的工具。
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列 切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范 重新组合成词序列的过程。
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行 中文分词,可以达到电脑自动识别语句含义的效果。
所谓词性标注就是根据句子的上下文信息给句中的每个词确定一 个最为合适的词性标记。
PPT模板下载:www.1ppt.com/moban/ 节日PPT模板:www.1ppt.com/jieri/ PPT背景图片:www.1ppt.com/beijing/ 优秀PPT下载:www.1ppt.com/xiazai/ Word教程: www.1ppt.com/word/ 资料下载:www.1ppt.com/ziliao/ 范文下载:www.1ppt.com/fanwen/ 教案下载:www.1ppt.com/jiaoan/
数据存取
对于数据量不是很大的话可以用json和csv格式来存 储,比较好处理,对于数据量很大的话就直接存入数据 库(如sqlserver)中。对于有些数据结构,存入非关系 型数据库比较好,常见的非关系型数据有MongoDB等 ,具体可以参考http://nosql-database.org/。
示例——爬取中国房地产信息网的数据
去除停用词
在进行了分词和词性标注之后,得到的数据对我们来说还是冗余的 ,一些介词、量词、助词、标点符号等对文本研究无意义的词,需要剔 除,所以我们还需要对这些评论语料进行停用词过滤和标点符号过滤。 停用词和标点符号的过滤我们采用根据停用词表取出停用词,再使用 python编写过滤程序。
分词示例
原始文本
大数据分析技术
文本挖掘的一般方法
文档
物征提 取/文本
表示
特征选 择
挖掘方 法获取 知识模
式
用户评 价
知识
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
数据获取
网络文本数据包括各大门户网站的新闻、论坛的帖子 、微博、博客等等。
分词后
词性标注
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
文本相似性计算
计算文本的相似度在工程中有着重要的应用,比如文本去重,搜索 引擎网页判重,论文的反抄袭,ACM竞赛中反作弊,个性化推荐、社交 网络、广告预测等等。
计算文本相似性的主要算法
计算文本相似度的算法有IF-IDF、基于向量空间的余弦算法、隐 形语义标引(LSI/LSA)、主题模型—LDA。
使用python的scrapy框架爬取了中国房地产信息网的 政策动向中的土地政策、金融政策、财税政策、保障政策 和中介政策。并以csv格式存取。
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题提取 04 情感计算
中文分词及词性标注
如果以每条评论为单位来进行产品特征评论语句来分类容易产生 混淆分词之前需要对文本进行分句,可以用Python程序按照标点(或 空格)分句。
Beautiful Soup ①提供一些简单的、python式的函数用来处理导航、搜索、
修改分析树等功能。②它是一个工具箱,通过解析文档为用户提供需要抓取的 数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
使用selenium模拟用户点击网页,打开页面后使用beautiful soup将其 网页内容解析,获取我们想要的数据,将两者结合,就能够将各个机构 提供的数据从其网页上抓取下来。
爬取数据可以使用“火车头”、“网络神采”等工 具。也可以使用java、python等的开源的爬虫框架。自 己编写爬虫的话,对于网页解析可以用“正则表达式” 或 Beautiful soup。
数据获取——常用两个类库
Selenium①一个用于Web应用程序测试的工具。②直接运行在浏览器中的一
款测试工具,和真正的用户打开浏览网页一样。③用Biblioteka Baiduelenium打开网页后,使 用beautiful soup解析加载页面的内容,其主要的功能特点能让我们非常精确地 获取网页数据。
用于实现LSI、LDA模型的python软件包——gensim
Gensim是用来计算文档相似性的python软件包, 使用非常简单。
LDA模型的计算举例
针对从中国房地产信息网爬取的数据进行主题提取,一共有8301 篇文档,提取10个主题,由于分词后对于停用词没有去除,所以结果 中有的词不是很好,但进行相似性分析(取第8篇文章与其余的进行相 似性分析,并按相似性排序)时还是比较准的。
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
情感极性判断
情感极性的判断主要分为两类:第一类是利用情感词典的方法,第 二类是采用机器学习的方法。
情感词典方法是通过建立情感词典也叫情感语料库,进行文本的情 感计算。常用的情感语料库有知网语料库,大连理工大学的情感本体库 等
行业PPT模板:www.1ppt.com/hangye/ PPT素材下载:www.1ppt.com/sucai/ PPT图表下载:www.1ppt.com/tubiao/ PPT教程: www.1ppt.com/powerpoint/ Excel教程:www.1ppt.com/excel/ PPT课件下载:www.1ppt.com/kejian/ 试卷下载:www.1ppt.com/shiti/
中文分词工具
中文分词工具主要有MSRSeg、 Hylanda 、HIT、ICTCLAS等。 其中ICTCLAS是中国科学院计算机研究所研制的。主要功能包括中 文分词、词性标注、命名实体识别、新词识别同时支持用户词典。是当 前世界上最好的汉语词法分析器。 另外,Python的jieba扩展包用于分词也是非常好的工具。
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列 切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范 重新组合成词序列的过程。
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行 中文分词,可以达到电脑自动识别语句含义的效果。
所谓词性标注就是根据句子的上下文信息给句中的每个词确定一 个最为合适的词性标记。
PPT模板下载:www.1ppt.com/moban/ 节日PPT模板:www.1ppt.com/jieri/ PPT背景图片:www.1ppt.com/beijing/ 优秀PPT下载:www.1ppt.com/xiazai/ Word教程: www.1ppt.com/word/ 资料下载:www.1ppt.com/ziliao/ 范文下载:www.1ppt.com/fanwen/ 教案下载:www.1ppt.com/jiaoan/
数据存取
对于数据量不是很大的话可以用json和csv格式来存 储,比较好处理,对于数据量很大的话就直接存入数据 库(如sqlserver)中。对于有些数据结构,存入非关系 型数据库比较好,常见的非关系型数据有MongoDB等 ,具体可以参考http://nosql-database.org/。
示例——爬取中国房地产信息网的数据
去除停用词
在进行了分词和词性标注之后,得到的数据对我们来说还是冗余的 ,一些介词、量词、助词、标点符号等对文本研究无意义的词,需要剔 除,所以我们还需要对这些评论语料进行停用词过滤和标点符号过滤。 停用词和标点符号的过滤我们采用根据停用词表取出停用词,再使用 python编写过滤程序。
分词示例
原始文本
大数据分析技术
文本挖掘的一般方法
文档
物征提 取/文本
表示
特征选 择
挖掘方 法获取 知识模
式
用户评 价
知识
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
数据获取
网络文本数据包括各大门户网站的新闻、论坛的帖子 、微博、博客等等。
分词后
词性标注
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题模型 04 情感计算
文本相似性计算
计算文本的相似度在工程中有着重要的应用,比如文本去重,搜索 引擎网页判重,论文的反抄袭,ACM竞赛中反作弊,个性化推荐、社交 网络、广告预测等等。
计算文本相似性的主要算法
计算文本相似度的算法有IF-IDF、基于向量空间的余弦算法、隐 形语义标引(LSI/LSA)、主题模型—LDA。
使用python的scrapy框架爬取了中国房地产信息网的 政策动向中的土地政策、金融政策、财税政策、保障政策 和中介政策。并以csv格式存取。
01 数据准备 02 分词及词性标注 03 文本相似度计算和主题提取 04 情感计算
中文分词及词性标注
如果以每条评论为单位来进行产品特征评论语句来分类容易产生 混淆分词之前需要对文本进行分句,可以用Python程序按照标点(或 空格)分句。
Beautiful Soup ①提供一些简单的、python式的函数用来处理导航、搜索、
修改分析树等功能。②它是一个工具箱,通过解析文档为用户提供需要抓取的 数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
使用selenium模拟用户点击网页,打开页面后使用beautiful soup将其 网页内容解析,获取我们想要的数据,将两者结合,就能够将各个机构 提供的数据从其网页上抓取下来。
爬取数据可以使用“火车头”、“网络神采”等工 具。也可以使用java、python等的开源的爬虫框架。自 己编写爬虫的话,对于网页解析可以用“正则表达式” 或 Beautiful soup。
数据获取——常用两个类库
Selenium①一个用于Web应用程序测试的工具。②直接运行在浏览器中的一
款测试工具,和真正的用户打开浏览网页一样。③用Biblioteka Baiduelenium打开网页后,使 用beautiful soup解析加载页面的内容,其主要的功能特点能让我们非常精确地 获取网页数据。