大数据与数据挖掘之文本挖掘(PPT 56张)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文档的向量空间模型
W权值计算方法TF-IDF
目前广泛采用TF-IDF权值计算方法来计算权重, TF-IDF的主 要思想是,如果某个词或短语在一篇文章中出现的频率TF 高,并且在其他文章中很少出现,则认为此词或者短语具 有很好的类别区分能力,适合用来分类。 TF词频(Term Frequency)指的是某一个给定的词语在该文件 中出现的次数。 IDF逆文档频率(Inverse Document Frequency)是全体文档数与 包含词条文档数的比值。如果包含词条的文档越少,IDF越 大,则说明词条具有很好的类别区分能力。 在完整的向量空间模型中,将TF和IDF组合在一起,形成TFIDF度量:TF-IDF(d,t)= TF(d,t)*IDF(t)
• 以上式子中 是该词在文件中的出现次数,而分母则是在 文件中所有字词的出现次数之和。
IDF度量
•逆向文件频率(inverse document frequency,IDF)是一个 词语普遍重要性的度量。某一特定词语的IDF,可以由总文 件数目除以包含该词语之文件的数目,再将得到的商取对数 得到:
大数据与数据挖掘-文本挖掘
1、文本挖掘概述
文本挖掘的背景
• 数据挖掘大部分研究主要针对结构化数据,如关系的、事 务的和数据仓库数据。 • 现实中大部分数据存储在文本数据库中,如新闻文章、 研究论文、书籍、WEB页面等。 • 存放在文本数据库中的数据是半结构化数据,文档中可能 包含结构化字段,如标题、作者、出版社、出版日期 等, 也包含大量非结构化数据,如摘要和内容等。
•|D|:语料库中的文件总数
•: 包含词语的文件数目(即的文件数目)如 果该词语不在语料库中,就会导致被除数为零,因此一 般情况下使用
关键词与网页的相关性计算
• 在某个一共有一千词的网页中“大数据”、“的” 和“应用”分别出现了 2 次、35 次 和 5 次,那么 它们的词频就分别是 0.002、0.035 和 0.005。三个 数相加,其和 0.042 就是相应网页和查询“大数 据的应用” 相关性的一个简单的度量。 • 概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,这个查询和 该网页的相关性就是:TF1 + TF2 + ... + TFN。
• (11)查词表,W不在词表中,将W最右边一个字去掉, 得到W="是三" • (12)查词表,W不在词表中,将W最右边一个字去掉, 得到W=“是”,这时W是单字,将W加入到S2中,S2=“计 算语言学/ 课程/ 是/ ”, • 并将W从S1中去掉,此时S1="三个课时"; • ������ ������ • (21)S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ ”,此时 S1=""。 • (22)S1为空,输出S2作为分词结果,分词过程结束。
• S1="计算语言学课程是三个课时" • 设定最大词长MaxLen= 5 • S2= " "
• (1)S2=“”;S1不为空,从S1左边取出候选子串 • W="计算语言学"; • (2)查词表,“计算语言学”在词表中,将W加入到S2 中,S2=“计算语言学/ ”,并将W从S1中去掉,此时S1="课 程是三个课时"; • (3)S1不为空,于是从S1左边取出候选子串W="课程是三 个"; • (4)查词表,W不在词表中,将W最右边一个字去掉, 得到W="课程是三"; • (5)查词表,W不在词表中,将W最右边一个字去掉, 得到W="课程是";
TF度量
• 在一份给定的文件里,词频(term frequency,TF)指的是 某一个给定的词语在该文件中出现的频率。这个数字是对 词数(term count)的归一化,以防止它偏向长的文件。(同 一个词语在长文件里可能会比短文件有更高的词数,而不 管该词语重要与否。)对于在某一特定文件里的词语 来 说,它的重要性可表示为: •
文档建模
• 特征表示是指以一定的特征项如词条或描 述来代表文档信息。
• 特征表示模型有多种,常用的有布尔逻辑 型、向量空间型等
• 向量空间模型中,将每个文本文档看成是一组词条(T1, T2,T3,…,Tn)构成,对于每一词条Ti,根据其在文档中 的重要程度赋予一定的权值,可以将其看成一个n维坐标 系,W1,W2,…,Wn为对应的坐标值,因此每一篇文档 都可以映射为由一组词条矢量构成的向量空间中的一点, 对于所有待挖掘的文档都用词条特征矢量(T1,W1;T2, W2;T3,W3;…;Tn,Wn)表示。 • 向量空间模型将文档表达为一个矢量,看作向量空间中的 一个点。
文本挖掘概念
• 文本挖掘旨在通过识别和检索令人感兴趣 的模式,进而从数据源中抽取有用的信息。 文本挖掘的数据源是文本集合,令人感兴 趣的模式不是从形式化的数据库记录里发 现,而是从非结构化的数据中发现。
文本挖掘的过程 • • • • • • • 预处理 文档建模 相似性计算 信息检索 文本分类 文本聚类 模型评价
Fra Baidu bibliotek
预处理
• 把中文的汉字序列切分成有意义的词,就是中文分 词,也称为切词。 • “我是一个学生”分词的结果是:我是一个学生。 • 和平民主
– 和平、民主;和、平民、主
• 提高人民生活水平
– 提高、高人、人民、民生、生活、活水、水平
• 大学生活象白纸
– 大学、生活、象、白纸 – 大学生、活象、白纸
最大匹配分词法
停用词
• • • • 指文档中出现的连词,介词,冠词等并无太大意义的词。 英文中常用的停用词有the,a, it等 中文中常见的有“是”,“的”,“地”等。 停用词消除可以减少term的个数,降低存储空间。停用词 的消除方法: • (1)查表法:建立一个停用词表,通过查表的方式去掉 停用词。 • (2)基于DF的方法:统计每个词的DF,如果超过总文档 数目的某个百分比(如80%),则作为停用词去掉。
• 词“的”站了总词频的 80% 以上,它对确定网页的主题几 乎没有用。在度量相关性时不应考虑它们的频率。删除后, 上述网页的相似度就变成了0.007,其中“大数据”贡献了 0.002,“应用”贡献了 0.005。 “应用”是个很通用的词, 而“大数据”是个很专业的词,后者在相关性排名中比前 者重要。因此我们需要给汉语中的每一个词给一个权重, 这个权重的设定必须满足下面两个条件: • 一个词预测主题能力越强,权重就越大,反之,权重就越 小。我们在网页中看到“大数据”这个词,或多或少地能 了解网页的主题。我们看到“应用”一次,对主题基本上 还是一无所知。因此,“原子能“的权重就应该比应用大。 • 应删除词的权重应该是零。