浅析文本挖掘技术
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3. 管道穿板洞处的管外壁应打毛使其粗糙, 与混凝土 结 合 更 紧 密, 达到防水目的。亦可加设橡胶止水环防水。
4.施 工 过 程 中 应 及 时 按 规 范 要 求 做 好 管 道 支 、吊 架 , 防 止 管 道 断 裂。
5.可要求所有水平主管段作灌水试验, 立管作通水试验(与规范要 求 略 有 提 高), 能 及 时 发 现 渗 水 点 , 保 证 总 体 施 工 质 量 , 以 防 漏 水 至 下 部装饰吊顶材料而造成经济损失。
本集合进行处理, 必须有快速高效的文本挖掘算法。
( 2) 文本表示 文本挖掘处理的是自然语言表示的文本, 是无结
构或半结构化数据, 缺乏计算机可理解的含义, 在进行文本挖掘之前,
需要对文本进行预处理及特征提取, 将其表示为计算机可读的一种中
间形式。目前, 虽然自然语言处理领域的研究已取得较大进展, 但还没
1.文本挖掘算法的分类
文 本 挖 掘 从 采 集 到 知 识 的 发 现 和 使 用 是 一 个 复 杂 的 过 程 。首 先 需 要确定文本挖掘的应用范围, 包括收集应用所涉及领域内的背景知 识, 理解应用要求并且确定应用所要达到的目标等任务。之后确定目 标文本集合, 选取待处理和分析的文本。利用启发式规则和自然语言 处理技术从文本中抽取代表其特征的元数据, 并存放在文本特征库 中, 作为文本挖掘的基础。经过文本预处理之后, 根据应用的需要和文 本 的 特 点 选 择 适 当 的 挖 掘 功 能 。由 于 每 一 种 文 本 挖 掘 功 能 都 包 含 有 不 同的算法, 各种算法又都有其自身的特点和适用范围, 所以需要根据 挖掘功能以及文本特点和用户需求, 选取合适的算法, 确定算法中包 含的参数。运行文本挖掘算法, 寻找文本集合中的有用知识。算法运行 完成后, 以某种方法对发现的知识进行评估, 还可根据需要返回前面 的步骤进行优化, 直到满足要求为止。解释说明发现的知识, 以易于理 解 的 方 式 提 供 给 用 户 。把 发 现 的 知 识 运 用 于 解 决 实 际 问 题 或 供 决 策 使 用。
1.UPVC 排水管施工规范中未要求管壁打毛, 施工人员未引起重 视, 依此操作、影响粘接 效 果 。 实 际 施 工 监 理 工 作 中 对 此 应 做 详 细 交 待, 可在书面交底资料中“粘接前用砂纸打毛”加以要求、监督执行, 以 保证粘接效果。
2.雨水斗盖与斗体法兰之间可加设一橡胶垫圈止水环防水, 以 防 楼 板 防 水 层 未 做 好 、且 雨 水 斗 堵 塞 时 雨 水 渗 入 防 水 隔 热 层(大 多 为 膨 胀珍珠岩, 吸水性能好, 不易干), 造成渗水事故。
文档的集合。平面划分法首先将文档集合水平地分割成若干个簇, 以
这个簇集为基础, 将文档归并到不同的簇中。该方法运行速度较快, 但
是必须事先确定簇集的划分个数, 而且种子的选择好坏对聚类的结果
影 响 较 大 [2]。
( 4) 关联分析 关联分析是指从文档集合中找出不同词语之间的
关系。Feldman 和 High 研究了文本数据库中关联规则的挖掘, 文献[3]提
地选择相对较好的参数值, 并且在算法运行的过程中自行调节参数的
取值, 是很多算法能否被广大使用的一个关键问题。
( 6) 模式的理解和可视化显示 文本挖掘算法所发现的知识模式
形式多样。提高这些模式的可理解性也是研究者们不得不面对的问
题。提高可理解性的解决方法通常包括以图形方式显示结果, 提供相
对少量的规则, 或者生成自然语言以及利用可视化技术等。而目前的
关键词: 排水管在高层建筑中的应用
UPVC 排水管在高层建筑中应用尚无太多实践经验。 笔 者 认 为 , 在建筑底层排水横管或局部承压管道可选用质好的排水铸铁管或给
水铸铁管(可保证质量)来满足承压要求。在实际施工中, 二层板下选用 给水铸铁管, 二 层 以 上 选 用 UPVC 排 水 管 , 运 行 管 理 方 便 、效 果 较 佳 , 充分体现出 UPVC 排水管的优点。
有一种能够完全表示文本语义的中间形式。对于不同的挖掘目的, 需
要 使 用 不 同 复 杂 度 的 中 间 表 示 形 式 。 对 于 细 粒 度 的 、领 域 特 定 的 知 识
发现任务, 需要进行语义分析, 以得到足够丰富的表示, 抓住文本中对
象或概念之间的关系。但是语义分析计算量大, 如何更快速地进行语
掘, 得到主题, 国家, 组织, 人, 股票交易之间的相对分布, 揭示了一些
有趣的趋势[5]。Wuthrich 等人通过分析 Web 上出版的权威 性 文 章 , 对
每天的股票市场指数进行预测, 取得了良好的效果[6]。
2.文本挖掘中的研究课题
文本挖掘涉及数据挖掘, 统计学, 机器学习, 模式识别, 神经网络,
多种语言之间的语义转换。
( 4) 算法的选择 面对多种多样的文本挖掘算法, 不同算法各有
其特点, 如何从中选择一个合适的算法是一个尚待研究的问题。因为
作为一般用户来说, 他们很难搞懂每个算法的原理和要求。
( 5) 算法运行中参数的设定 很多算法运行时需要用户设定参
数, 有些参数的含义较难理解, 因而也很难正确设定。如何让算法自动
义分析并且对于大文本集合具有可扩展性是一个挑战性的问题。
( 3) 跨语言问题 由于自然语言的多样性, 各种语言各有其特点,
在一种语言中有效的文本挖掘功能却很可能不适用于其它语言, 尤其
是印欧语系语言与汉语之间。并且随着经济的全球化, 待处理的文本
集合中可能存在多种语言写成的文本, 因此, 文本挖掘功能要考虑到
6.对 于 锅 炉 房 、蒸 汽 洗 衣 机 房 内 排 水 管 可 选 用 铸 铁 管 , 既 解 决 了 耐高温也克服了 UPVC 排水管耐压差的缺点。
7.立 管 底 部 弯 头 噪 音 最 大 , 可 采 用 在 主 管 底 部 设 置 管 道 支 墩 , 并 用柔性材料(聚苯乙烯泡沫塑料板等)将 弯 头 包 裹 起 来 , 使 立 管 中 的 水 流落在实处并可达到消声的目的。
可视化, 自然语言处理等多个领域。而许多其它领域提出的解决问题
的方法都或多或少地不适用于文本这一特殊形式数据的挖掘, 因此,
文本挖掘面临许多新的研究课题:
( 1) 文本挖掘算法的可扩展性问题 Internet 的发展, 电子商务和
数字图书馆的兴起和广泛应用, 永久存储设备价格的不断降低, 所有
这 些 都 使 得 各 单 位 储 存 的 文 本 信 息 规 模 空 前 庞 大 。要 对 如 此 之 大 的 文
可 以 根 据 不 同 的 方 法 来 对 文 本 挖 掘 任 务 和 算 法 进 行 分 类 。根 据 挖 掘出的知识类型不同, 可以把文本挖掘任务和算法分为以下几类: 文 本总结, 文本分类, 聚类分析, 关联规则, 趋势预测等。
( 1) 文本总结 文本总结是指从文档中抽取关键信息, 用简洁的 形式对文档内容进行摘要或解释。这样, 用户不需要浏览全文就可以 了解文档或文档集合的总体内容。例如, 搜索引擎在向用户返回查询 结果时, 通常需要给出文档的摘要, 此时就经常需要用到文本总结技 术。令人遗憾的是, 由于该技术有待进一步完善, 目前绝大部分搜索引 擎采用的方法只是简单地截取文档的前几行。
文本挖掘系统, 其面对的用户大多是有经验的专家, 一般用户很难使
用。
( 下转第 98 页)
37
科技信息
○建筑与工程○
SC IE N C E IN F O R M A T IO N
2007 年 第 10 期
U P V C 排水管在高层建筑中的应用
李仁钢 ( 哈尔滨学院 黑龙江 哈尔滨 150000)
0.引言
随着网络信息技术的飞速发展, 能获得的文本信息集合出现了爆 炸 性 的 增 长 。当 人 们 在 为 如 此 海 量 、丰 富 的 文 本 资 源 欣 喜 若 狂 的 同 时 , 又不得不为很难发现其中蕴含的知识而扼腕叹惜。在现实世界中, 知 识不仅以传统数据库中的结构化数据的形式出现, 还以诸如书籍、研 究论文、新闻文章、Web 页面及电子邮件等各种各样的形式出ຫໍສະໝຸດ Baidu。由于 此类非结构化的数据源中也存在着大量的知识, 因此也应该在这些数 据源上进行数据挖掘, 提取感兴趣的、潜在的有用模式和隐藏的信息。 文 本 挖 掘 技 术 正 是 在 这 种 背 景 下 产 生 和 发 展 起 来 的 。文 本 挖 掘 指 的 是 从 大 量 的 文 本 集 合 中 发 现 潜 在 的 模 式 和 知 识 的 过 程 。文 本 挖 掘 可 以 完 成不同文档的比较, 进行文档重要性和相关性排列, 或者找出多文档 的模式及趋势。因此, 文本挖掘就成为了数据挖掘中的一个日益流行 且重要的研究课题。
8.据 规 范 要 求 伸 缩 节 应 加 在 排 水 管 接 口 三 通 下 面 较 好 。但 由 于 伸 缩节构造形式特殊如加在此处会造成配件材料浪费, 若配合管箍或检 查口安装, 不仅方便也便于检查伸缩节在施工中是否留有伸缩缝, 也 可减少一些配件、节约材料。施工中必须留出伸缩缝飞 10—15mm, 否 则无法起到伸缩作用, 反而因橡胶圈活口而增加漏水机会。
出了一种从大量文档中发现一对词语出现模式的算法, 并用来在 Web
上寻找作者和书名的出现模式, 从而发现了数千本在 Amazon 网站上
找 不 到 的 新 书 籍 ; 文 献[4]以 Web 上 的 电 影 介 绍 作 为 测 试 文 档 , 通 过 使
用 OEM 模型从这些半结构化的页面中抽取词语项, 进而得到一些关
( 2) 文本分类 文本分类是指根据带有类别的样例文本集合的特 点, 找出一个分类函数或分类模型( 分类器) , 根据该模型可以把其他 文本映射到一个已有类别中, 从而实现文本的自动分类。这样, 用户不 但能够方便地浏览文档, 而且通过限制搜索范围来使文档的查找更为 容易。
( 3) 聚类分析 聚类分析是指将文档集合分成若干个簇, 要求同 一簇内文档内容的相似度尽可能地大, 而不同簇间的相似度尽可能地 小, 从而发现整个文档集合的整体分布特点。它与分类的不同之处在 于, 聚类没有预先定义好的主题类别。可以利用文本聚类技术将搜索 引擎的检索结果划分为若干个簇, 用户只需要考虑那些相关的簇。这 样就大大缩小了所需要浏览的结果数量。目前, 有多种文本聚类算法, 大 致 可 分 为 两 种 类 型 : 以 HAC 等 算 法 为 代 表 的 层 次 聚 类 法 , 以 K- means 等算法为代表的平面划分法。层次聚类法的运行结果为一棵生 成树, 其中包含了簇的层次信息及所有簇内和簇间的相似度。该方法 能生成层次化的嵌套簇, 而且准确度较高。但是, 由于在每次合并时, 都需要全局地计算簇之间的相似度, 所以, 运行速度较慢, 不适于大量
于 电 影 名 称 、导 演 、演 员 、编 剧 的 出 现 模 式 。
( 5) 分布分析与趋势预测 分布分析与趋势预测是指通过对文档
的分析, 得到特定数据在某个历史时刻的情况或将来的取值趋势。
Feldman 等 人 使 用 多 种 分 布 模 型 对 路 透 社 的 2 万 多 篇 新 闻 进 行 了 挖
9.UPVC 排水管与铸铁管承口连接, 可把 UPVC 排水管外壁打毛, 然 后 用 石 棉 水 泥 直 接 打 口 、养 护 即 可 。 与 管 径 规 格 相 同 的 镀 锌 钢 管 连 接(常用于屋面雨水内排水横管), 因其外径相似承接困难, 实践中采取 的做法是把镀锌焊接钢管稍微抽心变径为, 150mm, 经焊接、防腐后直 接插入 UPVC 三 通 管 件 承 口 , 用 石 棉 水 泥 打 口 养 护 , 加 固 两 端 的 支 吊 架。此法不影响其排水功能, 却能节省安装空间与简化施工工艺, 是一 种简单可行的连接方法。
科技信息
○计算机与信息技术○
SC IE N C E IN F O R M A T IO N
2007 年 第 10 期
浅析文本挖掘技术
李翠霞 林 楠 (郑州大学软件学院 河南 郑州 450002)
摘要: 本文介绍了文本挖掘的过程和分类。通过对其挖掘过程的详细研究, 分析了文本挖掘进一步发展所面临的困难和挑战。 关键词: 文本挖掘; 数据挖掘; 信息检索
4.施 工 过 程 中 应 及 时 按 规 范 要 求 做 好 管 道 支 、吊 架 , 防 止 管 道 断 裂。
5.可要求所有水平主管段作灌水试验, 立管作通水试验(与规范要 求 略 有 提 高), 能 及 时 发 现 渗 水 点 , 保 证 总 体 施 工 质 量 , 以 防 漏 水 至 下 部装饰吊顶材料而造成经济损失。
本集合进行处理, 必须有快速高效的文本挖掘算法。
( 2) 文本表示 文本挖掘处理的是自然语言表示的文本, 是无结
构或半结构化数据, 缺乏计算机可理解的含义, 在进行文本挖掘之前,
需要对文本进行预处理及特征提取, 将其表示为计算机可读的一种中
间形式。目前, 虽然自然语言处理领域的研究已取得较大进展, 但还没
1.文本挖掘算法的分类
文 本 挖 掘 从 采 集 到 知 识 的 发 现 和 使 用 是 一 个 复 杂 的 过 程 。首 先 需 要确定文本挖掘的应用范围, 包括收集应用所涉及领域内的背景知 识, 理解应用要求并且确定应用所要达到的目标等任务。之后确定目 标文本集合, 选取待处理和分析的文本。利用启发式规则和自然语言 处理技术从文本中抽取代表其特征的元数据, 并存放在文本特征库 中, 作为文本挖掘的基础。经过文本预处理之后, 根据应用的需要和文 本 的 特 点 选 择 适 当 的 挖 掘 功 能 。由 于 每 一 种 文 本 挖 掘 功 能 都 包 含 有 不 同的算法, 各种算法又都有其自身的特点和适用范围, 所以需要根据 挖掘功能以及文本特点和用户需求, 选取合适的算法, 确定算法中包 含的参数。运行文本挖掘算法, 寻找文本集合中的有用知识。算法运行 完成后, 以某种方法对发现的知识进行评估, 还可根据需要返回前面 的步骤进行优化, 直到满足要求为止。解释说明发现的知识, 以易于理 解 的 方 式 提 供 给 用 户 。把 发 现 的 知 识 运 用 于 解 决 实 际 问 题 或 供 决 策 使 用。
1.UPVC 排水管施工规范中未要求管壁打毛, 施工人员未引起重 视, 依此操作、影响粘接 效 果 。 实 际 施 工 监 理 工 作 中 对 此 应 做 详 细 交 待, 可在书面交底资料中“粘接前用砂纸打毛”加以要求、监督执行, 以 保证粘接效果。
2.雨水斗盖与斗体法兰之间可加设一橡胶垫圈止水环防水, 以 防 楼 板 防 水 层 未 做 好 、且 雨 水 斗 堵 塞 时 雨 水 渗 入 防 水 隔 热 层(大 多 为 膨 胀珍珠岩, 吸水性能好, 不易干), 造成渗水事故。
文档的集合。平面划分法首先将文档集合水平地分割成若干个簇, 以
这个簇集为基础, 将文档归并到不同的簇中。该方法运行速度较快, 但
是必须事先确定簇集的划分个数, 而且种子的选择好坏对聚类的结果
影 响 较 大 [2]。
( 4) 关联分析 关联分析是指从文档集合中找出不同词语之间的
关系。Feldman 和 High 研究了文本数据库中关联规则的挖掘, 文献[3]提
地选择相对较好的参数值, 并且在算法运行的过程中自行调节参数的
取值, 是很多算法能否被广大使用的一个关键问题。
( 6) 模式的理解和可视化显示 文本挖掘算法所发现的知识模式
形式多样。提高这些模式的可理解性也是研究者们不得不面对的问
题。提高可理解性的解决方法通常包括以图形方式显示结果, 提供相
对少量的规则, 或者生成自然语言以及利用可视化技术等。而目前的
关键词: 排水管在高层建筑中的应用
UPVC 排水管在高层建筑中应用尚无太多实践经验。 笔 者 认 为 , 在建筑底层排水横管或局部承压管道可选用质好的排水铸铁管或给
水铸铁管(可保证质量)来满足承压要求。在实际施工中, 二层板下选用 给水铸铁管, 二 层 以 上 选 用 UPVC 排 水 管 , 运 行 管 理 方 便 、效 果 较 佳 , 充分体现出 UPVC 排水管的优点。
有一种能够完全表示文本语义的中间形式。对于不同的挖掘目的, 需
要 使 用 不 同 复 杂 度 的 中 间 表 示 形 式 。 对 于 细 粒 度 的 、领 域 特 定 的 知 识
发现任务, 需要进行语义分析, 以得到足够丰富的表示, 抓住文本中对
象或概念之间的关系。但是语义分析计算量大, 如何更快速地进行语
掘, 得到主题, 国家, 组织, 人, 股票交易之间的相对分布, 揭示了一些
有趣的趋势[5]。Wuthrich 等人通过分析 Web 上出版的权威 性 文 章 , 对
每天的股票市场指数进行预测, 取得了良好的效果[6]。
2.文本挖掘中的研究课题
文本挖掘涉及数据挖掘, 统计学, 机器学习, 模式识别, 神经网络,
多种语言之间的语义转换。
( 4) 算法的选择 面对多种多样的文本挖掘算法, 不同算法各有
其特点, 如何从中选择一个合适的算法是一个尚待研究的问题。因为
作为一般用户来说, 他们很难搞懂每个算法的原理和要求。
( 5) 算法运行中参数的设定 很多算法运行时需要用户设定参
数, 有些参数的含义较难理解, 因而也很难正确设定。如何让算法自动
义分析并且对于大文本集合具有可扩展性是一个挑战性的问题。
( 3) 跨语言问题 由于自然语言的多样性, 各种语言各有其特点,
在一种语言中有效的文本挖掘功能却很可能不适用于其它语言, 尤其
是印欧语系语言与汉语之间。并且随着经济的全球化, 待处理的文本
集合中可能存在多种语言写成的文本, 因此, 文本挖掘功能要考虑到
6.对 于 锅 炉 房 、蒸 汽 洗 衣 机 房 内 排 水 管 可 选 用 铸 铁 管 , 既 解 决 了 耐高温也克服了 UPVC 排水管耐压差的缺点。
7.立 管 底 部 弯 头 噪 音 最 大 , 可 采 用 在 主 管 底 部 设 置 管 道 支 墩 , 并 用柔性材料(聚苯乙烯泡沫塑料板等)将 弯 头 包 裹 起 来 , 使 立 管 中 的 水 流落在实处并可达到消声的目的。
可视化, 自然语言处理等多个领域。而许多其它领域提出的解决问题
的方法都或多或少地不适用于文本这一特殊形式数据的挖掘, 因此,
文本挖掘面临许多新的研究课题:
( 1) 文本挖掘算法的可扩展性问题 Internet 的发展, 电子商务和
数字图书馆的兴起和广泛应用, 永久存储设备价格的不断降低, 所有
这 些 都 使 得 各 单 位 储 存 的 文 本 信 息 规 模 空 前 庞 大 。要 对 如 此 之 大 的 文
可 以 根 据 不 同 的 方 法 来 对 文 本 挖 掘 任 务 和 算 法 进 行 分 类 。根 据 挖 掘出的知识类型不同, 可以把文本挖掘任务和算法分为以下几类: 文 本总结, 文本分类, 聚类分析, 关联规则, 趋势预测等。
( 1) 文本总结 文本总结是指从文档中抽取关键信息, 用简洁的 形式对文档内容进行摘要或解释。这样, 用户不需要浏览全文就可以 了解文档或文档集合的总体内容。例如, 搜索引擎在向用户返回查询 结果时, 通常需要给出文档的摘要, 此时就经常需要用到文本总结技 术。令人遗憾的是, 由于该技术有待进一步完善, 目前绝大部分搜索引 擎采用的方法只是简单地截取文档的前几行。
文本挖掘系统, 其面对的用户大多是有经验的专家, 一般用户很难使
用。
( 下转第 98 页)
37
科技信息
○建筑与工程○
SC IE N C E IN F O R M A T IO N
2007 年 第 10 期
U P V C 排水管在高层建筑中的应用
李仁钢 ( 哈尔滨学院 黑龙江 哈尔滨 150000)
0.引言
随着网络信息技术的飞速发展, 能获得的文本信息集合出现了爆 炸 性 的 增 长 。当 人 们 在 为 如 此 海 量 、丰 富 的 文 本 资 源 欣 喜 若 狂 的 同 时 , 又不得不为很难发现其中蕴含的知识而扼腕叹惜。在现实世界中, 知 识不仅以传统数据库中的结构化数据的形式出现, 还以诸如书籍、研 究论文、新闻文章、Web 页面及电子邮件等各种各样的形式出ຫໍສະໝຸດ Baidu。由于 此类非结构化的数据源中也存在着大量的知识, 因此也应该在这些数 据源上进行数据挖掘, 提取感兴趣的、潜在的有用模式和隐藏的信息。 文 本 挖 掘 技 术 正 是 在 这 种 背 景 下 产 生 和 发 展 起 来 的 。文 本 挖 掘 指 的 是 从 大 量 的 文 本 集 合 中 发 现 潜 在 的 模 式 和 知 识 的 过 程 。文 本 挖 掘 可 以 完 成不同文档的比较, 进行文档重要性和相关性排列, 或者找出多文档 的模式及趋势。因此, 文本挖掘就成为了数据挖掘中的一个日益流行 且重要的研究课题。
8.据 规 范 要 求 伸 缩 节 应 加 在 排 水 管 接 口 三 通 下 面 较 好 。但 由 于 伸 缩节构造形式特殊如加在此处会造成配件材料浪费, 若配合管箍或检 查口安装, 不仅方便也便于检查伸缩节在施工中是否留有伸缩缝, 也 可减少一些配件、节约材料。施工中必须留出伸缩缝飞 10—15mm, 否 则无法起到伸缩作用, 反而因橡胶圈活口而增加漏水机会。
出了一种从大量文档中发现一对词语出现模式的算法, 并用来在 Web
上寻找作者和书名的出现模式, 从而发现了数千本在 Amazon 网站上
找 不 到 的 新 书 籍 ; 文 献[4]以 Web 上 的 电 影 介 绍 作 为 测 试 文 档 , 通 过 使
用 OEM 模型从这些半结构化的页面中抽取词语项, 进而得到一些关
( 2) 文本分类 文本分类是指根据带有类别的样例文本集合的特 点, 找出一个分类函数或分类模型( 分类器) , 根据该模型可以把其他 文本映射到一个已有类别中, 从而实现文本的自动分类。这样, 用户不 但能够方便地浏览文档, 而且通过限制搜索范围来使文档的查找更为 容易。
( 3) 聚类分析 聚类分析是指将文档集合分成若干个簇, 要求同 一簇内文档内容的相似度尽可能地大, 而不同簇间的相似度尽可能地 小, 从而发现整个文档集合的整体分布特点。它与分类的不同之处在 于, 聚类没有预先定义好的主题类别。可以利用文本聚类技术将搜索 引擎的检索结果划分为若干个簇, 用户只需要考虑那些相关的簇。这 样就大大缩小了所需要浏览的结果数量。目前, 有多种文本聚类算法, 大 致 可 分 为 两 种 类 型 : 以 HAC 等 算 法 为 代 表 的 层 次 聚 类 法 , 以 K- means 等算法为代表的平面划分法。层次聚类法的运行结果为一棵生 成树, 其中包含了簇的层次信息及所有簇内和簇间的相似度。该方法 能生成层次化的嵌套簇, 而且准确度较高。但是, 由于在每次合并时, 都需要全局地计算簇之间的相似度, 所以, 运行速度较慢, 不适于大量
于 电 影 名 称 、导 演 、演 员 、编 剧 的 出 现 模 式 。
( 5) 分布分析与趋势预测 分布分析与趋势预测是指通过对文档
的分析, 得到特定数据在某个历史时刻的情况或将来的取值趋势。
Feldman 等 人 使 用 多 种 分 布 模 型 对 路 透 社 的 2 万 多 篇 新 闻 进 行 了 挖
9.UPVC 排水管与铸铁管承口连接, 可把 UPVC 排水管外壁打毛, 然 后 用 石 棉 水 泥 直 接 打 口 、养 护 即 可 。 与 管 径 规 格 相 同 的 镀 锌 钢 管 连 接(常用于屋面雨水内排水横管), 因其外径相似承接困难, 实践中采取 的做法是把镀锌焊接钢管稍微抽心变径为, 150mm, 经焊接、防腐后直 接插入 UPVC 三 通 管 件 承 口 , 用 石 棉 水 泥 打 口 养 护 , 加 固 两 端 的 支 吊 架。此法不影响其排水功能, 却能节省安装空间与简化施工工艺, 是一 种简单可行的连接方法。
科技信息
○计算机与信息技术○
SC IE N C E IN F O R M A T IO N
2007 年 第 10 期
浅析文本挖掘技术
李翠霞 林 楠 (郑州大学软件学院 河南 郑州 450002)
摘要: 本文介绍了文本挖掘的过程和分类。通过对其挖掘过程的详细研究, 分析了文本挖掘进一步发展所面临的困难和挑战。 关键词: 文本挖掘; 数据挖掘; 信息检索