数据挖掘神经网络法的研究现状和发展趋势综述
《2024年数据挖掘研究现状及发展趋势》范文

《数据挖掘研究现状及发展趋势》篇一一、引言随着信息技术的飞速发展,大数据时代已经来临。
数据挖掘作为处理海量数据并提取有价值信息的重要手段,其研究与应用日益受到广泛关注。
本文将介绍数据挖掘的研究现状,并探讨其未来的发展趋势。
二、数据挖掘研究现状1. 研究领域数据挖掘涉及多个学科领域,包括统计学、机器学习、数据库技术、人工智能等。
目前,国内外学者在数据挖掘领域进行了大量研究,涵盖了金融、医疗、教育、电商等多个行业。
2. 研究方法数据挖掘主要采用统计学、机器学习算法等方法对数据进行处理和分析。
其中,聚类分析、分类与预测、关联规则挖掘等是常用的数据挖掘方法。
此外,深度学习、神经网络等新兴技术在数据挖掘中也得到了广泛应用。
3. 研究成果近年来,数据挖掘在各个领域取得了丰硕的成果。
例如,在金融领域,通过数据挖掘技术可以预测股票价格走势、识别欺诈行为等;在医疗领域,数据挖掘有助于实现疾病预测、基因分析等。
此外,数据挖掘还为电商推荐系统、智能决策支持系统等提供了强有力的技术支持。
三、数据挖掘的发展趋势1. 云计算与大数据的结合随着云计算技术的不断发展,大数据存储和处理能力得到了极大提升。
未来,云计算与大数据的结合将进一步推动数据挖掘技术的发展。
通过云计算平台,可以实现对海量数据的快速处理和分析,为各行业提供更高效的数据挖掘服务。
2. 深度学习与神经网络的广泛应用深度学习与神经网络是当前研究的热点领域,其在数据挖掘中发挥了重要作用。
未来,随着算法的不断优化和模型性能的提升,深度学习与神经网络将在数据挖掘领域得到更广泛的应用。
3. 数据挖掘与人工智能的融合数据挖掘与人工智能的融合将是未来发展的重要趋势。
通过将数据挖掘技术与人工智能算法相结合,可以实现更高级的数据分析和预测功能,为各行业提供更智能的决策支持。
4. 数据隐私与安全保护的重要性日益凸显随着数据挖掘的广泛应用,数据隐私和安全保护问题日益受到关注。
未来,如何在保证数据隐私和安全的前提下进行数据挖掘将成为一个重要的研究方向。
神经网络模型的研究现状及应用

神经网络模型的研究现状及应用随着近年来人工智能技术的进步,神经网络模型成为了热门研究领域之一。
神经网络模型是一种模仿生物神经网络结构与功能,并且进行信息处理的复杂数学模型。
神经网络模型已经被广泛应用于语音识别、图像处理、语言翻译、自动驾驶等领域,成为智能化时代的重要工具。
一、神经网络模型的研究现状神经网络模型的发展可以追溯到上世纪60年代,随着计算能力的提升和数学算法的不断发展,神经网络模型得以不断完善。
目前,神经网络模型经历了多个版本的迭代更新,其中比较重要的有感知器、多层感知器、全连接神经网络、卷积神经网络、循环神经网络等。
感知器是最早出现的神经网络模型,由于其简单、易于实现等优点被广泛应用于数值预测等领域。
但是感知器的局限性也很明显,比如只能处理线性可分的问题,所以在处理更加复杂的问题上显得不太够用。
多层感知器是感知器的升级版,通过增加隐藏层使得神经网络模型可以处理非线性问题。
全连接神经网络则进一步加强了神经元之间的连接,实现了更加高效的信息交流。
卷积神经网络则是基于孪生神经元的结构,可以更加有效地处理图像、语音等信息。
而循环神经网络则可以更好地处理时序性数据,如自然语言处理等系统。
除了上述几种比较经典的神经网络模型外,还有一些衍生出来的新型神经网络模型,如生成对抗网络、变分自编码器等,这些模型都有着新增加的特性,可以应用在更多的领域。
二、神经网络模型的应用随着神经网络模型的不断升级和完善,越来越多的领域都开始尝试引入神经网络模型,并且取得了一定的成效。
在语音识别领域,谷歌的语音识别系统就采用了卷积神经网络和递归网络的方法,大大提升了语音的识别精度。
在图像识别领域,卷积神经网络已经成为了不可或缺的技术,诸如谷歌、微软、Facebook等巨头公司都将其应用在了图像识别领域,并且在ImageNet大规模视觉识别竞赛中取得了不俗的成绩。
在自然语言处理领域,循环神经网络和长短时记忆网络已经成为了解决序列化任务的必备工具。
神经网络的未来趋势

神经网络的未来趋势
神经网络作为一种机器学习算法,已经取得了巨大的成功,并在许多领域展示了强大的能力。
未来,神经网络的发展趋势可能包括以下几个方面:
1. 更复杂的网络架构:目前广泛使用的神经网络架构,如多层感知机和卷积神经网络,在某些任务上已经达到了瓶颈。
未来,研究人员可能会开发更复杂的网络架构,以处理更复杂的数据模式和任务。
2. 结合其他学习算法:神经网络在处理大规模数据和复杂问题方面表现出色,但在处理小规模数据和多模态数据等领域仍存在挑战。
未来,可以考虑将神经网络与其他学习算法结合,以提高性能和灵活性。
3. 自监督学习:目前,神经网络通常需要大量标注数据进行训练,但获取标注数据成本高昂且耗时。
未来,自监督学习将成为发展趋势,这种方法利用数据自身的结构或先验知识进行无监督训练,从而减少对标注数据的依赖。
4. 异构网络融合:神经网络在不同领域和任务中都取得了成功,而不同网络结构在处理不同类型的数据和任务时可能具有不同的优势。
未来,研究人员可能会探索将不同网络结构进行融合,以发挥它们的优势和互补性。
5. 硬件优化:当前的深度学习任务通常需要大量的计算资源和存储空间,对硬件提出了更高的要求。
未来,神经网络的发展将不仅仅局限于算法和模型本身,
还将与硬件技术的进步密切相关,例如专用芯片和量子计算等。
总之,神经网络作为一种强大的机器学习算法,在未来的发展中有望进一步提升性能,并在更广泛的领域和任务中发挥作用。
神经网络在数据挖掘中的应用

神经网络在数据挖掘中的应用随着计算机科学的快速发展,数据挖掘技术已经成为了数据分析领域中的重要手段。
它可以从庞大的数据集中发现隐藏的模式和规律,帮助人们预测未来趋势,优化决策。
在数据挖掘中,神经网络是一种非常重要的工具,它在各种数据挖掘任务中都具有重要的应用价值。
本文将介绍神经网络在数据挖掘中的应用,并探讨其未来发展方向。
一、神经网络简介神经网络是一种模拟生物神经系统的计算机模型,它可以通过学习发现数据中复杂的模式,并用于分类、预测和优化等任务。
神经网络由许多神经元组成,这些神经元之间构成了一个复杂的网络结构。
在神经网络的学习过程中,神经元之间会自动调整其连接权重,从而实现对训练数据的拟合。
二、1.分类在分类任务中,神经网络被广泛应用。
通过对已经分类的数据进行学习,神经网络可以自动地对新数据进行分类。
神经网络的分类精度通常比传统的分类算法要高,尤其是在处理非线性分类问题时效果更加明显。
例如,在银行领域,可以使用神经网络对信用风险进行分析,帮助银行挑选优质的客户,提高贷款的审核效率;在生物信息学领域,可以使用神经网络对未知蛋白质进行分类,以了解其功能、性质等信息。
2.预测神经网络也可以被应用于预测任务中。
通过对已有的数据进行学习,神经网络可以学习到数据中的规律和趋势。
然后,使用已经学习到的规律和趋势,可以对未来数据进行预测。
例如,在股市预测方面,可以使用神经网络对股票价格进行预测;在气象学方面,可以使用神经网络对未来的气象数据进行预测并进行相应的调整。
3.优化神经网络还可以被用于优化任务中。
在这种任务中,神经网络可以学习到某个系统的局部规律,然后使用这些规律进行优化操作。
在一些大规模、高维的优化问题中,神经网络比其他算法更具有优势。
例如,在交通规划方面,可以使用神经网络对交通网络的优化进行分析,在学校排课方面,可以使用神经网络对课表进行排列,以减少教室的使用率,提高学校的资源利用率。
三、神经网络在数据挖掘中的发展方向随着数据挖掘技术的不断发展,神经网络也在不断发展中。
数据挖掘研究的现状与发展趋势

数据挖掘是一门交叉学科 , 它把人们对数据的应 据中获得更有用 的信息. 实际上 , 这些数据 中只有一 用从 低层 次 的简 单 查 询 , 升 到从 数据 中挖 掘 知 识 , 提 小部分 有用 , 人们 却渴 求获 得知 识 , 面 临“ 据丰 提供决 策 支 持 . 建 立 在 数 据 库 、 工 智 能 、 器 学 但 正 数 是 人 机
的但又是潜 在有用 的信息 和知识 的过程 ]它 涉及 了四个阶段 : . 数据搜集、 数据访 问、 数据仓库和决策支 到对数 据库 中 的大量 数据 进 行 抽 取 、 转换 、 析 以及 持 ( 表 I ¨』 分 见 ) . 模 型化处 理 , 中提 取 辅助 决 策 的关 键 性 数 据 . 据 从 数 挖 掘可 以帮助 决 策者 寻找 规 律 , 现被 忽 略 的要 素 , 发
的努力 , 据 挖 掘 技 术 的研 究 已经 取 得 了 丰 硕 的成 数
Dsoeyi a bs, i vr nD t ae简称 K D) 是 2 纪 9 c a D , 0世 O年代 果 , 少软 件公 司 已研 制 出数 据 挖 掘 软 件 产 品 , 在 不 并 以来发展起 来 的数 据 库 系统 和 数据 库应 用 领 域 一 个 北 美 、 欧洲 等 国家得 到应用 . 欣欣 向荣 的前 沿学科 , 是从 大量 的、 不完 全 的 、 有噪 声 数 据挖 掘可 以认 为 是数 据库 技 术 和信 息 技 术 自 的、 糊 的、 模 随机 的实 际应 用 数据 中 , 取 隐含在 其 中 然 演变 的结 果 . 数据 库 业 界 , 据 挖 掘 的进 化 经 历 提 在 数
第 8卷 第 2期 2 1 4月 0 0年
红河学院学报
Jun l fHo g eU iest o ra n h nv ri o y
数据挖掘技术在医学领域中的应用现状与发展趋势

数据挖掘技术在医学领域中的应用现状与发展趋势导语:随着科技的不断发展,数据挖掘技术在医学领域中的应用越来越广泛。
利用大量的医疗数据进行分析和挖掘,可以帮助医疗工作者更好地了解疾病的发展规律,提高医疗保健水平。
本文将对数据挖掘技术在医学领域中的应用现状和发展趋势进行探讨。
一、数据挖掘技术在医学领域中的应用现状1. 疾病预测和诊断数据挖掘技术可以利用大量的患者数据,建立准确的疾病预测和诊断模型。
通过分析患者的生理指标、病史、基因信息等数据,可以帮助医生更精准地进行疾病的预测和诊断。
例如,利用机器学习算法和神经网络模型,可以预测患者患心脏病、糖尿病等疾病的风险,并提供相应的治疗方案。
2. 药物研发与个体化治疗数据挖掘技术可以帮助医药企业在药物研发过程中分析大量的药物数据和患者数据,从而更好地理解药物的作用机制、副作用及药物治疗的个体化问题。
通过挖掘患者的基因信息和药物治疗的效果数据,可以实现个体化的药物治疗,提高治疗效果。
同时,还可以挖掘患者的用药信息,帮助医生更好地判断患者的治疗依从性,减少药物滥用和不良反应的发生。
3. 医疗资源优化和运营管理利用数据挖掘技术,可以分析医疗机构的历史数据、患者的用药数据等,优化医疗资源的配置和运营管理。
通过对就诊人数、医院排队情况等数据的分析,可以合理安排医疗资源,提高服务效率和患者满意度。
同时,还可以通过挖掘患者的疾病数据和用药数据,进行疾病风险评估、医疗费用预测,更好地进行医疗计划和医保管理。
二、数据挖掘技术在医学领域中的发展趋势1. 结合深度学习算法深度学习算法在图像识别、自然语言处理等领域取得了重大突破,对于医学图像分析、疾病预测等问题具有较大的潜力。
未来,数据挖掘技术将更多地结合深度学习算法,提高医学数据的处理和分析能力。
2. 智能医疗助手的发展随着智能终端设备的普及和人工智能技术的发展,智能医疗助手正在成为医学领域的新趋势。
智能医疗助手可以根据患者的症状和疾病信息,给出个性化的医疗建议和健康管理方案。
神经网络的现状与发展趋势

神经网络的现状与发展趋势一、引言人工神经网络(Artificial Neural Network, ANN)是一种通过模拟人类神经系统实现信息处理、表达和识别的计算模型。
自 1943 年 McCulloch 和 Pitts 提出 ANNs 模型以来,神经网络成为了人工智能领域研究的热点之一,并在计算机视觉、语音识别、自然语言处理、数据挖掘、模式识别等方面取得了卓越成果。
随着技术和应用的不断深入,神经网络技术也在不断发展和成熟。
本文将阐述神经网络的现状与发展趋势。
二、神经网络的现状1.神经网络应用领域广泛神经网络现在应用在各个领域中,包括医疗、金融、保险、制造业、游戏等。
在医疗领域中,神经网络广泛应用于癌症筛查、药物研发、疾病预测等方面;在金融领域中,神经网络被用于股票价格预测、风险评估、欺诈检测等方面;在游戏领域中,神经网络被广泛用于图像处理、行为预测等方面。
神经网络在这些领域中具有较高的精度和灵活性,成为了人工智能技术中不可或缺的一部分。
2.深度学习技术的广泛应用深度学习作为神经网络技术的分支之一,逐渐成为了人工智能应用的主流。
深度学习通过多个隐层来逐步提取数据的高层次特征,大幅度提高了模型的准确性和鲁棒性。
目前,深度学习模型已经迅速应用于语音识别、机器翻译、自然语言处理、图像、视频等多个领域中。
深度学习的发展极大地促进了人工智能技术的研究和应用。
3.大数据技术的支持大数据技术是神经网络技术得以快速发展和应用的重要因素。
神经网络需要大量的数据进行训练和调整,而大数据时代的到来使得海量数据的存储和挖掘变得更加容易。
此外,人工智能应用也逐渐从精准分析转向预测和决策,并需要从大规模数据中发现规律和趋势。
大数据技术在神经网络技术的发展和应用中发挥了重要的作用。
三、神经网络的发展趋势1.自适应神经网络的发展传统的神经网络技术需要大量的人工调试和参数设置,而自适应神经网络技术可以根据自身的表现动态调整参数,自我进化。
数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势数据挖掘研究现状及发展趋势引言:随着信息时代的到来,人们对于数据的需求不断增加,数据的挖掘技术也逐渐崭露头角。
数据挖掘是指通过从大量的数据中发现隐含的知识和信息,进行模式识别、预测行为、分类和聚类等任务的过程。
近年来,数据挖掘技术在各个领域取得了广泛的应用,并且不断推动了科学研究和商业发展。
本文将介绍数据挖掘研究的现状及其未来的发展趋势。
一、数据挖掘的研究现状1. 数据挖掘算法数据挖掘算法是数据挖掘研究的核心。
目前,常见的数据挖掘算法包括决策树、聚类、关联规则挖掘、支持向量机等。
这些算法可以有效地从数据中发现知识和信息,并为决策提供支持。
此外,随着深度学习的兴起,神经网络等人工智能算法也被广泛应用于数据挖掘领域。
2. 数据挖掘应用数据挖掘技术在各个领域都有广泛的应用。
在商业领域,数据挖掘可以用于市场分析、客户关系管理、风险评估等。
在金融领域,数据挖掘可以用于预测股票价格、信用评估等。
在医疗领域,数据挖掘可以用于疾病诊断、药物发现等。
在科学研究中,数据挖掘可以用于发现科学规律、推动科学进展。
3. 数据挖掘工具为了帮助人们更好地进行数据挖掘研究,许多数据挖掘工具被开发出来。
例如,Weka、RapidMiner、Python的scikit-learn等工具,它们提供了丰富的功能和算法供用户选择,大大简化了数据挖掘的过程。
二、数据挖掘研究的发展趋势1. 大数据时代的挑战随着互联网的普及和物联网技术的发展,大量的数据被生成和存储。
数据量的急剧增加给数据挖掘技术提出了挑战。
未来,数据挖掘研究将面临如何高效处理和分析大数据的问题。
2. 非结构化数据挖掘现有的数据挖掘技术主要针对结构化数据,例如数据库中以表格形式存储的数据。
然而,随着社交网络、文本和多媒体数据的大量产生,非结构化数据挖掘成为了一个重要的研究方向。
未来的研究将致力于如何从非结构化数据中提取有效的信息和知识。
3. 隐私保护与数据安全随着个人数据的大规模收集和分析,数据隐私和安全成为了一个严峻的问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘神经网络法的研究现状和发展趋势综述摘要:随着计算机技术的迅猛发展,数据挖掘技术越来越受到世界的关注。
从数据挖掘的概念出发,介绍了数据挖掘的对象、功能及其挖掘过程,结合数据挖掘的几种常见挖掘算法:决策树法、关联规则法和神经网络法等,对其主要思想及其改进做了相关描述;总结了国内外数据挖掘的研究现状和应用,指出了数据挖掘的发展趋势。
关键词:数据挖掘;决策树法;关联规则法;神经网络法;研究现状;发展趋势0引言数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动中扮演着越来越重要的角色。
随着信息技术的迅速发展,各行各业都积累了海量异构的数据资料。
这些数据往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要将这些数据转化成有用的信息和知识,从而达到为决策服务的目的。
数据挖掘分析得到的信息和知识现在已经得到了广泛的应用,例如商务管理、生产控制、市场分析、工程设计和科学探索等。
数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果。
本文主要介绍了数据挖掘的几种主要算法及其改进,并对国内外的研究现状及研究热点进行了总结,最后指出其发展趋势<sup>[1]</sup>。
1研究背景1.1数据挖掘目前数据挖掘是人工智能和数据库领域的研究热点,数据挖掘是发现数据库中隐含知识的重要步骤。
数据挖掘出现于20世纪80年代末,早期主要研究从数据库中发现知识(Knowlegde Discovery in Database,KDD),数据挖掘的概念源于1995年在加拿大召开了第一届知识发现和数据挖掘国际会议<sup>[2]</sup>。
数据挖掘作为一种多学科综合的产物,综合利用人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,自动分析数据并从中得到潜在隐含的知识,从而帮助决策者做出合理并正确的决策。
1.2数据挖掘对象数据挖掘的对象可以是任何类型的数据源,可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至是异构型数据的数据源<sup>[2]</sup>。
发现知识的方法可以是数字的、非数字的,也可以是归纳的,最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等<sup>[1]</sup>。
1.3数据挖掘功能目前数据挖掘的主要功能包括概念描述、关联分析、分类、聚类和偏差检测等。
概念描述主要用于描述对象内涵并且概括此对象相关特征,概念描述分为特征性描述和区别性描述,特征性描述描述对象的相同特征,区别性描述描述对象的不同特征;关联分析主要用来发现数据库中相关的知识以及数据之间的规律,关联分为简单关联、时序关联、因果关联;分类和聚类就是根据需要训练相应的样本来对数据分类和合并;偏差分析用于对对象中异常数据的检测。
1.4数据挖掘过程数据挖掘主要分3个阶段:数据准备、数据挖掘、结果的评价和表达。
数据准备主要是完成对大量数据的选择、净化、推测、转换、数据的缩减,数据准备阶段的工作好坏将影响到数据挖掘的效率和准确度以及最终模式的有效性,在数据准备阶段可以消除在挖掘过程中无用的数据,从而提高数据挖掘的效率和准确度;数据挖掘的工作首先需要选择相应的挖掘实施算法,例如决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等,然后对数据进行分析,从而得到知识的模型;结果评价和表达主要是确定知识的模式模型是否有效以便发现有意义的模型<sup>[3]</sup>。
2数据挖掘主要方法2.1决策树法决策树法是数据挖掘的分类功能中一种比较常用的方法。
决策树法起源于概念学习系统CLS,然后发展到ID3方法,ID3算法是由Quinlan首先提出,该算法是以信息论为基础,以信息熵和信息增益度为衡量标准。
ID3算法的主要思想是:首先计算各属性的信息增益,然后选取具有最高增益的属性作为给定集合的测试属性。
所以造成ID3用信息增益选择属性时偏向选择取值多的属性,但是取值多的属性不一定找到最优解,为了克服此问题,出现了改进算法——C4.5算法<sup>[4]</sup>。
C4.5算法不但克服了ID3偏向选择取值多的属性这一缺点,还实现了对连续属性的离散化处理和对不完整数据的处理。
虽然C4.5算法在速度和预测精度等方面占有优势,但是由于C4.5在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,导致该算法在性能方面较为低效。
针对C4.5算法效率不高的问题,很多学者提出了针对改进措施:一种有效的C4.5的改进模型R-C4.5,该决策树模型通过合并分类较差的分支,减少了无意义的分支进一步的划分,有效避免了碎片的产生,在保持模型预测准确率的同时,有效改进了树的健壮性<sup>[5]</sup>。
而从C4.5在连续值属性离散化方面的局限性来看,C4.5算法在对连续值属性进行离散化处理时,为了找到较好的划分点,C4.5算法需要测试所有潜在的划分信息增益,这样就大大降低了该算法分类的效率。
基于Fayyad和Irani对C4.5算法的改进,调整了其对连续值属性惩罚的基础,指定一个阈值a,通过 a 值的判定与增益率的判定,决定是否继续构造节点<sup>[6]</sup>。
此外,考虑到有新样本添加到数据库中的情况,按照C4.5算法,需要对所有的样本进行重新学习,这样会造成大量时间的浪费,所以在此提出一种增量学习方法,最大限度地保留决策树中的原本分支及分类结果,减少了计算量<sup>[7]</sup>。
2.2关联规则法关联模式中最著名的是Apriori算法,它是由R.Agrawal等人首先提出来的<sup>[8]</sup>,其算法思想是:首先找出频繁性至少和预定义的最小支持度一样的所有频集,然后由频集产生强关联规则。
最典型的例子就是沃尔玛尿布和啤酒事件,在此例中,商家就是利用统计这两种商品在一次购买中共同出现的频数,将出现频数多的搭配转化为关联规则<sup>[9]</sup>。
Apriori算法的实现是通过对数据库D的多次扫描来发现所有的频繁项目集。
在每一次扫描中只考虑具有同一长度的所有项目集,在进行第一次扫描中,Apriori算法计算D 中所有单个项目的支持度,生成所有长度为1的频繁项目集;在后续的每一次扫描中,首先以K-1次扫描所生成的所有项目集为基础产生新的候选项目集,然后扫描数据库D,计算这些候选项目集的支持度,删除其支持度低于用户给定的最小支持度的项目集;最后,生成所有长度为K的频繁项目集。
重复以上过程直到再也发现不了新的频繁项目集为止。
由此可见,若要提高Apriori算法的效率,可以减少对数据库的扫描次数或者减少不必要的频繁项目集的生成<sup>[10]</sup>,对Apriori算法的改进主要方法有:①基于划分的方法:其基本思想是:对于整个交易数据库而言,如果一个项集是频繁项集,那么它必然有这样的结果,即至少在一个分割的部分内它是频繁的;②基于抽样的方法:首先从数据库中抽取一个样本并生成该样本的候选项集,当然希望这些项集在全局数据库中是频繁的,在接下来的一次扫描中,算法将统计这些项集确切的支持度以及负边界的支持度。
如果在负边界中没有一个是频繁的,那么算法将找到所有的频繁项集,否则,负边界中的项集有可能是频繁项集;③增量更新方法:其基本思想是使用该技术来对所发现的频繁项集和相应的关联规则进行维护,以便在数据库发生变化时避免对所有的频繁项集和相应的关联规则重新进行挖掘分析,即只对发生变化的那部分数据进行关联分析;④概念层次的方法;⑤基于散列和压缩技术的方法<sup>[11]</sup>。
所以也有很多学者对Apriori算法进行了改进,例如,对Apriori的改进算法AprioriTid算法,在AprioriTid算法中仅在第一次扫描时用事务数据库D计算候选频繁项目集的支持度,其他各次扫描用上一次扫描生成的候选数据库D’来计算候选频繁项目集的支持度,减少了I/O的操作时间,提高了算法的效率<sup>[8]</sup>,此外,在对Apriori的改进算法中,基于新的数据结构和改进了的产生候选集的连接方法,也实现了对事物挖掘上优于Apriori算法的效率<sup>[12]</sup>。
针对Apriori算法的固有缺陷,J.Han等提出了不产生候选挖掘频繁项集的方法:FPtree频集算法。
FPtree频集算法采用分而治之的策略,第一遍扫描的过程中把数据库中的频集压缩进一棵频繁模式树(FPtree),同时依然保留其中的关联信息,随后再将FPtree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘,当原始数据量很大的时候,才可以结合划分的方法,使得一个FPtree可以放入主存中,实验表明,FPgrowth 对不同长度的规则较之Apriori算法有巨大的提高。
2.3神经网络法神经网络具有结构复杂、网络训练时间长、结果表示不容易理解等缺点,但其对噪声数据的高承受能力和低错误率,神经网络具有较好的并行性,这些优点是其他方法所不及的,而且各种网络训练算法的陆续提出与优化,尤其是各种网络剪枝算法和规则提取算法的不断提出与完善,使得神经网络在数据挖掘的应用中越来越受到大家的青睐<sup>[13]</sup>。
其中使用较为广泛的有多层前馈式(multilayer feedforward)神经网络和后向传播(backpropagation,BP)神经网络。
多层前馈式神经网络迭代学习用于元组类标号预测的一组权重,而BP神经网络搜索一组权重,这组权重可对数据建模,使得神经元组的网络类预测和实际类标号之间的均方距离最小,可用于语言综合、语音识别、自适应控制等<sup>[14]</sup>。
现在已经提出来一些神经网络方面的数据挖掘算法改进,用以弥补神经网络结构复杂、网络训练时间长、结构表示不易理解等不足,比如,提出的基于模糊神经网络的数据挖掘算法,把模糊理论和神经网络结合起来构造、训练模糊神经网络<sup>[15]</sup>。
3研究现状随着海量数据的增加,大数据时代的到来,导致人们对数据的研究和利用越来越多,其中数据挖掘技术的不断进步和发展也给整个世界信息的发展带来了许多成果。