关联规则算法与应用论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关联规则算法的研究与应用
摘要:目前人们已经研究出了多种类型的关联规则挖掘算法,并将之成功地应用于诸多领域,本文就关联规则算法进行了研究与分析并将其应用于网上招聘系统之中,通过对系统数据库中的数据进行分析、对比,并且对挖掘的结果作出了解释,从中发现应聘者的被录用规律,为有关部门的决策提供有用的信息,对本研究领域具有一定的帮助。
关键词:关联规则;网上招聘系统;数据
0引言
关联规则是由agrawal等人在1993年首次提出并成功将其应用于“购物篮”分析之中。由于此类型规则的直接应用价值与可能产生的经济效益,极大地刺激与推动了数据挖掘这一新兴学科的形成。目前人们已经研究出了多种类型的关联规则和关联规则挖掘算法,并将之成功地应用于诸多领域。本文通过引入数据挖掘中的的关联规则对网上招聘系统中的数据进行分析、对比,从中发现求职者的被录用规律。
1 关联规则概述
1.1 关联规则挖掘概述
关联规则挖掘是指发现大量数据中项集之间的有用的关联或者有相关联系的,从大量的事务记录之中发现有用的关联关系,可以帮助商务决策的制定。近些年来,由于数据的大量增加,数据库的规模也在不断增大,关联规则挖掘算法的研究就显得尤为重要[1]。
1.2 关联规则的定义
1.3 关联规则的性质
关联规则具有以下四个性质[3]:
性质1 关联规则有非结合性
性质2 关联规则有不可分解性
性质3 关联规则有不可传递性
性质4 关联规则有可扩展性
1.4 关联规则的挖掘步骤
关联规则的挖掘步骤主要包含以下两个:
⑴发现所有的频繁项集
通过用户给定的最小支持度,寻找所有频繁项集,即满足support不小于最小支持度的所有项目子集。这些频繁项集可能具有包含关系。一般地只关心那些不被其他频繁项集所包含的所谓的最大频繁项集的集合。发现所有的频繁项集是形成关联规则的基础
[4]。
⑵生成关联规则
通过用户给定的最小置信度,在每个最大频繁项集中,寻找confidence不小于最小置信度的关联规则[5]。
关联规则挖掘的基本模型如图1所示[6]。
2 网上招聘系统原型
本文收集了网上招聘系统2年的数据,此系统中可供挖掘的模块包括四个分别为:招聘信息模块、公司信息模块、应聘信息模块
和人材信息模块。模块的主要信息如下:
⑴招聘信息模块
公司发布的招聘信息主要包括招聘人才的学历、工作经验、外语语种、外语等级、性别要求、职位类型、职位种类、专兼职等信息。
⑵公司信息模块
公司相关信息主要包括公司名称、公司类型、企业人数、企业性质、地点等信息。
⑶应聘信息模块
人才对公司发布的招聘信息发布的求职信息或公司对人才发出的应聘信息。
⑷人材信息模块
人才的相关信息主要包括姓名、专业、学历、工作经验、年龄、薪金要求等信息。
3 网上招聘系统挖掘结果
关联规则算法对企业的招聘过程进行挖掘,并得出结论。
从表1规则a中得出:国有企业中大学本科学历的比例较多;规则b和c得出独资企业与三资企业中大专学历的比例较多;规则d得出有2至5年工作经验的人更容易就业;规则e得出有英语特长的应聘者更容易就业;规则f得出招聘市场销售人员的企业较多;规则g与h得出本科学历的应聘者比专科学历的应聘者更易就业。
4 结束语
在使用关联规则挖掘技术对网上招聘系统的数据库进行挖掘的过程时,发现了一些平时不能引起人们注意的因素与规则,给学生选择专业的方向予以正确引导,克服了学生在选择专业时的盲目性,优化了专业结构,为提高学生的就业率提供了帮助。
参考文献:
[1] jiawei han,micheline kamber. data mining: concepts and techniques [m]. translatedby fan ming,meng
xia-fen.beijingchina machine press,2001.160-161.
[2] 赵卫绩,赵文正,刘井莲.基于sql的apriori改进算法[j].科学技术与工程,2006,96 (17): 2759~2761.
[3]ji gen lin,yang ming,song yu qing,sun zhi hui. fast updating maximum frequent itemsets[j]. chinese journal of computers.2005,1(1):128~135.
[4] 刘大有,刘亚波,尹治东.关联规则最大频繁项目集的快速发现算法[j].吉林大学学报(理学版).2004,(4):212~215.
[5]lin jie-bin,liu ming-de.chen xiang.data mining and olap theory and practice [m].beijing:tsinghua university press,2003.156-170.
[6] gui hai-xia; meng xiang-rui.research on efficient algorithm of association rules mining based on apriori algorithm[j].journal of anhui university of science and technology(natural science), 2009(04).
基金项目:国家统计局课题项目(2011ly092)
渭南师范学院科研计划项目(12ykz044)
作者简介:陈君(1982-),女,陕西西安人,硕士,研究方向为数据挖掘与数据库技术。