电商系统中的数据分析方法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
电商系统中的数据分析方法研究
- 课题研究意义
随着Internet 技术的不断发展与成熟,电子商务这一现代商业模式以其高效率、低成本和不受时空限制的特点成为企业商务活动发展的大势所趋。电子商务的迅速发展导致诸多问题也随之出现。如今所有企业面临的一个共同问题就是尽管电子商务系统收集了相当大量的数据,然而能够得到的、真正有价值的信息却非常少。如何对这些信息进行有效的组织与利用,从海量的数据中获得有利于商业运作、提高竞争力的信息是企业亟待解决的焦点问题。
本文旨在通过对电子商务中数据挖掘技术的研究,针对不同的挖掘目的,发现并选择适当的数据挖掘算法或模型。将研究数据挖掘技术在电子商务各个方面的应用,其数据挖掘技术是分别针对不同的挖掘任务设计的,需要根据具体的应用选择适当的挖掘技术,以使面向电子商务的数据挖掘研究更加具体。多种挖掘技术与电子商务系统有机的融合,可以为电子商务活动争取最大的收益提供源源不断的动力。
- 国内外研究现状评述(恰当地标明参考文献)
数据挖掘是用于大规模数据处理的一种思维方法和技术手段,是在各种数据成指数级增长和以数据库技术为核心的信息技术逐渐成熟的背景下产生的。随着数据挖掘在各领域的广泛应用,数据挖掘技术所要解决的问题主要包括算法效率亟待提高;适应多数据类型、容噪的挖掘技术;动态数据和知识的挖掘技术,以解决大量的、异质数据集的以及网络与分布式环境下的数据挖掘问题等。数据挖掘是面向应用的,也只有将数据挖掘技术应用到大量的、复杂的数据中去,对数据挖掘技术研究的价值才能得到最佳体现。
电子商务的发展使得越来越多的企业开始网上交易,电子商务网站的服务器日志、后台数据库中客户相关的数据以及大量的交易记录等数据资源中所蕴涵的大量的有益信息有待于充分地挖掘和利用。无疑电子商务是数据挖掘应用的最佳对象,面向电子商务的数据挖掘是Web 挖掘的典型应用。与国外相比,国内对数据挖掘技术应用的研究稍晚,从事研究工作的人员主要集中在大学或研究所,研究领域一般集中于算法以及有关数据挖掘理论方面的研究。
目前,数据挖掘技术在电子商务网站设计中的应用研究集中在优化网站链接结构、页面实时推荐以及个性化站点设计等方面。由于用户在网站上的访问行为被Web 服务器以日志形式保存,对Web 日志进行挖掘以发现用户访问模式来优化网站设计自然成了这一领域的主流。Mobasher 等人提出基于关联规则和聚类分析的页面推荐算法(参考文献:(Mobasher B, Dai H, Luo T, et al. Effective personalization based on association rule discovery from web usage data[A]. Mobasher Bed. 3rd Int Workshop on Web Information and Data Management (WIDM 2001)[C]. New York: ACM Press, 2001. 9-15)和(Mobsher B. WebPersonalizer: a server2side recommender system based on web usage mining [EB/OL]. http:∥www. cs. depaul. edu/ research/ technical. asp, 2001)),可用于建立个性化推荐网站。Bose等人在文献(ose P, Kranakis E, Krizanc D, et al Strategies for Hotlink As signments[C]. In: Proc 11 th Symp. on algorithms and computation (ISAAC 2000), 2000: 23-34)中首先提出通过增加hotlink 优化站
点结构的方法。在此基础上, Fuhrmann 等人在文献(Fuhrmann S, Krumke S O, Wirth H C. Multiple Hotlink Assignment[C]. In: Proceedings of the Twenty-Seventh International Workshop on Graph-Theoretic Concepts in Computer Science, Rostock, Germany, 2001)中使用该方法优化站点链接结构,即通过有限的hotlink 的增加最小化权重较高的节点与根节点之间的路径距离。文献(Cooley R, Tan P N, Srivastava J. Discovery of Interesting Usage Patterns from Web Data[C]. In: Web Usage Analysis and User Profiling Workshop (WEBKDD.99), Berlin: Springer, Verlag, 2000:163-182.)中Cooley 等人基于用户访问频繁路径定义频繁项集的兴趣度,将有较高兴趣度的路径作为改进站点结构的参考。文献(Wu E H C, NgM K, Huang Z X. On Improving Website Connectivity by Using Web-Log Data Streams[C]. The 9th International Conference on Database Systems for Advanced Applications (DAS-FAA), Jeju, Korea, 2004.)中Edmond 等人则将兴趣度指标引入基于会话的序列模式中,但并非用来修改网站结构,而是以此提出能够降低搜索这些指标的超链接的算法。
国内许多学者也提出了在Web 日志挖掘中引入聚类分析、关联规则、序列模式等挖掘算法对Web 站点进行改进的优化方法,如文献(井福荣,谢辅雯.关联规则在网站结构优化中的改进算法[J].计算机系统应用,2007(1): 44-46, 50.)探讨了关联规则的改进算法在网站结构优化中的引用,文献(程舒通,徐从富,但红卫.基于频繁序列模式压缩技术的网站结构优化[J].计算机工程与应用,2007. 43(30): 133-135.)应用的是基于频繁序列模式压缩技术的网站结构优化方法,而文献(夏敏捷,张锦歌.在Web 日志挖掘中应用聚类改进网站结构的研究[J].中原工学院学报,2005,16(6):39-41)中则是基于Web 日志挖掘的聚类分析算法在改进网站结构的分析研究。还有一些学者提出了应用Web 日志挖掘的其它方法。文献(邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003)也提出了利用Web 日志挖掘发现不符合用户期望位置的页面的算法,并应用该方法对站点链接结构进行调整。文献(郭新涛,梁敏,阮备军.挖掘Web 日志降低信息搜寻的时间费用[J].计算机研究与发展, 2004 (10):1737-1747)则提出了一种通过查找用户历史路径,统计找到目标页面的时间,从而寻找一组最优路径使搜寻目标页面时间最短的方法,同样也是通过挖掘Web 日志增加必要的超链接。文献(Zhu J H, Hong J, Hughes J G. PageCluster: Mining Conceptual Link Hierarchies from Web Log Files for Adaptive Web Site Navigation[J]. ACM Transactions on Internet Technology, 2004, 4(2):185-208)还提出了一种基于Web 日志挖掘的自适应站点导航方法,其目的也是为了缩短用户搜索资源的时间。
CRM 经历若干年的发展,在电子商务兴起之后,两者便结合在了一起。近几年来专门的CRM 系统在欧美国家的很多企业都已经得到使用,国内许多企业也开始重视现代的营销理念和商业运作方式走向了CRM 的使用,也使得国内外对于数据挖掘在的CRM 中的研究具有非常广泛的价值,对于CRM 的客户识别、客户细分及客户保持等几个主要方面应用数据挖掘算法及模型的研究极大地推动了该数据挖掘在领域应用的进展。在国际学术界的学者们主要利用数据挖掘技术的相关算法建立基于市场的客户细分模型。
当然对其他方法在网络营销数据应用的研究文献也有很多,如对关联分析、序列模式分析、分类分析和聚类分析及其相关算法的应用,但多与客户关系管理中对客户的群体聚类、客户细分以及客户的保持策略相结合。结合对客户相关数据分析,有效地识别客户偏好及购买模式,形成对客户以往行为的认知和未来行为的预测,有的放矢的实施营销策略或对营销策略进行组合,将是数据挖掘技术在客户关系管理和网络营销领域有待进一步探索的方向。电子商务中的客户关系管理和营销管理涉及大量且复杂的客户信息以及与交易相关的各种数据信息,直接应用挖掘技术不仅难以对数据进行有效地处理,其结果也将难以理解甚至造成不堪的后果。
数据仓库解决方案以及与OLAP 技术的结合也是目前数据挖掘领域的研究热点,经过