网络用户的网页访问行为分析架构

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2018年9月25日第2卷第9期

现代信息科技

Modern Information Technology Sep.2018

Vol.2No.9

15网络用户的网页访问行为分析架构

张雁,刘才铭

(乐山师范学院计算机科学学院,四川乐山 614000)

摘要:浏览网页是互联网用户的重要上网行为,分析网络用户的网页访问行为可以为优化网络管理提供依据。本文建立了一种网络用户的网页访问行为的分析架构,以访问网页时产生的网络数据流为数据源,分析网页数据包的传输规律,通过网络活动的关键特征信息构建网页访问行为,从网页访问行为历史记录信息中生成新的网页访问行为类型,采用网页访问行为特征库识别网页访问行为类型。

关键词:网页访问行为;网页数据包;行为分析;行为特征;行为记录

中图分类号:TP393 文献标识码:A 文章编号:2096-4706(2018)09-0015-03

Analysis Architecture for Web Page Browsing Behavior of Network Users

ZHANG Yan,LIU Caiming

(School of Computer Science,Leshan Normal University,Leshan 614000,China)Abstract:Browsing web pages is an important behavior of surfing the internet to network users. The analysis of web page browsing behaviors of network users can provide bases for the optimization of network management. An analytical architecture for web page browsing behavior of network users is constructed in this paper. The regular pattern of transmitting web page packages is analyzed with the data source which are network traffics generated by browsing web pages. Web page browsing behaviors are constructed through key features of network activities. New classes of web page browsing behaviors are sought out from the historical behavior records. The behavior type is recognized through the behavior feature library.

Keywords:Web page browsing behavior;Web page package;behavior analysis;behavior feature;behavior record

0 引言

访问网页是网络用户频繁产生的网络活动,这些网页访问活动反映了用户使用互联网的情况,它们构成了特定的网页访问行为。网页访问行为表现为网络用户访问网页的活动及其动态变化规律,可以按照访问的网页内容对其进行分类,而网页访问行为的类型就隐藏在访问网页时形成的网络数据流中。

网页表现为一个或多个HTML(超文本标记语言)文件,HTML是网页内容架构的基础,它将文本、图形、语音、视频、邮件等资源包罗其中,让用户能够便捷地实现互联网访问。在W3C(万维网联盟)于2014年10月公开发布HTML5标准(HTML第5版)[1]后,更多的应用被移植到网页上,尤其是在移动互联网领域,基于网页的移动终端APP更是得到了快速的发展,这促使网页数量和网页访问活动数量迅猛增加。

网站是网页运行的载体,它已成为互联网最关键的应用之一。中国互联网络信息中心(CNNIC)于2017年1月发布《第39次中国互联网络发展状况统计报告》,该报告指出,截止2017年12月,我国的网站数量约为533余万个,年增长10.6%,而网页的数量更是惊人,已超过2600亿个,年增长10.3%[2]。

与日俱增的网页访问活动构成了重要的用户上网行为大数据,它反映了用户的常用互联网内容使用情况,对网页访问行为进行有效的分析,可以为网络管理提供科学的依据,还可以为网络行为的安全审计提供数据来源。分析网页访问行为的方法主要有以下几个方面:以网页访问日志为基础分析用户浏览行为习惯[3]、挖掘分析网站的运行日志文件发现用户访问行为特征和潜在规律[4]、抽取网页的HTML源代码特征进行分析[5]。目前还缺乏通过访问网页时产生的网络数据流分析网页访问行为的方法,也没有通用的分析架构。

本文建立了一种网页访问行为分析的架构,该架构以网络数据流为数据基础,通过提取网页数据包的关键特征信息,构建反映用户真实网页访问活动的网页访问行为数据,同时,分析网页访问行为的记录数据,识别网页访问行为的类型,从而发现网络用户访问网页的活动规律。

1 分析架构

本文以网络用户访问网页时产生的网络数据流为数据基础,分析网页访问行为信息,目的在于识别出用户访问网页的行为类型,其分析架构如图1所示。该架构由5个操作模

收稿日期:2018-06-14

基金项目:四川省应用基础研究计划项目(省部级)“基于免疫的大规模网络行为异常检测技术研究”(项目编号:2015JY0105);四川省教育厅科研项目(市厅级)“基于免疫的网页访问行为模式构建和识别技术研究”(项目编号:18ZA0233)。

第9期现代信息科技

16

块和2个数据库组成,前者包含网络数据捕获模块、网页特征抽取模块、网页访问行为构建模块、网页访问行为匹配模块和网页访问行为学习模块,后者包含网页访问行为特征库和网页访问行为记录库。

网络数据流

图1 网页访问行为分析架构

整个架构的运行流程和数据库含义将在下面的小节中进行介绍。

1.1 网络数据捕获

网络数据捕获模块获取网络数据流,并筛选出用于网页通信的网络数据包。针对个人用户访问网页的行为分析,需要捕获用户本机的网页数据流。针对群体用户访问网页的行为分析,可以在用户所在计算机网络的关键网络设备上设置镜像端口,从该端口接入网络数据捕获模块,并将捕获模式设置为混杂模式,即可获取该网络内所有的网页数据流量。网络用户访问网页时,用户客户端和Web 服务器之间采用应用层协议HTTP (超文本传输协议)进行通信,Web 服务器的默认端口号为80,有些也会设置为8080。在捕获报文时,可以通过判别这些端口号,来筛选出用于传输网页的网络数据包。

1.2 网页特征抽取

网页特征抽取模块对网页数据包进行预处理,将用于建立网页传输连接、断开网页传输连接、重复传输请求等网络数据包剔除,只留下传输实际网页内容的网页数据包,并抽取出这些网页数据包的关键特征信息。网页数据包里既含有网络层和传输层中的源/目的IP 地址、包长度、TTL 、包头校验和、协议类型、源/目的端口号等数据流特征信息,也含有HTTP 协议信息,例如:协议版本号、语言类型、浏览器类型、URL 、内容创建时间、主体对象类型、主体长度、标题内容等。在抽取网页数据包的特征信息时,必须考虑反映一个网页页面的主要特征,这些特征需要同时表达网页内容的关键信息和网络用户访问网页的活动信息,前者包含URL 、标题内容等,后者包含访问时间、浏览器类型等。

1.3 网页访问行为构建

网页访问行为构建模块以网页特征为基础,实时构建出网络用户浏览网页的行为数据,同时将构建的网页访问行为存入网页访问行为记录数据库。网页访问行为反映了用户访问网页的活动及其动态变化的规律,一个网页访问行为可能由用户访问一个或多个网页来实现。一个网页中可以嵌入丰富的文本、图片、多媒体、其他页面等信息,所以从数据流传输的角度来看,为了访问一个网页页面,

一般需要在客户端和Web 服务器之间传输多个网页数据包。构建网页访问行为就是要采用一种适合数据流分析的数学方法,对大量的网页数据包进行分析,从中发现网页数据包之间的关联,并识别其传输规律。最后提取出属于同一个网页访问活动的网页数据包的关键特征信息,并采用数学方法构建网页访问行为。

1.4 网页访问行为匹配

网页访问行为匹配模块以网页访问行为特征库为基础,识别网络用户的网页访问行为类型,并将不能识别的网页访问行为通知网络管理员,由网络管理员进行标注或由网页访问行为学习模块分析后加入网页访问行为特征库。网页访问行为构建模块形成的网页访问行为传至本模块后,采用高效、精确的特征匹配方法,将每条网页访问行为信息的关键特征与网页访问行为特征库的记录进行匹配操作,如果特征库中有满足匹配阈值的记录,则采用该记录定义的网页访问行为类型对用户的访问活动进行标记,否则标记为可疑行为,并通知网络管理员进行标注。

1.5 网页访问行为学习

网页访问行为学习模块采用特定的分析方法,对不能匹配的网页访问行为进行数据分析,以期识别出未知的网页访问行为类型。网络用户的大规模增长和基于网页的新应用的不断涌现,导致网页访问行为的类型也在不断变化,同时也使得一些未知的网页访问行为不能被网页访问行为特征库中的记录所识别。网页访问用户的历史访问记录都存储在网页访问行为记录数据库中,该数据库中蕴藏了所有的网页访问活动信息,通过构建合适的机器学习方法,可以从这些历史记录中挖掘出特定的网页访问行为类型信息。当识别出新的网页访问行为类型后,将其存入网页访问行为特征库中,以供网页访问行为匹配模块识别网页访问活动信息。

1.6 网页访问行为特征库

网页访问行为特征库存储网页行为类型的特征数据,

其数据为网页访问行为匹配模块识别用户访问网页的行为类型提供依据。该库中的每条记录都映射了一个网页访问行为类型,它包含了用户访问网页活动的规律信息,其初始数据来自经典的网页访问行为特征。为了获取经典的网页访问行为特征数据,可以搭建精心设置的网络环境,禁止额外网络活动的发生,让用户按照特定行为类型访问设置的网页,模拟真实的网页访问行为,通过上述网络数据捕获、网页特征抽取和网页访问行为构建功能捕获网页访问行为特征数据,并为这些特征数据标注网页访问行为类型。另外,网页访问行为学习模块识别出的网页访问行为类型,也存入网页访问行为特征库,这为发现网页访问行为类型提供了动态性。

1.7 网页访问行为记录库

网页访问行为记录数据库存储用户的网页访问行为的历史信息,它包含了所有发生过的网页访问行为。该库中的数据全部来自网页访问行为构建模块产生的网页访问行为,其每条记录都包含了一个网页访问行为的特征信息,但该信息中并没有具体的行为类型。网页访问行为记录数据完整体

相关文档
最新文档