基于Web日志的数据挖掘技术在Web机器人识别中的研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

H T T P /  ̄ . 1
2 0 0
3 1 4 9
O 8 / A u g / 2 0 1 3
1 0 : 17 : 23
G E T
h t t p / w w w . s y x m t . C O O L c n / h o u s i n g . p h p
科 学技术
基于W e b 日志 的数据挖掘技术在W e b 机器人识 别 中的研 究
王 利 源
( 沈 阳理 工大 学 ,辽 宁 沈 阳 l 1 0 0 0 0 )
摘 要 :数据挖掘是从大量数据 中发现人们未知的、感兴趣的、隐藏的知识。数据挖掘w e b 服务器 日志记录具有 良好的结构,非常有利于数据挖 掘。由TW e b  ̄务器 日志记录具有 良好的结构,因此,作为w e b 使用挖掘 的一个分支,W e b 日志数据数据挖掘 ,具有独特 的理论和实践意义。本文利用 决策树分类法,对w e b 服务器上保存的w e b 日志进行数据挖掘 ,通过对 日志中所保存的信 息进行分析,总结出正常用户和W e b 机 器人访 问网页的模 式特
Baidu Nhomakorabea
请求 页面
h t t p / w w w . s y x m t . C O I n . C n
h t t p / w w w . s y x m t . c o m . c n / s e r v e r / p r 0 d u c e .
协议
H T T P / 1 . 1
状态
表1 . w e b 服 务器 日志样 本
会话


S E R V E R / p r o d u c t . p t I p
图1 . W e b 会话
I P

时间戳
0 8 / A u g / 2 0 1 3 1 0
: 1 5 : 2 1
请求方法
G E T
H T T P / 1 . 1
2 0 0
7 4 6 3
各次作业有效宽度因重叠量而减少。相邻作业面 间的最小重叠量不小 于1 0 0 m m ,并且纵 向接缝 的位置 应尽量避开缓慢行驶 的重 型车辆 的轮
迹。
2 )横 向接 缝处 理
因每次施 工开始或终止而形成 的横 穿作业面的横向接缝是不连续 的,每次停机将形成一个严重影响再生材料均匀性 的横缝 。因此,应 要求施工单位在施工 中尽量减少停机现象,在不可避免时 ,应要求进 行如下处理 :整个再生机组应倒退 l _ 5 2 . 0 m 的距离到达再生过的再生 材料上,以保证开始施 工后所有材料均得到处理。 ( 4 )碾压时主要注意 以下事项: 平地机对再生层进行找平后 ,在最佳含水量时进行碾压: 1 )碾压 时如发现局部混合料有松散 或开裂时 ,应挖 除并换 补新 料,整平后继续碾压压实 。修补处应保证路面的平整度 。 2 )碾压时应根据天气及再生料含水量的实际情况,随时洒水 。 3 )碾压时压路机的轮迹重叠1 / 2 轮迹 。 4 )碾压时要从路 的边缘向路 中间进行碾压,在碾压过程中要保持 压路机匀速前进 ;压路机 的选择遵循先轻后重 ,先慢后快的原则 ( 5 )冷再生基层 的质量控制
G E T
p h p
l t T T P / 1 . 1
2 0 0
1 O 1 8 5 4 6

0 8 / A u g / 2 0 1 3 1 0
: 1 6 : 1 1
G E T
h t t p / w w w . s y x mt . c 0 n c n / h o u s i n g . p h p
点。
关键词 :数 据挖 掘 ;W e b 日志 挖掘 ; 决策 树
0 . 引 言 W e b ]  ̄ 务 器通 常保存 了对W e b 页面 的一次访 问的 目志项 ( W e b日
的归纳推理算法之一,非常适合对W e b 日志的数据挖掘。
志 )。它包括了所请求 的U R L ,发 出请求的I P 地 址和时间戳 。对于W e b 服务器,其上保存了大量 的W e b 访 问日志记录。对热点的W e b 站点每天 可 以记录下数 以百兆 的记录,这些为数据挖掘提供了有关W e b 动态 的丰 富 的信息 ,因此研究复杂的W e b 日志挖掘技术是十分重要的。W e b 数据 挖掘技术 ,从W e b日志 中提取有用的模式,这些模式能够揭示站点访 问 者的某些特性 [ 1 ] 。 1 . 决策树 的建立 W e b 机器人 ( W e b 爬行者 )是一个软件程序,它可以跟踪 嵌入 网页 中的超链接 ,定位和获取I n t e r n e t 上 的信息 。这些程序安装在搜 索引 擎 的入 口,收集索 引网页必须的文档。在应用W e b 挖掘技术分析人类的 浏览习惯之前,必须过滤掉W e b 机器人 的访问。 决策树是一种构建分类模 型的非参数方法 ,它不要求任何先验建 设,不假定类和其它属性服 从一定的概率分布 [ 2 ] 。它具有 分类 精度 高,生成模式简单 ,对噪声数据有很好的健壮性 。是 目前应用最广泛
H T T P / 1 . 1
2 0 0
4 1 3 7 8
l 1
2 2 1 . 2 0 0 . 1 6 4 , 8 3 5 . 9 . 2 . 2
0 g / A u g / 2 0 1 3 1 0
: 1 6 : 1 5
G E T
h t t p / w  ̄. s y x m t . C O L D . C n
2 0 0
字节数
6 4 2 4
2 2 1 . 2 0 0 . 1 3 3 . 4 9
2 2 1 . 2 0 0 . 1 4 8 . 5 3 2 2 1 . 2 0 0 . 1 3 3 . 2 5
0 8 / A u g / 2 0 1 3 1 0
: 1 5 : 3 4

底 基层、垫层及路基 。采用冷再生技术施 工后 的基层承载能力有所 提 高,但 并不 能从根本上改变路的承载能力 。冷再生工艺结构层设计厚 度 为2 5 c m ,弯沉盆 的影响范围影响可达8 0 c m 。因此 ,施工过程中的压 实度及七天无侧限强度的检测成了重中之重 。 ( 6 )养生及交通管制 在冷再生基层施工结束后,进 行洒水养生 。养生的合格标准是: 结构层表面始终保持潮湿 ,不可忽干互湿。养 生期间应封 闭交通。施 工车辆行驶速度不得超过3 0 k m / h 。
相关文档
最新文档