基于权值优化的网页正文内容提取算法_吴麒

合集下载

网络爬虫 1

网络爬虫 1
广度优先搜索策略
广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。
编辑本段网页分析算法
网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。
基于网络拓扑的分析算法
基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。 1 网页(Webpage)粒度的分析算法 PageRank和HITS算法是最常见的链接分析算法,两者都是通过对网页间链接度的递归和规范化计算,得到每个网页的重要度评价。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在,但忽略了绝大多数用户访问时带有目的性,即网页和链接与查询主题的相关性。针对这个问题,HITS算法提出了两个关键的概念:权威型网页(authority)和中心型网页(hub)。 基于链接的抓取的问题是相关页面主题团之间的隧道现象,即很多在抓取路径上偏离主题的网页也指向目标网页,局部评价策略中断了在当前路径上的抓取行为。文献[21]提出了一种基于反向链接(BackLink)的分层式上下文模型(Context Model),用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页,将网页依据指向目标网页的物理跳数进行层次划分,从外层网页指向内层网页的链接称为反向链接。 2 网站粒度的分析算法 网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算。SiteRank的计算方法与PageRank类似,但是需要对网站之间的链接作一定程度抽象,并在一定的模型下计算链接的权重。? 网站划分情况分为按域名划分和按IP地址划分两种。文献[18]讨论了在分布式情况下,通过对同一个域名下不同主机、服务器的IP地址进行站点划分,构造站点图,利用类似PageRank的方法评价SiteRank。同时,根据不同文件在各个站点上的分布情况,构造文档图,结合SiteRank分布式计算得到DocRank。文献[18]证明,利用分布式的SiteRank计算,不仅大大降低了单机站点的算法代价,而且克服了单独站点对整个网络覆盖率有限的缺点。附带的一个优点是,常见PageRank 造假难以对SiteRank进行欺骗。? 3 网页块粒度的分析算法 在一个页面中,往往含有多个指向其他页面的链接,这些链接中只有一部分是指向主题相关网页的,或根据网页的链接锚文本表明其具有较高重要性。但是,在PageRank和HITS算法中,没有对这些链接作区分,因此常常给网页分析带来广告等噪声链接的干扰。在网页块级别(Block?level)进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(page block),然后对这些网页块建立page?to?block和block?to?page的链接矩阵,?分别记为Z和X。于是,在page?to?page图上的网页块级别的PageRank为?W?p=X×Z;?在block?to?block图上的BlockRank为?W?b=Z×X。?已经有人实现了块级别的PageRank和HITS算法,并通过实验证明,效率和准确率都比传统的对应算法要好。?

文章内容提取的实用方法

文章内容提取的实用方法

文章内容提取的实用方法在信息爆炸的时代,我们每天都会接触到大量的文章,无论是工作中的报告、学术研究的文献,还是网络上的各种资讯。

如何从这些纷繁复杂的文字中快速、准确地提取出关键内容,成为了一项至关重要的技能。

下面,我将为您介绍一些实用的文章内容提取方法。

一、明确提取目的在开始提取文章内容之前,首先要明确自己的提取目的。

是为了获取主要观点?还是寻找特定的信息?亦或是为了总结归纳?不同的目的决定了我们关注的重点和提取的方式。

例如,如果您是为了写一篇综述文章,那么您需要提取多篇相关文章的核心观点和重要论据;如果您是为了解决某个具体问题,那么您应该着重寻找与问题直接相关的解决方案和相关数据。

二、快速浏览文章结构拿到一篇文章后,不要急于逐字逐句阅读,而是先快速浏览文章的标题、目录、段落小标题、开头和结尾等部分,了解文章的大致结构和主要内容。

标题往往能够反映文章的主题;目录可以让您对文章的框架有一个清晰的认识;段落小标题则提示了各个部分的重点;开头通常会引出主题并阐述文章的背景和目的;结尾则可能会总结主要观点或提出展望。

通过对这些部分的浏览,您可以初步判断文章的价值和与自己需求的相关性,从而决定是否需要进一步深入阅读。

三、抓住关键语句在阅读文章的过程中,要善于抓住关键语句。

关键语句通常包括中心句、总结句、过渡句等。

中心句一般能够概括段落的主要内容,往往出现在段落的开头或结尾;总结句则对整篇文章或某个部分进行总结归纳;过渡句起到承上启下的作用,能够帮助您理解文章的逻辑关系。

例如:“综上所述,……”“由此可见,……”“然而,……”等都是常见的关键语句的标志。

四、标注重点内容为了便于后续的整理和回顾,可以在阅读时使用不同的符号或颜色标注重点内容。

比如,用下划线标注重要的观点,用波浪线标注关键的数据,用圆圈标注需要进一步思考的问题等。

这样,在提取内容时,您可以快速找到标注的部分,提高工作效率。

五、提取核心概念和关键词核心概念和关键词是文章的精髓所在。

绿色网络网页正文内容提取算法

绿色网络网页正文内容提取算法
分类号: T P 3 0 1 . 6
绿 色网络 网 页正 文 内容提 取 算 法
龙 珑1 ,邓 伟
( 1 . 广 西师范 学院 计算机 与信 息工 程学 院 ,南 宁 5 3 0 0 2 3 ;2 . 广西 肿瘤 防治研 究所 ,南宁 5 3 0 0 2 1 )
po o r c o n t e n t . I n o r d e r t o s o l ve t hi s pr o b l e m, t hi s p a p e r p r o po s e s a t e x t c o n t e n t e x t r a c t i o n a l g or i t h m f o r g r e e n n e t wo r k we b pa g e . I t u s e s t h e
il f t e r h a r mf u l We b p a g e s .Ex pe r i me n t a l r e s u l t s s h o w t ha t ,a te f r op t i mi z e d b y n e w a l g o r i t hm,t he a c c u r a c y r a t e of i de n t i f y i n g h a r mf u l
we b p a g e i s 8 6 . 9 %, t h e r e c a l l r a t e i s 9 5 . 6 %, t h e F v a l u e i s 9 1 . 0 2 %, a n d i s h i g h e r t h a n b e f o r e o p t i mi z a t i o n .
络 系统对 不 良 网页 的识 别准确 率 为 8 6 . 9 %,召 回率 为 9 5 . 6 % ,F值 为 9 1 . 0 2 % ,比优 化前 有较大 提高 。

计算机学院毕业设计(论文)题目上报格式

计算机学院毕业设计(论文)题目上报格式

刘锐讲师小型电子商务网站的规划与设计1、网站具备的基本功能:用户注册、公司简介、产品目录、商品展示、订购及查看购物车等。

2、网站更新要求才用后台管理管理的方式。

3、主页要求:清纯简洁、主题鲜明、内容编排得当合理、有一定的艺术感,美观、实用,相关链接正常,能体现网站首页的基本功能。

刘锐讲师基于Web在线辅导答疑系统的设计与实现基于Web的多媒体在线答疑系统的功能及实现方法进行了讨论,并给出了实际的解决方法.刘锐讲师基于和Access开发人事信息管理系统用和Access数据库开发一个人事信息管理系统刘锐讲师P2P协议研究与实现研究P2P协议,并给出一个实现的例子刘锐讲师嵌入式浏览器开发研究研究嵌入式浏览器开发所涉及到的技术,对HTML词法分析、浏览器JavaScript支持、linux和gtk编程等做相应的分析,并分析某种浏览器的主要模块的功能和组成,并给出主要算法。

刘锐讲师基于.NET的短信平台系统设计与开发设计一个基于.NET的短信平台系统刘锐讲师XML在电子商务中的应用研究XML在电子商务中的应用,并给出一个实例方义秋副教授重、选修实践课程管理系统要求对重修、选修学生的实践课程进行申请、确认、成绩登记、查询等管理。

方义秋副教授虚拟实验设计 1.设计常用I/O接口芯片的内部结构图及外引角图。

2.设计合理的接口,利于动态调试时,能动态显示控制信号、数据等流向。

方义秋副教授机房开放管理系统设计在机房面向学生开放时,对学生和老师的管理。

方义秋副教授实验报告网上批阅的研究与设计对学生提交的实验报告自动进行批阅的可行性和方法研究方义秋副教授基于WEB的在线拍卖网站设计1.通过调研建立相应的数据模型。

2. 实现在线拍卖功能。

3.实现相应的统计、查询功能。

方义秋副教授校园二手物品交换市场网站设计调研架构网站。

实现相应的管理、统计、查询功能。

方义秋副教授企业人力资源管理系统1.通过调研建立相应的模型。

2. 实现人力资源的管理。

基于树先剪枝的网页正文抽取方法研究

基于树先剪枝的网页正文抽取方法研究
1引言 i f ( 节 点 i和 节 点 j的名 称 和属 性相 同 ) { 许多新 闻网站使用 模板来 自动生成新 闻网页 , 但是很多噪音严 s a m e N u m b e r + + ;) 重影响 网页新 闻正文的抽取 , 如: 导航栏、 广告等等。文章把一个 网 1 页转化 为一 个简单树 ,使用简单树 匹配算法来对 网页进行 聚类 分 ) r e t u n r s a me Nu mbe r ; 析, 从 而解决 了大规模数据效率低 下问题 。本文使用信息熵来判定 样 本树 的公共抽取路径。在文献 【 1 ]中 R e i s 只用 R T D M( R e s t r i c t e d } T o p — D o w n M a p p i n g ) 算法来计算两个树 之间的相似度 , 这个算法 是 } 基 于树 编 辑 距离 。它 不但 可 以抽 取 给 定 网 页 的相 关 的 文 本 , 而 且 可 相似度的计算公式如下 : 以判断 出噪音。 文献【 2 ] 使用简单树匹配算法来计算两个树之 间的相 S i m i l a r i t y ( T . , T 0 = S i m p l e T r e e M a t c h i n g ( T T b ) / i f t T 日 I + l T b 1 ) / 2 ) 似度 , 简单树匹配算法是通过计算两个树最大的匹配值 。通过研究 这 里 使用 8 0 %作 为 阀值 。 4判 定 公共 抽 取路 径 发现来 自同一网站的网页有很多相同之处 , 计算相似度没有必要 匹 配两个树的所有节点 , 因此不需要使用 R T D M来计算两个树的相似 这部分讨论如何找出公共抽取路 径。在文献【 1 】 中R e i s 通过文 度 ,这篇文章对 S T M算法进行了修改来解决计算两个简单树相似 本 长度 来 定位 正 文所 在 位置 。这种 方法 有 一 定 的局 限性 。为 了解决 度 的 问题 , 由于 这 里 只 构 建 了一 个 包 含 < b o d y > 标 签 孩子 节 点 的简 单 这个 问题 , 本文使用信息熵来定位正文位置。 本文 的假设条件如下 : 树, 因此 复杂 度 远 远 小 于 R T D M。从 实 验 结 果 来 看 , 精 确 度 也 很 理 ( 1 ) 节点 区域 越 大 , 则该节点包含正文 ; ( 2 ) 节点 中包 含 的超 链 接 越 想 。R e i s 对 网页 进行 聚类 后 , 把 每 个 类 生成 一 个 B e — p a t t e r n , 这 里需 少 , 则该节点包含正文。 因为每个类中的网页有相似的网页结构 , 因 要 比较每个类中的所有网页, 因此代价 比较大。我们发现在 同一个 此 只要找出类 中任意一个页面的抽取路径 , 则该类的所有 网页都共 类 中 的 网 页 分享 一个 相 同 的抽 取 路 径 ,这 个 路 径 开 始 于 < b o d y > 标 享此抽取路径 。找 出公共 的抽取路径 , 需要找 出包含正文的节点。 签 。我们设计 了一个高效 的算法来找 出每个类的抽取路径 。 公共抽取路径 的获取步骤如下 : 文章的主要贡献是 : ( 1 )构建 了简单树并修改 了简单树匹配算 ( 1 ) 从 每 个 类 中随 机 的选 取 一个 样 本 页 ; 法 。( 2 ) 使用信息熵来判定公共抽取路径 。 ( 2 ) 构造 D O M树 , 同时对树进行先剪枝 ; 2 相关 工 作 ( 3 ) 生成 公 共 抽取 路径 ; 目前 有 很 多 研 究 是 关 于如 何 生 成 模 板 和 抽 取 正 文 。Y a n g . S H[ 3 ] 下面来讨论为什么要进行树先剪枝 , 以及如何进行树先剪 枝和 使用统计学 、 结构化 和可视区域的特征来 检测模板 。 S h u y i ・ z 模拟 获取公共抽取路径。对 网页进行树解 析 ,我们会得到一个复杂 的 人类行为依靠模板提 出了一个抽取方法 。L a n ・ Y 御 构造 了一个称作 D O M 树 ,其 中树 的节 点 包 括 : D O C T Y P E h t m l 、 h e a d 、 b o d y 、 s t y l e 、 S S T ( S i t e S t y l e T r e e ) 新 的树 , 来 获 取 内容 和格 式 ,一般 的噪 音 也 可 以 s c i r p t 、 d i v 、 s p a n 、 c o m m e n t 、 l i n k 、 i m a g e 、 h 2 、 u l 、 a 、 P 等等。通过研究发现 被发现 。 使用信息值来为每个节点赋权重。 D o n g l i n ・ c 哺 信息值来 不 会 包 含 正 文 的标 签 如 : D O C T Y P E h t ml 、 h e a d 、 s t y l e 、 s c i r p t 、 c o m— 界定提交内容和评价内容 的边界 。 他使用了可视信息和有效文本来 m e n t 、 l i n k、 i m a g e 、 h 2 、 u l 、 a 等标签节点可 以在构造 D O M树时直接删 定位正 文. 试验 中我们发 现因为空 白区域和一些其它标记 , 有效文 除, 这里这些节点可称作噪音节点。而像 b o d y 、 d i v 、 P 、 s p a n 等节点则 本 的计 算 可 能 失 真 。D e n g ・ c 嘲 , 提出 V I P S ( V i s i o n — b a s e d P a g e S e g — 需 要 进行 判 定 方可 决定 是 否 删 除 。本文 的判定 算 法 如下 : me n t a t i o n 1算法来抽取网页的语义结构 。这里的语义结构是一个层 输入 : 高度 n的所有标签节点 t a g 级结构 , 每 个节 点对 应 一个 块 。 使用 相 同块 出现 的 的次 数 来 判断 非 输出: 重 要 节 点 方法 : 文本区域。 根据标签的开始和结束 , 使用堆来 帮助分块 。L i n【 1 1 对 网页进行分块 , 然后构建数据 向量。 使用熵来判定块是否包含信息。 T w一 初 始 化 噪音 节 点 集 { D O C T Y P E h t m l , h e a d , b o d y , s t y l e , 3 构建 简 单 树 和 聚类 s c ip r t , d i v, s p a n , c o mme n t , l i n k, i ma g e, h 2 , u l , a , P …l 每个 网页 都 可 以转 化 为 一棵 D O M 树 ,并 且 可 以获 得 每个 节 点 f o r e a c h 孩 子节 点 ∈ t a g d o 的属性。 R T D M 算法包含了替换、 删除和插入等操作 , 我们认为一棵 I f ( t a g E T w){ 树一旦被编辑后 , 树 的结 构 也 就发 生 了 变化 , 这 会 影 响 到 抽 取 的效 d e l e t e t a g; 果 。我们 实 验 发 现来 自同一 网站 的新 闻 网页 结 构基 本 相 同 。 比如 , } e l s e i f( w i d t h = 0 o r h e i g h t = 0 o r t e x t = 0 ) { d e l e t e t a g; Y a h o o许多新 闻网页有 < i f r a me > , < d i v > 标签,而且它们的顺序和 属性是相 同的, 新 闻 正 文 也保 存 在 相 同 的标 签 中 , 因 此 我 们 可 以根 } e l s e f 据 网页结构对 网页进行 聚类 , 我们修改了简单树匹配算法使其可 以 计算两个简单树的相似度 ,这里的简单树不是包含所有树节点 , 这 个树是< b o d y >节点的直接孩子, 这里每个节点代表一个块[ 3 1 。 计算 i m p o r t a n t 的方差判断是否停止树的构造 ; 定 义 简 单 树 匹配 算 法 : } 输入 : 树 L和树 T b 这里 返 回 m a x ( i p t ) 的节 点 。使 用 递 归 方式 可 以得 出一 个 抽 取 路 输 出: 相似 节 点 数 径 。其 中j 表示孩子节点数。i , m表示 三个属性即:节点的 h e i g h t 、 方法 : w i d t h和 t e x t ( 不包含超链接的文本数) 。经过试验我们得出停止构造 i n t s a me Nu mbe r = - 0; 树的阀值设置为 O . 1 。下面从凤凰网随机获取一个新闻网页为例来 I f ( T a和 T b 的根 节 点 不 同) { 判定公共抽取路径。 r e t ur n 0: ( 1 ) < b o d y > 标签 的直接 孩 子 如下 所 示

学术搜索引擎中的全文检索算法优化研究

学术搜索引擎中的全文检索算法优化研究

学术搜索引擎中的全文检索算法优化研究随着信息时代的到来,学术界对于学术资源的需求量不断增加。

学术搜索引擎应运而生,成为了研究者们获取相关学术资料的重要途径。

在学术搜索引擎中,全文检索算法起着关键作用,因为它决定了搜索引擎的搜索结果的准确性和效率。

因此,对学术搜索引擎中的全文检索算法进行优化研究显得尤为重要。

全文检索算法是学术搜索引擎中的核心技术之一,其目的是根据用户的查询词在大规模学术文献库中找到相关的文献,并按照相关性进行排序。

优化全文检索算法的目标是提高搜索引擎的搜索准确性和搜索效率。

本文将就全文检索算法的索引构建和查询处理两个方面进行深入研究。

在学术搜索引擎中,索引构建是全文检索算法的第一步。

索引构建的目标是将学术文献库中的文档转化为可用于检索的结构化数据。

目前常用的索引构建方法有倒排索引和向量空间模型。

倒排索引是一种常用的索引构建方法,它通过将每个词的出现文档列表映射为一个倒排表,实现了从文档到词的反向映射。

倒排索引的优势在于可以快速地定位包含查询词的文档,加速搜索的过程。

为了进一步提高索引构建的效率,可以采用压缩算法来减少索引的存储空间。

向量空间模型是另一种常用的索引构建方法,它将每个文档表示为一个向量,并使用向量之间的距离度量来计算相关性。

基于向量空间模型的索引构建方法可以利用高维向量的稀疏性,减少存储空间和计算开销。

此外,还可以采用特征选择技术来选择最相关的特征维度,降低检索过程的复杂度。

在索引构建完成后,查询处理成为全文检索算法的关键环节。

查询处理的目标是根据用户的查询词,从索引中快速检索到相关的文档,并按照相关性进行排序。

为了提高查询处理的效率和准确性,可以采用以下一些方法。

首先,应该使用合适的查询扩展算法来处理用户的查询词。

查询扩展算法通过使用同义词、近义词等相关的词语来拓展用户的查询词,从而增加搜索结果的相关性。

例如,可以利用词向量模型来计算词语之间的相似度,并将相似度高的词语添加到查询中。

文章内容提取的技巧与方法

文章内容提取的技巧与方法

文章内容提取的技巧与方法在信息爆炸的时代,我们每天都会接触到大量的文章,如何从这些纷繁复杂的文字中快速、准确地提取出关键内容,成为了一项至关重要的技能。

无论是为了提高阅读效率,还是为了更好地理解和运用所获取的信息,掌握文章内容提取的技巧与方法都能让我们受益匪浅。

首先,我们要明确提取文章内容的目的。

是为了获取某个具体的知识点,还是为了了解文章的主旨大意?目的不同,提取的重点和方式也会有所区别。

比如,如果是为了了解某个专业领域的新知识,可能需要重点关注定义、原理和实例;而如果只是想快速把握文章的核心观点,那么开头和结尾段落往往是关键所在。

在开始阅读之前,先浏览文章的标题、副标题、目录、段落小标题以及开头和结尾段落。

这些部分通常能够提供文章的大致框架和主要内容。

通过快速扫描这些部分,我们可以对文章的主题和结构有一个初步的认识,从而为后续的深入阅读做好准备。

阅读过程中,要善于抓住关键语句。

关键语句通常包括主旨句、总结句、过渡句等。

主旨句往往直接表达了文章的核心观点,一般出现在段落的开头或结尾;总结句则对前文的内容进行概括和归纳;过渡句则起到承上启下的作用,能够帮助我们理解文章的逻辑关系。

例如,“综上所述”“总而言之”“由此可见”等词语后面的句子往往是总结性的关键语句。

学会筛选重要信息也是必不可少的。

并非文章中的所有内容都具有同等的价值,我们需要根据自己的需求和目的,筛选出与主题密切相关、具有实质性内容的信息。

对于一些解释说明性的例子、背景介绍等辅助性内容,可以适当略读或者跳过。

比如,在一篇介绍历史事件的文章中,具体的时间、地点、人物等细节是重要信息,而对于一些无关紧要的旁枝末节则可以忽略。

在提取内容时,我们可以采用做笔记的方式。

将关键的观点、数据、名词等记录下来,不仅有助于加深记忆,还能方便后续的整理和回顾。

做笔记时可以使用简洁明了的语言,不必拘泥于原文的表述。

同时,可以运用一些符号和缩写来提高记录的效率,比如用“∵”表示“因为”,用“∴”表示“所以”。

文章内容提取的有效技巧

文章内容提取的有效技巧

文章内容提取的有效技巧在信息爆炸的时代,我们每天都会接触到大量的文章,无论是工作学习中的资料、新闻资讯,还是娱乐休闲时的小说、散文等。

如何从这些繁杂的文字中快速准确地提取出关键内容,成为了一项重要的技能。

掌握有效的文章内容提取技巧,不仅能够提高我们的阅读效率,还能帮助我们更好地理解和吸收知识。

接下来,我将为您介绍一些实用的文章内容提取技巧。

一、明确阅读目的在开始阅读一篇文章之前,首先要明确自己的阅读目的。

是为了获取某个具体的信息,还是了解文章的整体大意?是为了学习知识,还是为了娱乐消遣?不同的阅读目的决定了我们提取内容的重点和方式。

如果是为了获取具体信息,比如查找某个产品的使用方法或者某个事件的发生时间,我们可以带着问题直接在文章中寻找相关的关键词和段落,快速定位所需内容。

如果是为了了解文章的整体大意,我们可以先浏览标题、目录、开头和结尾,以及各段落的首句,对文章的结构和主题有一个初步的认识。

二、快速浏览文章在明确了阅读目的之后,不要马上逐字逐句地阅读文章,而是先进行快速浏览。

快速浏览的目的是对文章的内容和结构有一个大致的了解,找出文章的重点和关键部分。

在快速浏览时,可以注意以下几点:1、标题和副标题:标题通常能够概括文章的主要内容,副标题则可能会对主题进行进一步的说明或补充。

2、段落开头和结尾:很多文章的段落开头和结尾都会包含重要的观点和结论。

3、图表和图片:图表和图片往往能够直观地展示文章的关键信息,帮助我们快速理解。

4、特殊字体和标记:作者可能会使用加粗、斜体、下划线等特殊字体来突出重点内容。

通过快速浏览,我们可以对文章的内容有一个初步的判断,确定哪些部分需要重点阅读,哪些部分可以略读或跳过。

三、标记关键信息在阅读文章的过程中,要善于标记关键信息。

可以使用铅笔、荧光笔或者在电子文档中使用高亮功能,将重要的词句、段落标记出来。

标记的关键信息可以包括以下几类:1、核心概念和定义:对于一些新的概念、术语或者重要的定义,要及时标记,以便后续复习和理解。

论非法处理个人信息行为的入罪

论非法处理个人信息行为的入罪

122区域治理RULE OF LAW作者简介:刘 曦,生于1994年,法学硕士,研究方向为计算机网络犯罪。

论非法处理个人信息行为的入罪上海政法学院 刘曦,吴优摘要:除获取、出售、提供行为以外,个人信息生命周期还包括处理行为,我国现有刑法规范难以对非法处理个人信息行为做出妥当评价。

侵犯公民个人信息罪的保护法益是个人信息权益和信息社会管理秩序双层法益,集体法益定位更有利于打击网络灰黑产业,信息流动和处理的切割也更利于信息权益保护。

考虑到与前置法的统一,应当在侵犯公民个人信息罪中增加非法处理个人信息行为的类型。

关键词:非法处理个人信息;侵犯公民个人信息罪;撞库扫号中图分类号:D924文献标识码:A文章编号:2096-4595(2020)28-0122-0004我国《刑法》第253条之一侵犯公民个人信息罪规定,违反国家有关规定向他人出售或者提供公民个人信息、情节严重的,构成犯罪。

根据我国《民法典》第1035条第2款,“个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开等。

”《个人信息保护法(草案)》第4条规定“个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开等服务”。

《网络安全法》第四章尽管没有提炼出特定概念,但以列举方式对网络运营者在获取、收集、提供、存储、处理个人信息过程中的义务和个人享有的权利进行了规定。

相较于前置法,刑法在侵犯个人信息的行为类型保护上范围极为狭窄,只处罚非法出售、提供和非法获取行为,对于其他处理个人信息的行为没有做出规定。

在经历了前期的野蛮生长之后,数据处理的重要意义已经逐渐凸显,现有刑法已不足以保护数据经济有序和个人信息安全。

依据现行规范,司法机关对于撞库扫号和违法申诉行为的评价只能围绕计算机信息系统及数据安全打转1[1],不能评价对信息安全的侵害;只能着力打击上游的非法获取和提供行为、与其平行的提供工具帮助行为,总有隔绝瘙痒之感。

对于公民主动提供个人信息给他人使用、互联网养号灰黑产业等乱象、以及基于合法收集的非法处理行为等更是束手无策。

文章内容提取的有效技巧

文章内容提取的有效技巧

文章内容提取的有效技巧在信息爆炸的时代,我们每天都会接触到大量的文章,无论是工作中的报告、学习中的教材,还是日常的新闻、小说等。

如何从这些海量的文字中快速、准确地提取出关键内容,成为了一项重要的技能。

掌握有效的文章内容提取技巧,不仅能够提高我们的阅读效率,还能帮助我们更好地理解和吸收知识。

下面就为大家介绍一些实用的文章内容提取技巧。

一、明确阅读目的在开始阅读一篇文章之前,首先要明确自己的阅读目的。

是为了获取特定的信息,还是为了解决某个问题,或者是为了消遣娱乐?不同的阅读目的决定了我们关注的重点和提取内容的方式。

如果是为了获取特定信息,比如查找某个产品的使用方法,那么我们可以直接通过目录或者关键词搜索,快速定位到相关内容;如果是为了解决问题,比如寻找某个项目的解决方案,那么我们需要对问题进行分析,然后有针对性地在文章中寻找答案;如果是为了消遣娱乐,那么可以更加放松地阅读,享受文字带来的乐趣。

二、快速浏览文章结构在深入阅读文章之前,先快速浏览一下文章的结构,包括标题、目录、段落标题、图表等。

标题通常能够概括文章的主要内容,目录可以让我们了解文章的框架和大致内容,段落标题能够提示每个段落的主题,图表则可以直观地展示一些重要的数据和信息。

通过对文章结构的快速浏览,我们可以对文章的整体内容有一个初步的了解,从而更好地把握重点。

三、抓住关键语句文章中通常会有一些关键语句,比如主旨句、结论句、过渡句等,这些语句往往能够体现文章的核心思想和重要内容。

主旨句一般出现在文章的开头或结尾,能够概括文章的主要观点;结论句则是对文章内容的总结和归纳;过渡句则起到承上启下的作用,能够帮助我们理解文章的逻辑关系。

在阅读过程中,要注意抓住这些关键语句,以便快速提取文章的关键内容。

四、学会筛选信息面对文章中大量的信息,我们需要学会筛选,提取出对自己有用的内容。

可以根据阅读目的,将信息分为重要、次要和无关三类。

重要的信息是与阅读目的直接相关的内容,需要重点关注和提取;次要的信息是对重要信息的补充和说明,可以适当关注;无关的信息则可以直接忽略。

基于信息量衰减幅度的网页正文提取

基于信息量衰减幅度的网页正文提取
i f r t n q a tt n o ma i u n iy o
CHEN n ,CHEN n - h Ya g Xig s u ,W U Qi
( .De a t e to t r n u tdCo u ig Isiue ih a iest ,Ch n d 1 0 5 1 p rm n f Newo ka d Tr se mp t n ttt ,Sc u n Unv riy n e g u6 0 6 ,Chn ; ia 2 9h Re e rh I siu eo iaElcrnc c n lg o p C r o ain .2 t s ac n tt t fChn e to isTe h oo yGr u o p rt ,Nain l o t a o If r t nC nr lLa o ao y h n d 1 0 5 n o mai o o to b rt r ,C e g u 6 0 6 ,Chn ) ia
21年 7 02 月
计 算机 工程 与设 计
COM PUTER ENGI NEERI NG AND DES GN I
J l 0 2 u y2 1
Vo _ 3 No 7 l3 .
第3卷 3
第 7 期
基 于 信 息 量 衰 减 幅 度 的 网页 正 文提 取
陈 阳 一,陈 兴 蜀 ,吴 麒
m e h d b s d o h a n t d f e u t n o h f r a in q a t y i p o o e .I h sa p o c t o a e n t em g iu eo d c i f e i o m to u n i s r p s d n t i p r a h,t e H TM L t g e r — r o t n t h a si r p e s s n e y a te ,a d t e ee tt es b r ewh c al d p i r r as b r eb a c ltn h a n t d f e u t n o h e t d b r e n h n s lc h u t e i i c l rma y a e u t e yc lu a ig t em g i eo d ci ft e h s e u r o if r t n q a t y ial n o ma i u n i .F n l o t y,e t a to fp i r o t n fe l h u t e .B ee t g t es b r e h x r ci n o r— x r c in o rma yc n e ta t rci t es b r e y s l c i h u t e ,t e e t a to f i p n p ma y c n e to h b p g sl t d t h rma y c n e t r awh c i nfc n l e u e h n e fr n eo b p g o — r o t n n t e we a ei mi o t e p i r o t n e ih sg i a tyr d c s t ei t r e e c f i e a i we a en i s sh n e p o ie r c u a e e t a t n Th x e i n a e u t h w h t t e a c r c f t e e ta t n i a o e 9 e e c r v d smo e a c r t x r c i . o e e p rme t lr s l s o t a h c u a y o h x r c i s b v 5 s o

基于带权语言网络的网页关键词抽取

基于带权语言网络的网页关键词抽取

ln u g ew r . o ue n ie r g a d Ap l ai n 。 0 8 4 ( ) 1 5 1 7 a g a e n t o k C mp tr E gn e i n pi t s 2 0 。4 8 :5 - 5 . n c o
Ab t a t B i i g w ih e au a a g a e ewo k o h e p g s i to u e n t e p p r a d h c nr l y f w r sr c : u l n e g t d n t r l l n u g n t r fr t e W b a e i n r d c d i h a e , n te e t i o o d d at c mb n s h ewe n e s o i e t e b t e n s me r a d h co e e s t c n t e ls n s me r . x e me t h w h t t e wo d e t ce a e r a o t b t n t i tcE p r ns i i s o t a h r s xr t d h v g e t c n r u i o a i o
维普资讯
C m ue , er ga dA piao s o p trE nei n p l t n 计算机工程与应 用 n ci
2 0 ,4 8 0 84 ()
15 5
基于带权语 言 网络 的网页关键 词抽取
任克 强 , 光甫 , 国萍 赵 张
teWe ae sbet h b pg ujc.
Ke r s y wo d :W e a e n tr l l n u g ew r k y o d xr ci n c n r l y b p g ; au a a g a e n t o k; e w r s e t t ; e tai a o t

文章内容提炼的高效方法

文章内容提炼的高效方法

文章内容提炼的高效方法在信息爆炸的时代,我们每天都会接触到大量的文字内容,如何从这些纷繁复杂的信息中快速、准确地提炼出关键要点,成为一项至关重要的技能。

无论是阅读书籍、报纸、杂志,还是浏览网页、报告、论文,有效的内容提炼都能帮助我们节省时间,提高理解和记忆效果。

接下来,让我们一起探讨一些高效的文章内容提炼方法。

一、明确提炼目的在开始提炼文章内容之前,首先要明确自己的目的。

是为了获取主要观点?还是为了寻找特定的信息?亦或是为了总结文章的结构和逻辑?不同的目的会影响我们提炼的重点和方式。

如果是为了获取主要观点,那么我们要关注作者的核心论点以及支持这些论点的关键证据和例子。

如果是为了寻找特定的信息,比如某个数据、人名、地名等,我们可以通过快速扫描文章,利用关键词搜索来定位相关内容。

而如果是为了总结文章的结构和逻辑,我们则需要关注段落之间的过渡、文章的开头和结尾等部分。

二、快速浏览文章在正式深入阅读之前,先快速浏览文章的标题、副标题、目录、开头和结尾段落,以及每段的开头和结尾句。

这样可以对文章的主题、结构和大致内容有一个初步的了解。

浏览标题可以让我们知道文章的主题是什么;副标题可能会提供更具体的信息;目录能够展示文章的框架和层次;开头段落通常会引出主题并阐述文章的背景和目的;结尾段落则往往会总结主要观点和结论;每段的开头和结尾句则常常包含了该段的关键信息。

通过快速浏览,我们可以初步判断文章的重要性和价值,决定是否需要进一步深入阅读,以及在深入阅读时应该重点关注哪些部分。

三、标记关键信息在阅读文章的过程中,使用标记工具(如铅笔、荧光笔或者在电子文档中使用高亮功能)标记出关键信息。

关键信息包括重要的概念、定义、数据、观点、结论、转折词(如但是、然而、不过等)后面的内容等。

标记关键信息可以帮助我们在后续的回顾和整理时快速找到重点,同时也能提高阅读的注意力和专注度。

但是要注意,不要标记过多的内容,否则会失去重点,反而不利于提炼。

内容搜索权重

内容搜索权重

内容搜索权重
内容搜索权重是指网络搜索引擎对搜索结果中每一条结果的权重。

权重越高,搜索结果中的位置就越靠前,这就是为什么搜索结果中有些内容比其他内容更容易出现在第一页的原因。

权重的计算是基于搜索引擎算法的,它会考虑页面标题、关键词、描述、图片、链接等因素,以及页面的热度、更新频率等因素。

为了提高内容的搜索权重,首先要确保页面标题、关键词和描述等信息是有意义的,并且与内容相关。

其次,要经常更新页面内容,以增加页面热度,从而提高搜索权重。

此外,还可以增加内部链接,以提高页面的权重。

想要提高搜索权重,需要确保页面内容有意义、经常更新内容、增加内部链接等,以获得搜索引擎优化的结果。

文章内容提取的技巧与方法

文章内容提取的技巧与方法

文章内容提取的技巧与方法在信息爆炸的时代,我们每天都会接触到大量的文章,如何从这些纷繁复杂的文字中快速、准确地提取出关键内容,成为了一项至关重要的技能。

无论是为了学习新知识、完成工作任务,还是仅仅为了节省时间,掌握文章内容提取的技巧与方法都能让我们事半功倍。

首先,明确阅读目的是提取文章内容的关键前提。

在开始阅读之前,要先问问自己为什么要读这篇文章,是为了获取某个具体的信息,还是为了了解某个领域的概况?比如,如果是为了写一篇关于环保的论文,那么在阅读相关文章时,重点就应该放在与环保措施、环境问题现状等相关的内容上;如果只是为了休闲阅读增长见识,那么就可以更广泛地关注文章中的各种观点和案例。

其次,快速浏览文章的标题、副标题、引言、目录、段落首句和尾句等关键部分。

标题往往能直接揭示文章的主题;副标题可能会对主题进行进一步的解释或限定;引言部分通常会介绍文章的背景和写作目的;目录可以让我们对文章的结构和内容分布有一个大致的了解;而段落的首句和尾句常常包含了该段落的核心观点。

通过对这些部分的浏览,我们能够在短时间内对文章的主要内容和框架有一个初步的认识。

在阅读过程中,学会标记重点内容也是非常重要的。

可以使用不同的符号或颜色来标记不同类型的重点,比如用下划线标记关键的定义和概念,用波浪线标记重要的案例和数据,用圆圈标记作者的观点和结论等。

这样在后续回顾时,能够快速找到关键信息。

同时,对于一些复杂的文章,还可以边读边做简单的笔记,概括每个段落的主要内容,有助于梳理文章的逻辑结构。

理解文章的结构对于内容提取也有着很大的帮助。

常见的文章结构有总分总、总分、分总等。

如果是总分总结构,那么开头的总述部分通常会提出文章的核心观点,中间部分会进行详细的阐述和论证,最后的总结部分则会再次强调重点并可能提出一些展望或建议。

了解了文章的结构,就能更有针对性地提取关键内容。

此外,要善于抓住关键词。

关键词是文章内容的核心和浓缩,它们往往能够反映文章的主题和重点。

文章内容提取与分析技巧

文章内容提取与分析技巧

文章内容提取与分析技巧在信息爆炸的时代,我们每天都会接触到大量的文章,无论是工作中的报告、学习中的教材,还是日常的新闻、小说等。

如何从这些海量的文字中快速、准确地提取关键内容,并进行有效的分析,是一项非常重要的技能。

掌握了这项技能,不仅能够提高我们的阅读效率,还能帮助我们更好地理解和处理信息,做出更明智的决策。

一、文章内容提取技巧1、明确阅读目的在开始阅读一篇文章之前,首先要明确自己的阅读目的。

是为了获取某个具体的信息,还是为了解决某个问题,或者是为了对某个领域进行全面的了解?明确了阅读目的,就能更有针对性地进行内容提取。

2、浏览标题和目录标题通常是文章的核心概括,通过标题可以初步了解文章的主题。

目录则能让我们对文章的结构和内容框架有一个大致的了解,从而快速定位到自己感兴趣的部分。

3、关注开头和结尾很多文章在开头会提出论点或主要观点,在结尾会进行总结和归纳。

因此,关注开头和结尾能够快速把握文章的重点。

4、寻找关键语句关键语句通常包括段落的主题句、总结句、过渡句等。

这些语句往往能够概括段落的主要内容,通过找到这些关键语句,可以快速提取文章的核心信息。

5、标记重要内容在阅读过程中,可以使用标记工具(如划线、圈点、批注等)对重要的内容进行标记,以便后续回顾和整理。

6、提取关键词关键词是文章内容的核心词汇,通过提取关键词,可以快速把握文章的主旨。

关键词可以是名词、动词、形容词等,一般具有代表性和概括性。

二、文章内容分析技巧1、理清文章结构分析文章的结构有助于我们更好地理解作者的思路和逻辑。

常见的文章结构有总分总、总分、分总等。

了解文章的结构,可以帮助我们更系统地分析和理解内容。

2、分析论证方法如果文章是议论文,要分析作者使用的论证方法,如举例论证、道理论证、对比论证等。

通过分析论证方法,可以判断作者观点的可信度和说服力。

3、理解作者观点要深入理解作者的观点,包括观点的内涵、外延以及产生的背景和原因。

同时,要思考作者的观点是否合理,是否有局限性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

华南理工大学学报(自然科学版)第39卷第4期Journal of South China University of TechnologyVol.39No.42011年4月(Natural Science Edition )April 2011文章编号:1000-565X (2011)04-0032-06收稿日期:2011-01-10*基金项目:国家“973”计划项目(2007CB311106)作者简介:吴麒(1985-),男,博士生,主要从事数据挖掘、信息安全等的研究.E-mail :acuteleopard@gmail.com 基于权值优化的网页正文内容提取算法*吴麒1,2陈兴蜀1谭骏1(1.四川大学计算机学院∥网络与可信计算研究所,四川成都610065;2.中国电子科技集团公司第二十九研究所信息综合控制国家重点实验室,四川成都610065)摘要:目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%.关键词:权值优化;正文内容提取;特征属性;统计特征;准确率;召回率中图分类号:TP391doi :10.3969/j.issn.1000-565X.2011.04.006随着互联网的迅速发展,Web 上的信息呈爆炸式的增长.面对如此海量的数据,在Web 页面上发现有价值的信息成了一项重要的任务.Web 页面作为信息的载体,目前绝大数采用HTML 语言编写.由于该语言为半结构化的语言,不具备XML 的严格定义,使得页面内容抽取比较困难,而且目前页面广告信息的广泛存在,使得Web 网页的主题信息隐藏在大量无关信息中.因此,如何准确地从页面中提取主题内容成为了Web 挖掘的重要难题.关于此类问题,有关人员已进行了大量的研究.Wang 等[1]提出了基于模板去除噪音来提取主题块的方法,该方法假定Web 中的同类网页具有类似的DOM [2](Document Object Model )树结构;但由于其主要基于模板或者简单启发式规则对主题内容进行提取,因此识别率不高且通用性不强.基于网页结构的方法[3-5]需根据网站模板而不断调整自己,因为不同的网站的页面模板是不同的;该方法不适用于机器学习,而且由于需要知道整个网站的页面信息才能获取其页面结构规律,因此会消耗大量的时间和资源.欧健文等[6]提出采用机器学习的方式对网页主体信息进行抽取,该方法通过分析页面结构,不断生成新的模板,建立模板库,然后依据模板库的提取规则进行网页主体信息提取;该方法也具有局限性,因为其只对模板对应的网页集有效.荆涛等[7]利用网页的可视化布局对页面进行划分,并提取中部的信息作为主题内容.Suhit 等[8]提出了基于DOM 树的正文内容提取方法,该方法主要采用清除广告链接,通过链接文字和非链接文字比来清除不属于正文内容的信息.Cai 和Song 等[9-10]利用DOM树来进行分块,然后根据分块特征进行正文内容提取.这些方法虽然方式各有不同,但因为利用特征少,因此准确率较低.李连霞等[11]利用页面布局和主题内容的特征对主题内容进行提取,取得了较好的效果;但由于视觉特征的复杂性,因此提取效率低,而且该方法只对特征进行了简单相加,忽略了不同特征具有不同重要度的特点.还有一些研究者[12-14]根据文本内容的特征,对文本内容是否是网页正文进行判断,从而完成网页正文提取;但由于此类方法并没有采用分块的思想,因此极易遗漏部分正文信息.根据不同特征具有不同重要度的特点,文中提出了一种基于权值优化的网页正文内容提取算法,并通过实验对该算法的有效性进行验证.该算法通过对主题节点进行统计分析,获得其统计特征,然后利用粒子群算法进行权值优化,最后利用这些特征对网页正文内容进行抽取.1整体框架网页内容提取就是提取出描述网页内容的文本块及相关链接的锚文本,简称主题块.通过对大量Web 页面进行分析,发现网页通常由主题内容区和噪音区(导航区和广告区)组成.这些区域具有各自的一些特点:(1)主题内容区域一般含有较多文本文字,且包含逗号、句号等标点符号;(2)噪音区域(导航区域和广告区域)一般都由较多链接和少量文字组成,且不包含逗号、句号等标点符号;(3)这些区域通常依靠table 、p 、tr 、div 等标签来进行划分.根据这些特点,可以建立正文内容识别模型进行主题块识别.首先将页面建立为一棵DOM 树,然后对树进行预处理,再根据上述特点得出主题块的统计特性,然后再使用粒子群算法根据重要度的不同给各个特征赋予不同的权重,最后完成对网页主题块的识别.系统的整体架构如图1所示.图1系统整体框架Fig.1Frame of the system2网页正文内容提取2.1主题块特征及识别模型网页的结构可以表示为一棵DOM 树,它为每个Web 网页提供了一个详细的层次化结构,它不但描述了网页的内容,而且描述了网页的布局.为方便提取主题块,文中按照以下方法对网页信息进行预分块:1)读入HTML 页面信息,将script 、form 、style 、if-rame 等不含有主题内容的标签去除;2)对有问题的标签进行修正,并将页面初始化为DOM 树;3)利用table 、p 、tr 、div 等标签对文本节点进行预分块,如果标签间有嵌套关系,则找出其中包含这些文本信息最近的分块标签.根据对分块特点的分析,总结得出主题分块具有文字内容较长(一般正文区将展示整个页面的详细内容信息,比如新闻报道、公告内容等,因此其中含有较多的文字)、标点符号数较多(由于正文区一般用于对事件和观点进行描述,因此其标点符号较多;而导航区、广告区一般都是简短文字描述,其所含标点符号较少)、特殊标记符号较多(在HTML 页面中,连续的空格、换行会被合并为一个空格,而使用&nbsp 符号就可避免此种情况,因此在页面的正文区中,该符号常常用于换行或者段落开头的缩进)、特殊标签数较多(在HTML 页面中,<br >标签用于插入一个简单的换行符,而<b >标签常常用于将正文呈现粗体文本效果;为了让网页更加美观,网页正文区代码常常含有较多<br >和<b >标记)等特征属性.假设某一分块文字数、标点符号数、特殊标记数、特殊标签数都较多,那么该块为主题块的概率就越大,因此可以通过计算特征中不同值的支持概率来表示这种可能性.定义1假设S 表示主体块,分块B 含有k 个特征属性,其特征属性矢量为T B =[t 1,t 2,…,t k ],P (B =S )表示分块B 属于主题块的概率,那么根据特征属性t i (i =1,2,…,k )来计算分块B 属于主体块的概率:P (B =S t i )=P (B =S )P (t i B =S )P (t i )(1)首先对测试集中的网页进行分块,对其中的主题块进行人工标记.P (t i )为所有网页划分块中含有特征属性t i 的概率,P (t i B =S )为标注主题块中含有特征属性t i 的概率.主题块具有的特征属性如表1所示.33第4期吴麒等:基于权值优化的网页正文内容提取算法表1主题块的特征属性Table 1Feature attributes of the content block特征特征计算文字内容长度分别计算文字字符长度处于[0,10]、[10,14)、[14,+ɕ)区间时,该分块属于主题块的支持概率标点符号数分别计算标点符号数目处于[0,1)或[1,+ɕ)区间时,该分块属于主题块的支持概率&nbsp 数目分别计算&nbsp 标记数目处于[0,1)或[1,+ɕ)区间时,该分块属于主题块的支持概率标签<b >数目分别计算该标签数目处于[0,1)或[1,+ɕ)区间时,该分块属于主题块的支持概率标签<br >数目分别计算该标签数目处于[0,1)或[1,+ɕ)区间时,该分块属于主题块的支持概率在主题块识别中,各个特征在其中的重要度是不同的,因此应给不同的特征赋予不同的权值.文中采用主题块得分来对某分块属于主题块的可能性进行描述.定义2设分块B 的特征属性的个数为k ,T B =[t 1,t 2,…,t k ](见定义1)为分块B 的特征矢量,那么分块B 的主题块得分为Score (B =S )=1(δ∑ki =1(δ1P (B =S t 1)+δ2P (B =S t 2)+…+δk P (B =S t k )))(2)式中:δ=∑ki =1δi ,δi 表示特征属性t i 的权值.主体块得分使用权值度量了不同特征的重要度,但这些权值的确定是比较困难的.在工程应用中,一般依靠判断主题块得分是否大于某一阈值来确定其是否为主题块,但该阈值很难确定.因为如果阈值设置太低,算法的召回率提高但准确率会下降;如果设置太高,虽然准确率提高,但召回率会降低.通过粒子群优化算法,既可以确定这些特征的最优权值,也可以获取一个较合理的阈值,使召回率和准确率达到一个平衡点.2.2基于PSO 的权值优化粒子群优化(PSO )[15]算法是基于群智能方法的演化计算技术,它引入了“群”的概念.研究者通过对鸟群觅食行为的研究,发现鸟群中存在一种社会信息共享机制,这一机制为群体的进化提供了一种优势.PSO 算法就是从这种生物种群行为特性中得到启发并用于求解优化问题.该算法是进化算法的一种,和遗传算法相似,系统初始化为一组随机解,通过迭代搜寻最优值,但是由于PSO 算法比遗传算法更为简单,且没有遗传算法的“交叉”和“变异”操作,因此在解决实际工程问题时得到了更为广泛的应用.PSO 通过粒子追随自己找到的最优解和群体最优解来完成优化.在PSO 中,每个优化问题的潜在解都可以想象成为n 维搜索空间上的一个点,称之为“粒子”.PSO 首先生成初始种群,即在可行解空间中随机产生一群粒子,每个粒子都为优化问题的一个可行解,并由适应度函数产生一个适应值,然后每个粒子根据速度公式在解空间中运动,并经逐代搜索最后得到最优解.在每一次迭代中,粒子将跟踪两个极值,一个为该粒子本身迄今找到的最优解,另一个为全种群迄今找到的最优解.设在一个n 维的搜索空间中,由m 个粒子组成的种群X =(x 1,…,x i ,…,x m )T ,其中第h 个粒子的位置为x h =(x h 1,x h 2,…,x hn )T ,其速度为v h =(v h 1,v h 2,…,v hn )T ,该粒子迄今得到的最优解为p h =(p h 1,p h 2,…,p hn )T ,全种群找到的最优解为p g =(p g1,p g2,…,p g n )T .粒子的速度更新公式如下:v (t +1)hd =w (t )v (t )hd +c 1r (1p (t )hd -x (t ))hd+c 2r (2p (t )gd -x (t ))hd,x (t +1)hd =x (t )hd +v (t +1)hd .式中:h =1,2,…,m (m 为种群规模);d =1,2,…,n ,n 为粒子群优化算法解的搜索空间维数;t 为当前进化代数;r 1与r 2为分布于[0,1]之间的随机数;c 1与c 2为调节p h 和p g 重要性的参数;w 为惯性权重,其值也可以自适应调整,随着迭代的进行线性地减小.定义3假设网页中找到的正文内容为H 1,网页中真正的正文内容为H 2,H 1和H 2的交集为H 0,那么准确率、召回率及F-score 的计算式分别为准确率=H 0/H 1,召回率=H 0/H 2,F-score =2ˑ准确率ˑ召回率准确率+召回率.使用粒子群算法对主体块得分进行权值优化,并获取主题块得分阈值.在整个优化过程中,使用F-score 作为适应度函数.具体优化算法如下:算法1基于粒子群算法的权值优化43华南理工大学学报(自然科学版)第39卷输入:训练样本集,测试样本集.输出:最优F-score,f个特征对应的权值,阈值ε.(1)初始化操作,设当前进化代数t=0,并设定最大进化代数e,加速常数c1、c2.在f+1维搜索空间中随机生成j个粒子w1,w2,…,wj,形成初始种群W(t),其中wq(q=1,2,…,j)为f+1维向量的解,随机生成每个粒子的初始速度y1,y2,…,yj,设置种群适应度最优值pg以及j个粒子的自身适应度最优值pq均为0.(2)将种群W(t)中每个粒子作为主题块特征的权值,并根据定义2中的主题得分公式与阈值ε计算F-score,并作为每个粒子的适应度值.(3)while t<=e do(4)for q=1to j do(5)比较粒子的适应度值与自身最优值pq,若该粒子适应度值比pq 更优,则置pq为当前粒子适应度值,并记录该粒子wq的值.(6)比较粒子的适应度值与种群最优值pg,若该粒子适应度值比pg 更优,则置pg为当前粒子适应度值,并记录该粒子wq的值.(7)end(8)根据PSO算法公式更新粒子的速度与位置,产生新种群W(t+1)(9)t=t+1(10)end(11)输出适应值为pg 时的粒子wq作为各个特征对应的权值和阈值ε,输出种群最优适应pg值作为该权值下的最优F-score.2.3正文内容提取算法结合提出的网页正文识别模型和经过粒子群算法优化的权值,正文内容提取算法如下:算法2基于权值优化的正文内容提取算法输入:测试数据集,阈值ε.输出:网页正文内容.(1)读入HTML页面信息,将script、form、style、iframe等不含有主题内容的标签去除.(2)修正标签,并初始化为DOM树,并按照容器标签进行预分块,对有嵌套关系的标签,则找出离文本最近的分块,设其中存在u个分块.将这些分块编号为Bl(l=1,2,…,u).(3)for l=1to u do(4)根据Bl 的特征属性和粒子群算法优化的权值,计算该块的主题块得分score(Bl=S)(5)if(score(Bl=S)>ε)(6)将Bl标记为主题块(7)else(8)将Bl标记为噪音块(9)end(10)l=l+1(11)end(12)输出所有标记为主题块的Bl的文本内容.3实验结果与分析文中实验的测试数据来源于CWT70th,它是北大天网为测试对中文网页的检索性能而收集的测试网页集合,该数据包含了7万多张网页.笔者从中随机选取了3000张网页,并对其中的主题块进行了人工标注.从标注网页中选取了500张作为训练集,剩余2500张作为测试数据集.在权值优化过程中,设置种群规模为100,最大进化代数为1000,粒子的范围为[0,3],得到优化后的ε值为0.2922,各特征属性的支持概率和优化后权值如表2所示.表2特征属性的支持概率与优化后权值Table2Supporting probability and optimized weight of featureattributes特征取值区间支持概率优化后权值文字内容长度[0,10]0.0601.4571[10,14)0.546[14,+ɕ)0.795标点符号数[0,1)0.2742.6976[1,+ɕ)0.944&nbsp数[0,1)0.3751.9782[1,+ɕ)0.827标签<b>数[0,1)0.2952.6838[1,+ɕ)0.948标签<br>数[0,1)0.4340.8203[1,+ɕ)0.875从表2中可以看到,标点符号数和标签<b>数目这两个特征的权重明显增加,而标签<br>的效果明显削弱.因为主题块含有较多信息,一般标点符号数都会大于1,而且大多数网页都会将时间、段落主旨等以粗体表示(使用标签<b>),但换行符<br>仅53第4期吴麒等:基于权值优化的网页正文内容提取算法仅在文本信息较多时使用,因而权重被弱化.权值优化前后网页正文内容提取的效果如表3所示.从表中可以看到,未经过权值优化的提取算法由于利用了网页正文的多个特征,其召回率和准确率较高;而经过权值优化的正文提取算法在轻微降低精确率的基础上,提高了召回率和F-score,使得该算法的性能进一步提升.表3权值优化前后的网页正文内容提取效果Table3Comparison of extraction effects of content in Web Pa-ges with/without optimized weight正文提取算法准确率/%召回率/%F-score/%权值优化的提取算法86.795.891.04未经过权值优化的提取算法87.192.189.504结语针对目前网页上广告信息越来越多、准确抽取网页正文信息变得越来越难这一问题,文中提出了一种新的基于权值优化的网页正文内容提取算法.该算法中,首先通过从训练集中提取网页正文内容具有的统计特征,再利用粒子群算法对特征权值及阈值进行优化,使得算法的性能得到进一步的提升.以后的工作,将立足于发现更好的分块方法和更多网页正文内容特征,以进一步提高提取内容的准确性.参考文献:[1]Wang J Y,Lochovsky F H.Data-rich section extraction from HTML pages[C]∥Proc of the3rd International Confe-rence on Web Information Systems Engineering.Singapore:IEEE Computer Society Press,2002:313-322.[2]W3C DOM IG.Document object model[EB/OL].(2010-6-5)http:∥www.w3.org/DOM/.[3]Lin S H,Ho J M.Discovering informative content blocks from web documents[C]∥Proc of the ACMSIGKDD'02.Alberta:ACM,2002:190-195.[4]Lan Y,Liu B,Li X L.Eliminating noisy information in web pages for data mining[C]∥Proc of the Ninth ACMSIGKDD International Conference on Knowledge Disco-very and Data Mining.Washington:ACM,2003:296-305.[5]Debnath S,Mitra P,Pal N,et al.Automatic identification of informative sections of web pages[J].IEEE Tran.onKnowledge and Data Engineering,2005,17(9):1233-1246.[6]欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报:自然科学版,2005,45(S1):1743-1747.Ou Jian-wen,Dong Shou-bin,Cai Bin.Topic informationextraction from template web pages[J].Journal of Tsing-hua University:Science and Technology,2005,45(S1):1743-1747.[7]荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报:自然科学版,2004,32(S1):84-87.Jing Tao,Zuo Wan-li.An algorithm for the elimination ofthe noise in Web pages based on visual layout information[J].Journal of South China University of Technology:Natural Science Edition,2004,32(S1):84-87.[8]Suhit G,Gail K,David N,et al.DOM-based content ex-traction of HTML documents[C]∥Proc of the12th In-ternational World Wide Web Conference.Budapest:ACM,2003:207-217.[9]Cai Deng,He Xiao-fei,Wen Ji-rong,et al.Block-level link analysis[C]∥Proc of SIGIR'04.Sheffied:ACM,2004:134-142.[10]Song Rui-hua,Liu Hai-feng,Wen Ji-rong,et al.Learning block importance models for web pages[C]∥Proc ofWorld Wide Web Conference.New York:ACM,2004:343-348.[11]李连霞,马军,陈竹敏.基于多特征的网页内容提取研究[C]∥第三届和谐人机环境联合学术会议论文集.济南:清华大学出版社,2007:151-157.[12]Tim W,William H H.Web content extraction through histogram clustering[C]∥Proc of the18th InternationalConference on Artificial Neural Networks in Engineering(ANNIE2008).St.Louis:Lecture Notes in ComputerScience,2008:124-132.[13]Javier A M,Koen D,Marie F M.Language independent content extraction from web pages[C]∥Proc of the9thDutch-Belgian Information Retrieval Workshop.En-schede:University of Twente,2009:50-55.[14]Li Dong-bing,Wang Ye-xin,Zhang Yan,et al.Primary content extraction with mountain model[C]∥Proc ofthe8th IEEE International Conference on Computer andInformation Technology.Sydney:IEEE Press,2008:479-484.[15]James K,Russell E.Particle swarm optimization[C]∥Proc.of IEEE International Conference on Neural Net-works(ICNN'95).Perth:IEEE,1995:1942-1947.63华南理工大学学报(自然科学版)第39卷Content Extraction Algorithm of HTML Pages Based on Optimized WeightWu Qi 1,2Chen Xing-shu 1Tan Jun 1(1.College of Computer Science ∥Network and Trusted Computing Institute ,Sichuan University ,Chengdu 610065,Sichuan ,China ;2.National Information Control Laboratory ,The 29th Research Institute of China Electronics Technology Group Corporation ,Chengdu 610065,Sichuan ,China )Abstract :With the increase in advertisement amount in HTML pages ,it becomes more and more difficult to extract content accurately.In order to solve this problem ,an algorithm of content extraction from HTML pages is proposed based on optimized weight.In this algorithm ,first ,the features of the content are analyzed to obtain the statistical features of the attributes by analyzing the characteristics of the content block in web pages.Then ,in view of diffe-rent importance of the features ,the weight and threshold of the features are optimized by using the particle swarm optimization algorithm ,which further improves the performance of the algorithm.Finally ,some experiments are performed to verify the effectiveness of the algorithm.The results show that ,as compared with the algorithm with un-optimized weight ,the proposed algorithm improves the recall rate of content extraction to 95.8%without reduc-ing the precision.Key words :weight optimization ;content extraction ;feature attribute ;statistical feature ;precision ;recall rate (上接第31页)Click Model Based on Browsing Time of UserHe JingYuan Wen-qingYan Hong-fei(Department of Computer Science and Technology ,Peking University ,Beijing 100871,China )Abstract :As the clicks of users are affected by many factors such as the browsing behaviors of users and the fea-tures of adjacent documents ,they cannot be directly interpreted as document relevance during the analysis of users'click log.In order to obtain correct document relevance features ,a click model based on browsing time is pro-posed.In this model ,the document relevance is assumed to affect the browsing time for the document ,which means a user may spend more browsing time if the document is more likely to be relevant.Therefore ,the document relevance can be estimated according to the browsing time.Then ,an exponential distribution is determined to de-scribe users'browsing time ,and some experiments are carried out to verify the effectiveness of the proposed model.The results indicate that the model is superior to the existing click models because it can estimate document rele-vance and future clicks more accurately.Key words :search engine log ;click model ;document relevance feature ;browsing time73第4期吴麒等:基于权值优化的网页正文内容提取算法。

相关文档
最新文档