软件体系结构

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
垂直搜索引擎的体系结构分析
搜索引擎的概念
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序 从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务, 将用户检索相关的信息展示给用户的系统。
垂直搜索引擎的概念
垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页 搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、 旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有 更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬 件成本低、用户需求特定、查询的方式多样。
ATAM方法评价
• 介绍商业动机 • 垂直搜索引擎概念的提出,就是针对性的为某一特定领域、 某一特定人群或某一特定需求提供的有一定价值的信息和 相关服务。可以简单的说成是搜索引擎领域的行业化分工。 众多专业性网站、行业网站独立服务于互联网的成功,恰 恰证明了互联网的格局应该是多方面的。通用搜索引擎的 性质,决定了其不能满足特殊领域、特殊人群的精准化信 息需求服务。市场需求多元化决定了搜索引擎的服务模式 必将出现细分,针对不同行业提供更加精确的行业服务模 式。可以说通用搜索引擎的发展为垂直搜索引擎的出现提 供了良好的市场空间,势必将出现垂直搜索引擎在互联网 中占据部分市场的趋势,也是搜索引擎行业细分化的必然 趋势。 • 主要风险承担者:搜索引擎开发公司
用 户 信 息
权 限 管 理
其 他 基 础 信 息
栏 目 管 理
数 据 管 理
规 则 模 型
节 点 管 理
已 下 载 数 据
数 据 导 出
类 别 聚 类
数 据 聚 类
条 件 检 索
非功能性需求
运行时质量
容量 注册用户数: 计划 50,000人 同时在线用户数: 计划 1,000人 峰值并发量: 计划 8,000人 性能 响应时间:应具有一致的响应时间,响应时间≤1ms 可用性 有效时间:亚洲24/7 安全性 访问安全性:系统应为用户提供正确的访问权限 系统管理 备份与恢复:每个数据库应具有至少1份冗余,备份数据库与主数据库之间至 少每1小时发生一次同步化。系统故障时,应在2小时内完成系统的恢复。
垂直搜索引擎的缺点
后期维护成本高,信息源和信息量小
药学垂直搜索引擎平台的功能性需求设计
药学开放存取资源平台
数据采集子系统 基 本 管 理 采 集 管 理 搜 索 管 理 采 集 参 数
用户检索子系统 栏 目 导 航 层 次 类 聚 信 息 检 索 联 机 检 索
系统管理子系统
名 词 映 像 管 理 信 息 显 示
初始种子URL
URL URL
WEB
HTTP响应
网络机器人
HTTP请求 主题词及权值 HTML网页 过滤后的页面链接
主题词库
信息过滤
主题页面 主题页面
URL队列
过滤后的页
用户接口模块
查询条件 查询语句
索引模块
索引
主题网页数据库
搜索模块
索引数据库
查询结果
垂直搜索引擎体系结构
垂直搜索引擎与通用搜索引擎的比较
垂直搜索引擎的优点
◆采用的学科范围小,总得信息量相对较少,可以用分类索引的方法对采集到
的信息进行组织和整理,进一步提高信息的质量,以建立一个高质量、专业的 、能够及时更新的索引数据库; ◆只涉及某一个或几个领域,词汇和用语的一词/一字多义的可能性大大降低, 而且利用专业词表进行规范和控制,从而大大提高查全率和准确率; ◆信息采集量小,网络传输量小,有利于网络带宽的有效利用; ◆索引数据库的规模小,有利于缩短查询响应时间,还可采用复杂的查询语法 ,提高用户的查询精度等等。
ATAM方法评价
• 描述ATAM方法 • ATAM是一种考虑到多种质量属性——可修改性、性能、 可靠性和安全性等的评价体系结构的方法,这种方法确定 所设计的软件体系结构是否满足需求并且能确定这些属性 的折衷点,便于每个参与者(包括用户、开发者、客户和 维护者)从每个属性侧面来交流,明确和细化需求, ATAM方法通过将商业动机作为评定优先级的重要标准, 实现了对关键质量属性的考察,通过利用软件体系结构评 估小组和软件体系结构设计师的质量属性知识实现了对关 键体系结构决策的考察,使我们更清楚地理解软件体系结 构的重要决策在商业上的影响。
ATAM方法评价 • 给场景指定优先级 • 用户,软件编辑人员,系统编辑人员,软件运营 人员等 • 场景设置: 搜索结构和关键字不匹配 特定关键字无法搜索 返回目录过程中出现错误指令
ATAM方法评价
• 分析体系结构方法
• • • • • 使用具体关键字搜索 使用多个关键字 精确匹配搜索 特殊搜索命令 ……
ATAM方法评价
具体结构如图所示
ATAM方法评价
生成质量属性效用树
性能 响应时间<1秒 数据存储延迟 可修改性 效用 可用性
(M,L)把客户数据库的存储延迟 减少到最小200ms
以插件形式增加新功能 添加新的数据类型、数据源 更改用户界面 (H,L)以<2人周的工作量更改WEB 软件故障 硬件故障 数据完整性
用户
面向特定专业的用户群体
面向所有用户
自动分类
按照主题分类体系进行严格分类。
早期搜索引擎没有分类,现代通用搜索引擎提供简单的分 类。 索引中不包含主题。
索引
在实用索引中,包含有按主题分类建立的索引。
数据索引 与存储
给定Web资源,按某个标准或规范,将资源的标引项 提取出来按“元数据”标准存储。
对资源进行全文索引,没有“元数据”提取工作。
ATAM方法评价
• 体系结构的描述 • .NET框架 .NET框架(.NET Framework) 是由微软开发,一个致力 于敏捷软件开发(Agile softwaredevelopment)、快速应 用开发(Rapidapplication development)、平台无关性和 网络透明化的软件开发平台。.NET是微软为下一个十年对 服务器和桌面型软件工程迈出的第一步。.NET包含许多有 助于互联网和内部网应用迅捷开发的技术。.NET框架是一 个多语言组件开发和执行环境,它提供了一个跨语言的统 一编程环境。.NET框架的目的是便于开发人员更容易地建 立Web应用程序和Web服务,使得Internet上的各应用程 序之间,可以使用Web服务进行沟通。从层次结构来 看,.NET框架又包括三个主要组成部分:公共语言运行时 (CLR:Common Language Runtime)、服务框架 (Services Framework)和上层的两类应用模板——传统 的Windows应用程序模板(Win Forms)和基于ASP NET 的面向 Web的网络应用程序模板(Web Forms和Web Services)。
用户界面
(H,M)要在1.5分钟内检测并恢复网络故障
安全
访问权限控制
客户数据库认证在99.999%的时间
ATAM方法评价 • 分析体系结构方法 有风险点:运行程序延迟、数据存储延迟、数据机 密等 无风险点:缓存积累、错误信息的弹出等 敏感点:特殊关键字、特殊搜索命令、精确匹配等 权衡点:检索结果多余信息的去除
ATAM方法评价
• 调查与分析 所使用的体系结构方法(ASP.NET三层架构) 1.表现层(Presentatቤተ መጻሕፍቲ ባይዱon Layer) 表现层用于用户接口的展示, 以及用业务 层的类和对象来“驱动”这些接口。 在 ASP.NET中,该层包括aspx页面、 用户控制、服务器控制 以及某些与安全相关的类和对象。 2.业务层(Business Tier) 业务层用于访问数据层,从数据 层取数据、修 改数据以及删除数据,并将结果返回给表现 层。在ASP.NET中,该层包括使用SqlClient或OleDb从 SQL Server或Access数据库取数据、更新数据及删除数据, 并把取得的数据放到DataReader或DataSet中返回给表现层。 返回的数据也许只有一个整型数字,比如一个表的行记录 数目,但这也要用数据层的数据进行计算。 3.数据层(Data Tier) 数据层是数据库或者数据源。在.NET 中,通常它是一个SQL Server或Access数据库,但不仅限 于此两种形式,它还可能是Oracle,mySQL,甚至是XML。
类别
主题划分
垂直搜索引擎
面向主题,有严格的主题分类体系。
通用搜索引擎
一般没有分类体系或分类系统较粗糙。
爬行器
爬行器面向主题爬行,爬行器之间以主题为中心合作。
爬行器不分主题,根据控制策略随机分配爬行任务,属于 集中控制,不存在主题间合作。
数据存储
每个分布节点是一个主题或子主题。
每个分布节点不分主题,根据存储效率分配数据。
相关文档
最新文档