大数据爬虫服务平台

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

精华提炼 立足于业务特色而做的筛选标准, 针对性强、要求高;对外部可靠性强的 新闻网站进行新闻遴选,内容深度更深。
时效性与灵活性兼顾 以基本内容框架为基础,可以根据 形势需要,当重大事件发生时添加临时 专题,彰显对重大事件的反应灵敏度和 时效性。
强大的后台支撑体系 充分利用大数据平台,每日多轮自 动化爬取新闻,提高信息的及时性;高 端分析师进行二次判别审核,保证信息 的有效性。
将优先面向高层管理人员,后期逐 PC+移动APP 步对各层级职责部门实现。
精准决策服务推动方式 – PC+移动端
爬虫应用案例 -- 精准决策情报产品应用(5)
吉贝克精准决策应用于某
国有银行高管驾驶舱上线,由 PC 和 PAD 双重展现。每日更 新, 兼顾时效性与灵活性 , 便于总分行领导及时掌握外部 重要信息。 自上线以来,精准决策
爬虫应用案例– 基于大数据的黑名单监测(1)
2 1
风险控制是现代经济金融工作的核心
传统风控手段
互联网技术
大数据分析技术
• 渠道狭窄、识别薄弱、 深度欠缺 • 业务面临便覆盖面低, 信息采集代价高,时 效性低等客观难题
• 更多有信息资源优势和技术 优势的企业借助互联网大数 据丰富了传统的风险管理机 制,形成以海量数据分析为 基础的创新型风险控制环境
爬虫工具使用示例(1)
爬虫工具使用示例(2)
爬虫工具使用示例(3)
爬虫工具使用示例(4)
吉贝克爬虫产品的特性和亮点
可视化监控
深度宽度 拓展和限定
适合 数据挖掘
权限管理
可视化维护 抓取规则
可视化 网页剖析
日志
语义字段 精确抓取
网页编码 自动支持
适合 大数据分析 适合集成 信息系统
开放架构 利于集成
语义标注
第一步:语义标注——直观的所见即所得的方式,容易操作 第二步:自动算出采集规则——不用手工编程,不用程序员参与 第三步:将采集规则发布给协同化爬虫集群
内容
Auto Auto
Manual
第四步:网络爬虫采集网页并结构化转换 后续:入库和数据挖掘(由配套软件完成)
Auto
Auto
转发内容的作者
转发内容
精准决策的价值
为管理决策提供 及时的精准情报
为行业研究提供 长期的深度追踪
为竞争分析提供 全面有效的信息
为业务拓展提供 同业的创新借鉴
精准决策解决方案和应用价值
爬虫应用案例 -- 精准决策情报产品应用(3)
覆盖全面 覆盖国内国际的重大新闻,国内外 宏观、行业的趋势和动态等内容,涵盖 与企业业务相关的各领域资讯动态。
黑名单是利用互联网大数据技术聚焦经济主体负面信息的风控应用
爬虫应用案例– 基于大数据的黑名单监测(2)
数据来源
平台爬取
法院数据、行 业网站数据、 政府监管机构 数据、行业专 业网站数据
C++内核 高性能
爬虫群协同 不重不漏
非编程可视化 制作规则
团队学习 模板套用 定时抓取
JS网页 一视同仁
协同化助 海量抓取
任务规划
性能统计
抓取规则 即时验证
线索状态 跟踪管理
增量抓取
动态静态 抓取一致
多线程
抓取规则 自动生成
网页解析 容错性高
异地部署 防封锁
故障恢复
自动补抓
可视化网页抓取的主要步骤
BigData Service
大数据爬虫服务平台
大数据数据技术服务 – 爬虫
大数据基础管理平台架构 大数据爬虫架构
2
爬虫抓取组件
爬虫控制架构
网页抓取平台组建
爬虫节点通信
爬虫控制方法
网络爬虫的反爬处理
代理服务器IP的访问策略 分布式多线程模式 模拟多IP和多浏览器策略 验证码的反爬处理
爬虫服务器可根据单PC爬虫的性能调整抓取任务和线索的数量 爬虫系统支持7*24不间断重复抓取目标网站最近更新后的数据, 包括微博、论坛等 爬虫引擎独立于其他数据清洗、数据分析和展示模块,其本身仅 提供抓取目标网站原始数据的功能,通过数据库可与外部系统或 模块无缝集成
软件系统可扩展性
爬虫应用案例 -- 精准决策情报产品应用(1)
信息过载,与业务相关的关键信息被噪音包围,难以及时全面地掌握
爬虫应用案例 -- 精准决策情报产品应用(2)
精准决策概述
吉贝克精准决策,为企业提供全面、及时、精准的行业外部竞争情报,协助管理层 实现最佳决策。凭借吉贝克精深的大数据技术和金融行业经验,提供高效、专业的竞争情 报服务,增强决策者洞察市场、洞察产品、洞察用户的能力,构建动态的竞争优势。
精准决策优势和特色
爬虫应用案例 -- 精准决策情报产品应用(4)
吉 贝克精 准 决策服务 由 嵌入
高管驾驶舱应用 和 移动 APP 两
种方式展现。精准决策可作为应用 模块与已有高管驾驶舱直接对接, 亦可通过移动终端(平板电脑、手机) APP完成信息推送。
移动 APP 可分角色、职能进行
个性化推送 。初期的个性化推送
抓取结果文件
原文发布时间
原文转发数
原文评论数
发布时间
转发数
评论数
14
吉贝克爬虫解决方案能力说明
爬虫能力指标 分布式爬虫 可伸缩性 爬虫系统性能 新鲜性&更新
爬虫能力说明
支持爬虫分布在不同地点的不同机房协同抓取目标网站数据
支持动态扩展和增加新的爬虫PC加入原有爬虫群,可扩展爬虫系 统至数百台PC爬虫群的数量开展大规模并行抓取,提高效率
高管需要从丰富的信 息源中快速获取到自 身所需的关键信息
信息环境
高管需求
精准决策
综合应用技术 手段和业务分 析手段能够降 低信息过载的 影响
收到总分行领导的广泛关注
和充分肯定,成为点击率最
综合利用技术 手段能够提升 对高管的服务 能力
高的应用,现已启动二期项
目。
技术手段 国家开发银行成功应用案例:2013年上线运行
爬虫安全设计方案
吉贝克网络爬虫核心软件系统架构
规则服务器
爬虫服务器
规则服务器
Internet接入
Internet接入
Internet接入
2 爬虫节点 服务器-1 网络爬虫协同化采集数据
3
n 机房A
1
2
n 机房B
1
2
n 机房N
爬虫软件系统分成2部分:服务器&客户端软件 客户端软件是抓取规则定义软件和网络爬虫软件 爬虫服务器节点分布式跨地域部署,所有爬虫节点统一协同运行,实现海量抓取并防封锁 规则服务器软件负责语义标签和信息Baidu Nhomakorabea构管理、爬虫线索和抓取规则调度和管理 规则服务器软件统一协调所有网络爬虫,给网络爬虫分配采集任务,既不漏也不重
相关文档
最新文档