海量非结构化信息智能化处理共54页文档

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的关联判定
• 难点
– 复句的句法逻辑与情感词汇的潜在 情感极性判断(并列复句、转折复 句、条件复句、递进复句等)
– 语气、语境与情感词汇融合的情感 分析(否定句、感叹句、疑问句)
多媒体标注和检索
• 图像检索 • 音频识别、分类和检索 • 视频摘要、字母提取 • 跨媒体检索
20
大规模挖掘的技术趋势
• 非结构化海量信息的智能化处理:自然语言理解、 多媒体内容理解、机器学习等
目前所有大数据管理的解决方案 没有解决语义计算的基本问题:理解内容
二、海量非结构化信息智能化处理 的关键技术和典型应用
海量非结构化信息智能化 处理关键技术
分类和聚类
关联关系 挖掘
个性化推荐
多媒体 内容理解
可视化展现
信息抽取
书、说明书等全文数据规模大 – 各库数据结构差异大
• 查询要求高
– 严格的查全和查准要求 – 基于领域知识的智能检索 – 结构化和非结构化信息联合查询 – 相关专利推荐
专利检索与服务系统的数据种类与规模
100%查全率
6亿多条 专利记录
7×24 稳定可靠
多渠道异构 资源整合
1万注册用户
700-1000并 发
中国非结构化数据管理高峰论坛(CUDMS 2019)
海量非结构化信息智能化处理
施水才 北京拓尔思信息技术股份有限公司总裁
2019年1月6日 北京
提要
• 大数据管理的新挑战 • 海量非结构化信息智能化处理的关键技术
和典型应用 • 中国非结构化信息处理软件的市场概况 • TRS 非结构化数据管理和智能化处理系统 • TRS 海量非结构化信息智能化处理成功案
政府
企业
安全
互联网
新华社多媒体数据库系统
• 是新华社的核心业务支撑,典型的非结构化数据管理应用 场景,持续IT投资已经超过6亿人民币
• 以新华社遍布全球的新闻信息及采集网络为依托,全面整 合新华社的文字、图片、图表、音视频、报刊等全部资源 和社会上有价值的新闻信息资源,拥有包括中、英、法、 俄、西、阿及中文繁体在内的 6个文种,数据量超PB
<1秒 响应时间
专利检索引擎数据流转图
专利检索与服务系统-外观图像检索
专利图像外观检索
• 局部检索 • 形状检索 • 纹理检索 • 不变性特征检索 • 草图检索 • 数据分类 • 数据聚类 • 基于相关反馈的检索 • 跨语言检索
某部**智能搜索和挖掘系统
• 系统特点:
– 巨大的数据量 – 多样性数据 – 数据极快速增长
• 非结构化中文信息智能应用对象为非结构 化的中文文字信息,不包括音频、视频和 图像,非结构化中文信息智能应用软件市 场包括中文企业搜索软件、基于垂直搜索 的应用软件、内容管理软件和知识管理软 件等
2019年中国非结构化中文信息智能 应用软件市场细分产品规模与结构
规模(单位:亿元)
企业搜索软件
3.67
• 系统现状
– 已经部署数千台服务器,满足 了业务需求
• 挑战
– 性能和可扩展性 – 整合和调度
目前部署TRS 系统 2000多套,正在改进 系统架构,增强分布
式存贮、管理和查询 挖掘性能
**全球网站群(企业内容管理)
• 企业内容管理的发展趋势
– 互联网品牌宣传交互平台 – 互联网营销中心 – 互联网电子商务运营体系
– 文本自动分类、文本的聚类分析 – 句子、篇章级的情感分析 – 篇章级变异信息的识别与比对(例如:篡改)
自动分类
• 关键点
– 统计与规则相结合的混合分类引 擎
– 分类体系的科学化
– 基于中文新闻信息分类体系的分 类模板构造
– 支持多语言混合分类
• 难点
– 针对差异化对象数据,模板参数 的合理化设置
• **的实践
– 原来采用IBM咨询、产品、 服务整体解决方案
– 成本高、性能差 – 2019年全部改为TRS产品和
应用解决方案
内容管理、Web 2.0、电子商务、数据挖掘
TRS 舆情云服务系统
一套基于云计算平台的 包括社交网络在内的网 络舆情采集、搜索、智 能分析、导控处理的舆 情云服务系统
新闻:日均50万条 论坛:日均120万条
TRS 非结构化数据处理技术路线图
~1993
1993~2000
2019~2019
2019 ~
SQL+NoSQL(Hadoop/Hbase )
+多引擎+云服务平台
基于文件系统 的专用数据库
-高效,对结构化数据支 持不足
SQL+专用数据库 -复杂检索引擎 -内容管理(CM)
基于SQL - 效率低
TRS 非结构化信息处理的定位
IBM,Oracle,Microsoft 都在致力解决这个问题
大数据管理的新挑战 -从管理数据到理解和分析内容
• 虽然大数据是一个重大问题,Gartner分析师表示, 真正的问题是让大数据更有意义
• 目前海量数据管理多从架构和并行等方面考虑,解 决高并发数据存取的性能要求及数据存储的横向扩 展,但对非结构化数据的内容理解仍缺乏实质性的 突破和进展,这是实现大数据资源化、知识化、普 适化的核心
• 2019年开始建设自主可控可持续发展的专 利检索和服务系统,采用大量的PC服务器
• 典型的非结构化/半结构化数据应用场景 • 目前公共检索和审查员检索系统全部使用
TRS检索引擎
专利检索系统的需求特点
• 数据多样性
– 结构化、半结构化和非结构化数据的结合 – 申请人、申请号、名称等著录项很多; 权利要求
2019年规模 (亿元)
4.64 14.70
5.86
2019年规模( 亿元)
5.84 18.29
2019年规模( 亿元)
7.32 22.67
7.23
9.02
垂直搜索及舆情监测软件
4.11
5.53
7.45
总计
29.31
36.89
46.46
2019年,中国非结构化中文信息智能应用软件市场规模将达到46.46亿元,年均 复合增长率为25.8% 数据来源:赛迪顾问 2019,12
新华社多媒体库的技术特点
• 非结构化数据和结构化数据统一管理 • TRS多语言检索引擎 • 全面采用TRS文本挖掘技术 • 良好的集群扩展能力 • 索引服务器读写分离
国家知识产权局专利检索服务系统
• 2019年专利局引进了欧洲EPOQUE系统,基 于大型机的专利检索系统,每年的系统维 护费用就达数千万元
•成本 •可维护性 •对业务的支持 •内/外 一体化
在企业级计算中部署大数据管理技术是一种趋势, 但仍需时日,一体机和通用平台之争
大数据管理的新挑战 -从各取所需到集成和融合统一建模
• 目前解决结构化数据和非结构化数据统一处 理的方法的机制并不完善,缺乏形式化支持
文件 系统
SQL
NoSQL
X?
•SQL 的传统主导地位 •互联网企业的反SQL文化 •未来的企业级平台是否能统一?
• 难点
– 千万级数据消重的亚秒级响应机制 – 违规非法内容的判定与识别 – 跨语言的新闻信息转载识别
话题检测与追踪技术
• 关键点
– 海量信息片段的聚 合机制
– 话题相关度运算
• 难点
– 基于遗忘因子机制 的话题演化跟踪
– 敏感话题的及时发 现
情感分析
• 关键点
– 主观情感色彩语句、要素识别 – 倾向性语义模型库的构建 – 语义倾向性词典的倾向强度划分 – 情感持有者、情感极性与情感对象
• 拓尔思信息技术股份有限公司是中国资本市场上唯 一的以非结构化信息处理为核心业务的上市公司 (300229),是中国非结构化信息处理领域的领导 者,核心技术包括企业搜索引擎、垂直搜索引擎、 内容管理、信息智能挖掘分析、舆情分析技术等
• 公司自主研发的TRS系列产品已被国内外3000多家 企业级机构客户广泛使用,覆盖了众多国家部委和 地方政府部门、国内主要新闻媒体、大型企业集团 等
命名实体识别
• 关键点
– 实体识别算法+工程应用 – 行业知识库支撑 – 基于行业应用场景的实
体识别机制(公文、案 件、物品等)
• 难点
– 绰号、网名、小名、笔 名、艺名、指标名 称 ……
– 同名排歧 – 人物多重社会角色分析
实体关系的抽取
• 关键点
– 语境、上下文关系分析 – 关系引擎构建 – 面向行业的主题词典 – 角色关系词典 – 与RDBMS结合的联动挖掘
• 最早采用文件系统,后来改为Oracle,效率很低, 再改为Oracle+TRS ,持续服务至今
• 从大型机改为PC服务器集群
• 有采用云计算技术的计划
27000家 注册用户
8000多种 资源分类
多语种数据
PB级数据量
1.5亿条 原创新闻资讯
26000小时 权威原创视频
700万张图片
新华社多媒体数据库数据流转图
– 分类模板的反馈学习机制
– 提供较实用的分类可信度评价指 标,供应用参考
关键词标引与自动摘要技术
• 关键点
– 基于位置、频度和背景词库 等多维度的标引和摘要引擎
– 行业词典支持 – 词性、短语类型、长度、特
殊符号标识
– 基于关键句的权值运算与筛 选的摘要策略
– 关键词驱动的偏重摘要
• 难点
– 基于语义的隐含标引
• 难点
– 类属关系识别(粮食:大豆) – 隐含关系发现(股东关系) – 关系链深度、广度挖掘 – 基于图论的可视化关联展示
信息抽取实例
人物关系挖掘实例
自动过滤与自动消重
• 关键点
– 垃圾广告信息的识别(群发) – 转载文章相似度比对技术 – 不同阈值的相似文章聚合 – 变异信息的识别与比对(篡改)
• 是核高基“非结构化数据管理系统”清华 课题组参与单位
• 负责LaUD 的产品化和应用推广
五、TRS 海量非结构化信息智能化 处理成功案例
案例名称
• 新华社多媒体数据库 • 国家知识产权局专利检索服务系统 • 某部**智能搜索和挖掘系统 • 海尔全球网站群(企业内容管理) • TRS舆情云服务系统
2019年中国非结构化中文信息智能 应用软件市场主力厂商份额结构
IBM, 19.6%
其他, 48.4%
微软, 14.0%
EMC, 9.1% TRS, 8.9%
1、国际厂商仍然占据主要地位 2、拓尔思为国内厂商第一名 3、市场仍然分散,未来有较大空间
四、TRS 非结构化数据管理和智 能化处理系统
拓尔思 VS 非结构化信息处理
(包括跟帖) 博客:日均5万条 微博:日均5000万条 国外:日均25万条
舆情培训 公关处置
政府舆情 监测
企业口碑 监测
舆情报告
TRS SMAS舆情云服务平台
事 前

事 后

TRS 舆情云服务系统技术架构
•MySQL •Hbase •Hadoop •TRS 检索引擎 •TRS 挖掘引擎
内容管理软件
11.76
知识管理及竞争情报软件
4.78
垂直搜索及舆情监测软件
3.12
总计
23.33
数据来源:赛迪顾问 2019,12
百分比
15.7% 50.4% 20.5% 13.4% 100%
2019-2019年中国非结构化中文信息智能 应用软件市场细分产品规模预测
企业搜索软件 内容管理软件 知识管理及竞争情报软件ห้องสมุดไป่ตู้
跨媒体 融合
情感计算
基于语义 的检索
语义智能计算
• 短语级的语义计算
– 相似短语、相关短语的计算 – 实体、要素间的关联关系挖掘 – 实体的情感分析 – 词语级的聚类分析。例:标签聚类 – 短语级的比对分析等。例:姓名、出生日期、学历、地址、单位
名称等
• 篇章级的语义计算
– 同语种、跨语种的相似文本计算(例:文章转载报道、文章消重 等)
• 不仅满足数据管理的要求,理解内容、发现内 容的价值是TRS的研发重点
– 自然语言理解 – 多媒体内容理解 – 跨媒体和跨语言搜索
• 和互联网单一应用相比,重视信息内容的全生 命周期管理
• 云服务和软件系统并举
– 互联网服务的弹性 – 企业信息系统的可实施性和可维护性
实现核高基成果的产品化和应用
• 分布式大规模挖掘,解决性能问题 • 动态样本学习,不断优化语义规则和统计
模型,确保精度的稳定和持续提高
海量非结构化信息智能化 处理典型应用
社交网络
知识管理
电子商务
企业搜索
舆情分析
搜索引擎
内容管理
三、中国非结构化中文信息智能 应用软件市场概况
研究范围
• 中文信息智能应用是指用计算机对中文信 息进行智能分类、存储、搜索、发布、监 测等处理和应用。

一、大数据管理的新挑战
一、大数据管理的新挑战
• 从互联网服务到企业信息化 • 从各取所需到集成和融合统一建模 • 从管理数据到理解和分析内容
大数据管理的新挑战 - 从互联网服务到企业信息化
•封闭的数据库世界 •有限的非结构化数据 管理能力 •缺乏低成本可扩展性
•推动了数据分析及非结构 化信息管理的技术突破 •Hadoop架构提供了巨大 的可扩展性和灵活性优势 •朝云服务方向发展,但是 并不适合很多企业计算环 境 •对非结构化信息本身的理 解非常有限
相关文档
最新文档