互联网信息自动获取与智能分析技术在新媒体...
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• (2006 硕) 舒文兵 Web页面主题信息的识别、提取及其应用
• (2006 硕) 马龙 中文自动文本摘要的研究与应用
• (2006 硕) 刘缙 一种分布式全文检索增量更新策略设计与实现
• (2006 博) 万小军 基于文档结构关系的相似搜索与自动摘要技术
• (2007 硕) 路斌 互联网舆情热点的自动发现和分析技术
• 论坛页面
URL、主题、发帖人、发帖时间、点击量、回复数、正文(文字、图片、视频 )、附件URL、发帖人IP及其他相关信息;
• 博客页面
URL、标题、作者、发布时间、来源网站、正文(文字、图片、视频);
采集模版和数据分离技术
境外直达
采集监控
2.网络信息智能分析
• 信息自动发现
– 新闻关注规则
信 息
话题深入追踪 业
新闻关联分析
务 定
智 能
竞争情报分析 制
…… 分
析
统计分析管理 数 据
推
送
I新闻库
知识库
共享库
案件库
任务接收
方正智思互联网信息采集分析系统 功能概览
自动采集 新闻采集 论坛采集 博客采集 手机报采集 全网监控 分布采集 模板管理
智能分析 关键词提取
自动摘要 多文档摘要
相关推荐 自动分类 自动聚类 主题监测
由人民大学舆论所、中央电视台《对话》栏 目和北京晚报共同发布《月度舆情报告》
2.网络舆论热点衡量的基本指标建构
一级指标
指标赋 值
二级指标
舆论稳定性 20%
网络舆情指数 舆情的分布 20%
舆情的强度 60%
时间维度 意见维度 数量维度 显著维度 集中维度
指标赋值 (百分制)
20% 20% 20% 20% 20%
• 新闻评论采集 • 动态网页采集 • 手机报采集 • 微博客采集 • 境外受控信息采集与浏览 • 图片、视频多媒体采集 • 附件采集 • 头条采集 • 区域采集 • 排行榜采集 • 支持分页采集及标注 • 自适应采集策略 • 域名管理策略 • 采集模版分发管理 • 采集监控
采集范围
• 新闻页面
URL、标题、作者、发布时间、来源网站、点击数、正文(文字、图片、视频 )、评论、评论数、附件URL、下一页URL;
网络热点衡量的基本指标建构
时间维度:
反映某一议题的舆论在不同时间点上的变化情况(具体表现在某一议 题每天呈现的帖子的总数变化);
数量维度:
反映某一议题帖子的多少(总贴数和平均每天的贴数);
显著维度:
反映某一议题帖子在论坛总帖子中的比例;
集中维度:
反映某一议题帖子在不同网友之间的分布;
4.1新闻话题分析
• 案例:哈尔滨警察涉嫌打死大学生
帖子量
系统现有功能(语义观点分析前)
250
200
150
100
50
0
10.12 10.13 10.14 10.15 10.16 10.17 10.18 10.19 10.20 日10期.21
4.2基于语义的话题观点分析
• 案例:哈尔滨警察涉嫌打死大学生
• 7.WWW2007文章 “LearningInformationDiffusionProcessontheWeb” ,这篇文章对互联网舆情预警系统中话题传播过程分析这个新颖的功能进行了定义 和解决。
• 8.WWW2006文章 “UsingProportionalTransportationSimilaritywith learnedelementsemanticsforXMLdocumentclustering”,这篇文章介绍了 利用均衡运输相似度模型进行XML聚类的技术。
• 3.IJCAI2007文章“Manifold-RankingBasedTopic-FocusedMulti-Document Summarization”,提出了利用新颖的半监督学习算法-簇排列(ManifoldRanking)的方法进行主题相关的多文档摘要,取得了较好的效果,获得了评审的好 评。
推荐相关信息 自动摘要
4 相似搜索
全国网络关于四平地震事件的搜索
5 新闻追踪分析
• 设置要追踪的新 闻主题
• 追踪新闻主题的 相关文章数量、 相关点击数量、 相关评论数量
• 预警重要新闻信 息
6.辅助分析工具 网络新闻信息专报
方正核心技术及业务方向
以具有完全自主知识产权的 中文自然语言处理技术CNLP (ChineseNaturalLanguage Processing)与 数据挖掘技术 (DataMining)为基础,通过信息 关联分析与共享、实现对网络媒体 信息的自动获取与智能分析判断。
Hale Waihona Puke Baidu辽宁省委 湖北省委
宁夏自治区委
上海市委 大监管规划
重庆市委 二期规划
舆情预警 演示版
舆情V1.0
舆情V1.5 监看、研判
舆情V2.0 监看、研判 查处
舆情V2.5 监看、研判 查处、网评
舆情V3.0 监看、研判 查处、引导
应用产品
底层引擎
检索1.0 天钩1.0
检索1.5
分析1.5 采集1.5
检索2.0
互联网信息自动获取与智能分析技术 在新媒体中的应用
主讲人:王伟
北京北大方正电子有限公司
提纲
1 网络信息自动获取与智能分析技术背景 2 新媒体应用解决方案 3 方正核心技术及业务方向 4 自动获取与智能分析最新研究方向和进展 5 典型项目案例及应用
网络信息自动获取与智能分析技术背景
1.技术产生的背景
• 4.AAAI2007文章“SingleDocumentSummarizationwithDocument Expansion”,利用文档扩展机制改进单文档摘要,并分析了文档扩展方法。评审 认为这是一个有趣的和重要的思想。
• 5.ACL2007文章“TowardsanIterativeReinforcementApproachfor SimultaneousDocumentSummarizationandKeywordExtraction”,提出了 对文档摘要和关键词进行统一抽取的图学习模型,该模型可以自然地引入词语之间 的语义关系,能够同时改善文档摘要和关键词抽取效果。
3 舆情系统技术框架
方正的业务方向
• 成熟、高效、专业的智能分析产品技术团队 06年正式成立“互联网业务部” 包括网络信息智能分析基础技术研发、应用产品开发、 项目的服务团队、服务团队。
• 广泛的用户基础 客户众多,较高的行业知名度 网络信息智能分析领域近50个案例,市场占有率第一。 包括:国家级重点项目、直辖市项目、省级项目、地市 项目
4.5跨信源的新闻溯源与追踪
4.6 话题深度语义分析技术架构
网
络
信
息
内 容
网 页
自
动
采
集
情感知识库/情感语料库
舆情片断 情感倾向分析
特征 提取
话题 检测
存储 索引
观点 分析
传播 分析
演化 分析
新
新
闻
闻
态
态
势
势
微
宏
观
观
评
评
价
价
网页库/网页索引
服务应 用
媒体 监测
信息 发现
新闻 追踪
关联 分析
典型项目案例及应用
帖子量
语义观点分析后
140
120 同情死者, 100 谴责警察
80
同情警察, 侮辱死者
其他观点
“高官背景”
60
40
20
0
10.12 10.13 10.14 10.15 10.16 10.17 10.18 10.19 10.2日0期10.21
4.3褒贬分析(正负面分析)
4.4话题要素分析(人物关系分析)
2 技术积累
• (2002 博) 杨建武 面向半结构化文档集的文本挖掘研究及应用
• (2003 硕) 万小军 一个用于中文新闻主题检测与追踪的原型系统
• (2004 硕) 曾铭芳 知识管理系统中一种自动关键词提取技术
• (2005 硕) 刘灿 用于非结构化数据相似搜索的索引技术研究
• (2005 博) 贾娟 多文章共存的复杂版面文档的逻辑结构识别
• 6.SIGIR2007文章“CollabSum:ExploitingMultipleDocumentClusteringfor CollaborativeSingleDocumentSummarizations”,提出了协同单文档摘要的 概念,利用文档聚类得到相关文档集,对相关文档集中的所有文档进行协同式摘要 。评审认为这是一篇很优秀的论文 (“Thisisareallyexcellentpaper,bothin theideasandintheevaluationofthoseideas”),四个评审的总体打分分别为 5,5,5,4(满分为6)。
项目案例
• 上海新闻出版局 • 山西新闻出版局 • 云南新闻出版局 • 吉林新闻出版局 • 广州日报 • 国务院新闻办 • 北京市网管办 • 上海市委宣传部 • 重庆市委宣传部 • 江苏省委宣传部 • 宁夏党委宣传部 • 湖北省委宣传部 • 浙江省委宣传部 • 江西省委宣传部 • 贵州省委宣传部 • 大连市委宣传部 • 菏泽市委宣传部 • 许昌市委宣传部 • 诸城市委宣传部
• 高端用户的战略合作伙伴 上海新闻出版局、山西局、云南局、吉林局 广州日报 国务院新闻办、上海市宣传部、重庆市宣传部 北京网管办等
• 国内国际领先的核心技术 十年技术积累 参与多项国家重点课题—互联网信息分析相关 发表四十多篇学术论文 申请二十多项发明专利 与人民大学新闻学院成立“网络舆情研究基地”
采集2.0
智思2.5 采集\检索\分析
元搜索1.0
境外隧道
智思3.0 智能采集 智能检索 舆情分析
自动获取与智能分析的研究方向 和进展
1.网络热点研究方法的探索
08年12月24日,方正与人民大学成立全国 首家网络舆情监测研究基地
研究基地致力于网络热点研究,利用方正智 思系统对网络舆情进行监测统计研究
网络信息资源丰富、新闻采集范围广 网络新闻 网络论坛 网络博客 Wiki、Twitter 数字报刊;电子报 手机报 电子书;网络电影、视频、图片
互联网实时性、群体性特点,便于对 新闻话题深入分析
互联网热点事件频发
新媒体应用解决方案
新媒体应用解决方案
互联网信息采集分析系统工作原理
• 标题、内容
– 本地规则
• 地名、人名、组织机构
– 信息预警 – 活跃网民 – 网络推手 – 网络搬运工 – 重大事件、时政专题、
网站时政专区的定向定 题聚类分析
3.热点信息自动发现
热点追踪
系统自动对文本内容智能理解 语义
关联话题相似的新闻文章和论 坛帖子
自动发现 网络热点
应用话题自动发现技术TDT (Topic detection and tracking)实现网络热点新闻 主动发现
自动采集
智能分析
系统配置
新闻关联
分析报告
智能研判
1 领先的自然语言处理技术
• 1.SIGIR2008信息检索领域顶级会议一篇 “ Multi-DocumentSummarization UsingCluster-basedLinkAnalysis.”
• 2.AAAI2008人工智能领域顶级会议一篇“ SingleDocumentKeyphrase ExtractionUsingNeighborhoodKnowledge.”
舆情监管项目
方正参与网络信息智能分析项目历程
2005
2006
2007
2008
2009
2010
舆情预警 演示版
中宣部 实验系统
上海项目 调研规划
国新办项目 测试论证
江苏省委 大连市委 郑州市委
江西省委 贵州省委 杭州市委
与人民大学成立网 络舆情研究基地
上海二期 #查处管理
重庆项目 #网评管理
浙江省委 北京市委 网管办项目
信息采集
信息分析
应用服务
新闻 专题 评论 论坛 主贴 回帖 博客 贴吧
搜索引擎
元搜索
关键词 摘要
数
据
自
智能采集
动 过
滤
智能处理 智能分析
采集规则
超级搜索 自动发现 热点分析 时间分析 话题分析 传播路径 主题演化
配置工具 模板库 维护工具
相似索引 全文索引
数据索引 分类索引
主题索引
探针\取证
新闻采集
新闻分析 超级搜索 敏感信息 热点发现 专项任务 网络探针
办公业务 新闻提交 审核管理
基础数据 新闻词管理
主题管理 任务管理 新闻库管理
系统管理 权限管理 日志管理 界面定制 参数管理 存储管理
智能研判 时间趋势 网站分布 地域分布 话题演化 传播路径 新闻追踪 统计分析 信息简报
1.网络信息自动获取
意见维度:
反映某一议题帖子各种不同意见的分布情况。
3.提高互联网信息获取与分析的广度和深度
• 深度方面
基于语义的话题深度分析 话题观点分析、话题要素分析
跨信源的新闻溯源与追踪 网络重要人物分析 基于语义的敏感信息自动发现 信息态势分析与指数评价
• 广度方面
论坛、博客、新闻评论 搜索引擎 P2P、IM内容 手机内容 图片、视音频
• (2006 硕) 马龙 中文自动文本摘要的研究与应用
• (2006 硕) 刘缙 一种分布式全文检索增量更新策略设计与实现
• (2006 博) 万小军 基于文档结构关系的相似搜索与自动摘要技术
• (2007 硕) 路斌 互联网舆情热点的自动发现和分析技术
• 论坛页面
URL、主题、发帖人、发帖时间、点击量、回复数、正文(文字、图片、视频 )、附件URL、发帖人IP及其他相关信息;
• 博客页面
URL、标题、作者、发布时间、来源网站、正文(文字、图片、视频);
采集模版和数据分离技术
境外直达
采集监控
2.网络信息智能分析
• 信息自动发现
– 新闻关注规则
信 息
话题深入追踪 业
新闻关联分析
务 定
智 能
竞争情报分析 制
…… 分
析
统计分析管理 数 据
推
送
I新闻库
知识库
共享库
案件库
任务接收
方正智思互联网信息采集分析系统 功能概览
自动采集 新闻采集 论坛采集 博客采集 手机报采集 全网监控 分布采集 模板管理
智能分析 关键词提取
自动摘要 多文档摘要
相关推荐 自动分类 自动聚类 主题监测
由人民大学舆论所、中央电视台《对话》栏 目和北京晚报共同发布《月度舆情报告》
2.网络舆论热点衡量的基本指标建构
一级指标
指标赋 值
二级指标
舆论稳定性 20%
网络舆情指数 舆情的分布 20%
舆情的强度 60%
时间维度 意见维度 数量维度 显著维度 集中维度
指标赋值 (百分制)
20% 20% 20% 20% 20%
• 新闻评论采集 • 动态网页采集 • 手机报采集 • 微博客采集 • 境外受控信息采集与浏览 • 图片、视频多媒体采集 • 附件采集 • 头条采集 • 区域采集 • 排行榜采集 • 支持分页采集及标注 • 自适应采集策略 • 域名管理策略 • 采集模版分发管理 • 采集监控
采集范围
• 新闻页面
URL、标题、作者、发布时间、来源网站、点击数、正文(文字、图片、视频 )、评论、评论数、附件URL、下一页URL;
网络热点衡量的基本指标建构
时间维度:
反映某一议题的舆论在不同时间点上的变化情况(具体表现在某一议 题每天呈现的帖子的总数变化);
数量维度:
反映某一议题帖子的多少(总贴数和平均每天的贴数);
显著维度:
反映某一议题帖子在论坛总帖子中的比例;
集中维度:
反映某一议题帖子在不同网友之间的分布;
4.1新闻话题分析
• 案例:哈尔滨警察涉嫌打死大学生
帖子量
系统现有功能(语义观点分析前)
250
200
150
100
50
0
10.12 10.13 10.14 10.15 10.16 10.17 10.18 10.19 10.20 日10期.21
4.2基于语义的话题观点分析
• 案例:哈尔滨警察涉嫌打死大学生
• 7.WWW2007文章 “LearningInformationDiffusionProcessontheWeb” ,这篇文章对互联网舆情预警系统中话题传播过程分析这个新颖的功能进行了定义 和解决。
• 8.WWW2006文章 “UsingProportionalTransportationSimilaritywith learnedelementsemanticsforXMLdocumentclustering”,这篇文章介绍了 利用均衡运输相似度模型进行XML聚类的技术。
• 3.IJCAI2007文章“Manifold-RankingBasedTopic-FocusedMulti-Document Summarization”,提出了利用新颖的半监督学习算法-簇排列(ManifoldRanking)的方法进行主题相关的多文档摘要,取得了较好的效果,获得了评审的好 评。
推荐相关信息 自动摘要
4 相似搜索
全国网络关于四平地震事件的搜索
5 新闻追踪分析
• 设置要追踪的新 闻主题
• 追踪新闻主题的 相关文章数量、 相关点击数量、 相关评论数量
• 预警重要新闻信 息
6.辅助分析工具 网络新闻信息专报
方正核心技术及业务方向
以具有完全自主知识产权的 中文自然语言处理技术CNLP (ChineseNaturalLanguage Processing)与 数据挖掘技术 (DataMining)为基础,通过信息 关联分析与共享、实现对网络媒体 信息的自动获取与智能分析判断。
Hale Waihona Puke Baidu辽宁省委 湖北省委
宁夏自治区委
上海市委 大监管规划
重庆市委 二期规划
舆情预警 演示版
舆情V1.0
舆情V1.5 监看、研判
舆情V2.0 监看、研判 查处
舆情V2.5 监看、研判 查处、网评
舆情V3.0 监看、研判 查处、引导
应用产品
底层引擎
检索1.0 天钩1.0
检索1.5
分析1.5 采集1.5
检索2.0
互联网信息自动获取与智能分析技术 在新媒体中的应用
主讲人:王伟
北京北大方正电子有限公司
提纲
1 网络信息自动获取与智能分析技术背景 2 新媒体应用解决方案 3 方正核心技术及业务方向 4 自动获取与智能分析最新研究方向和进展 5 典型项目案例及应用
网络信息自动获取与智能分析技术背景
1.技术产生的背景
• 4.AAAI2007文章“SingleDocumentSummarizationwithDocument Expansion”,利用文档扩展机制改进单文档摘要,并分析了文档扩展方法。评审 认为这是一个有趣的和重要的思想。
• 5.ACL2007文章“TowardsanIterativeReinforcementApproachfor SimultaneousDocumentSummarizationandKeywordExtraction”,提出了 对文档摘要和关键词进行统一抽取的图学习模型,该模型可以自然地引入词语之间 的语义关系,能够同时改善文档摘要和关键词抽取效果。
3 舆情系统技术框架
方正的业务方向
• 成熟、高效、专业的智能分析产品技术团队 06年正式成立“互联网业务部” 包括网络信息智能分析基础技术研发、应用产品开发、 项目的服务团队、服务团队。
• 广泛的用户基础 客户众多,较高的行业知名度 网络信息智能分析领域近50个案例,市场占有率第一。 包括:国家级重点项目、直辖市项目、省级项目、地市 项目
4.5跨信源的新闻溯源与追踪
4.6 话题深度语义分析技术架构
网
络
信
息
内 容
网 页
自
动
采
集
情感知识库/情感语料库
舆情片断 情感倾向分析
特征 提取
话题 检测
存储 索引
观点 分析
传播 分析
演化 分析
新
新
闻
闻
态
态
势
势
微
宏
观
观
评
评
价
价
网页库/网页索引
服务应 用
媒体 监测
信息 发现
新闻 追踪
关联 分析
典型项目案例及应用
帖子量
语义观点分析后
140
120 同情死者, 100 谴责警察
80
同情警察, 侮辱死者
其他观点
“高官背景”
60
40
20
0
10.12 10.13 10.14 10.15 10.16 10.17 10.18 10.19 10.2日0期10.21
4.3褒贬分析(正负面分析)
4.4话题要素分析(人物关系分析)
2 技术积累
• (2002 博) 杨建武 面向半结构化文档集的文本挖掘研究及应用
• (2003 硕) 万小军 一个用于中文新闻主题检测与追踪的原型系统
• (2004 硕) 曾铭芳 知识管理系统中一种自动关键词提取技术
• (2005 硕) 刘灿 用于非结构化数据相似搜索的索引技术研究
• (2005 博) 贾娟 多文章共存的复杂版面文档的逻辑结构识别
• 6.SIGIR2007文章“CollabSum:ExploitingMultipleDocumentClusteringfor CollaborativeSingleDocumentSummarizations”,提出了协同单文档摘要的 概念,利用文档聚类得到相关文档集,对相关文档集中的所有文档进行协同式摘要 。评审认为这是一篇很优秀的论文 (“Thisisareallyexcellentpaper,bothin theideasandintheevaluationofthoseideas”),四个评审的总体打分分别为 5,5,5,4(满分为6)。
项目案例
• 上海新闻出版局 • 山西新闻出版局 • 云南新闻出版局 • 吉林新闻出版局 • 广州日报 • 国务院新闻办 • 北京市网管办 • 上海市委宣传部 • 重庆市委宣传部 • 江苏省委宣传部 • 宁夏党委宣传部 • 湖北省委宣传部 • 浙江省委宣传部 • 江西省委宣传部 • 贵州省委宣传部 • 大连市委宣传部 • 菏泽市委宣传部 • 许昌市委宣传部 • 诸城市委宣传部
• 高端用户的战略合作伙伴 上海新闻出版局、山西局、云南局、吉林局 广州日报 国务院新闻办、上海市宣传部、重庆市宣传部 北京网管办等
• 国内国际领先的核心技术 十年技术积累 参与多项国家重点课题—互联网信息分析相关 发表四十多篇学术论文 申请二十多项发明专利 与人民大学新闻学院成立“网络舆情研究基地”
采集2.0
智思2.5 采集\检索\分析
元搜索1.0
境外隧道
智思3.0 智能采集 智能检索 舆情分析
自动获取与智能分析的研究方向 和进展
1.网络热点研究方法的探索
08年12月24日,方正与人民大学成立全国 首家网络舆情监测研究基地
研究基地致力于网络热点研究,利用方正智 思系统对网络舆情进行监测统计研究
网络信息资源丰富、新闻采集范围广 网络新闻 网络论坛 网络博客 Wiki、Twitter 数字报刊;电子报 手机报 电子书;网络电影、视频、图片
互联网实时性、群体性特点,便于对 新闻话题深入分析
互联网热点事件频发
新媒体应用解决方案
新媒体应用解决方案
互联网信息采集分析系统工作原理
• 标题、内容
– 本地规则
• 地名、人名、组织机构
– 信息预警 – 活跃网民 – 网络推手 – 网络搬运工 – 重大事件、时政专题、
网站时政专区的定向定 题聚类分析
3.热点信息自动发现
热点追踪
系统自动对文本内容智能理解 语义
关联话题相似的新闻文章和论 坛帖子
自动发现 网络热点
应用话题自动发现技术TDT (Topic detection and tracking)实现网络热点新闻 主动发现
自动采集
智能分析
系统配置
新闻关联
分析报告
智能研判
1 领先的自然语言处理技术
• 1.SIGIR2008信息检索领域顶级会议一篇 “ Multi-DocumentSummarization UsingCluster-basedLinkAnalysis.”
• 2.AAAI2008人工智能领域顶级会议一篇“ SingleDocumentKeyphrase ExtractionUsingNeighborhoodKnowledge.”
舆情监管项目
方正参与网络信息智能分析项目历程
2005
2006
2007
2008
2009
2010
舆情预警 演示版
中宣部 实验系统
上海项目 调研规划
国新办项目 测试论证
江苏省委 大连市委 郑州市委
江西省委 贵州省委 杭州市委
与人民大学成立网 络舆情研究基地
上海二期 #查处管理
重庆项目 #网评管理
浙江省委 北京市委 网管办项目
信息采集
信息分析
应用服务
新闻 专题 评论 论坛 主贴 回帖 博客 贴吧
搜索引擎
元搜索
关键词 摘要
数
据
自
智能采集
动 过
滤
智能处理 智能分析
采集规则
超级搜索 自动发现 热点分析 时间分析 话题分析 传播路径 主题演化
配置工具 模板库 维护工具
相似索引 全文索引
数据索引 分类索引
主题索引
探针\取证
新闻采集
新闻分析 超级搜索 敏感信息 热点发现 专项任务 网络探针
办公业务 新闻提交 审核管理
基础数据 新闻词管理
主题管理 任务管理 新闻库管理
系统管理 权限管理 日志管理 界面定制 参数管理 存储管理
智能研判 时间趋势 网站分布 地域分布 话题演化 传播路径 新闻追踪 统计分析 信息简报
1.网络信息自动获取
意见维度:
反映某一议题帖子各种不同意见的分布情况。
3.提高互联网信息获取与分析的广度和深度
• 深度方面
基于语义的话题深度分析 话题观点分析、话题要素分析
跨信源的新闻溯源与追踪 网络重要人物分析 基于语义的敏感信息自动发现 信息态势分析与指数评价
• 广度方面
论坛、博客、新闻评论 搜索引擎 P2P、IM内容 手机内容 图片、视音频