腾讯对话机器人

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2
Tencent NLP Platform
综 合 高阶分析
深度问答
聊天机器人
舆情预测
作诗/词/文

情 感
情感分析



Query分析

多篇章分析
理 理
平 解

与 推
单篇章分析
应用舆情数据,二次开发,满足业务需求
事件趋势
页面展示

数据源

热点
情感
成因
基于全量数据,计算舆情指数,以数据方式落地,工业务使用
舆情知识库
Server服务分布式组件
热点挖掘计算组件 算

事件热点
实体热点


流行文化
原始数据放SSD
原始数据当SATA
检索系统
数据源
视频 门户
新闻 门户
政务 门户
SNS
2
Use Case: People’s Daily 人民日报
2
Use Case: People’s Daily 人民日报
• Usage
• E.g. WeChat search, News search, Music search, etc.
• A Major challenge
• Quality of similarity match between queries and documents
• Then, a GUR network combines these words non-linearly to predict the final sentiment
2
Example: News Recommendation
腾讯的自然语言应用和研究
2017 / 07
Tencent AI Lab: Fundamental Research Areas
CV
ASR
Machine learning
NLP
NLP Overview
Table tennis
Macro-­‐ economic
Stock market
Personal finance
Liu Xiang
Wang Hao
GDP
Goldman Sachs
Trust fund
2
Text Categorization [ACL 17]

句法分析
词法分析
情感分类
情绪分类
观点挖掘
词赋权
紧密度
非必留
语言模型
热点挖掘
热点要素提取
事件脉络
知识图谱
Tag提取 核心句提取 抽取摘要 生成摘要 质量计算
主题分类 意图识别 地域识别 智能上下文
HINT
句法分析 分词
文本纠错 词性标注
歧义消解 命名实体
主干提取 同义词
指代消解 词权重
2
Example: Sentiment Analysis Architecture

订阅系统

内容生成系统
情感/观点分布
+ Speech recogni$on
Real-­‐2me conversa2on transla2on
Real-­‐2me transla2on of speech
+ Image recogni$on
Photo transla2on
• Neural Language Models • Memory & Attention
3
Example Machine Translation: Tencent Applications

Machine transla$on
Text transla2on Translate text input
Internet
Mobile
Science
Jack Ma
Robin Li
iPhone
NASA
Basketball
Kobe
Lakers
User
Classification + tag
Sport
Finance
Football
Messi
Barca
Track & field
Webkit(JS引擎集群)
抓取平台
Spark
Hive (SQI查询)
MapReduce (计算平台)
全量
1 年
3个月
Hadoop 存储计算平台
实时流(当天)
3个月
原始数据放内存 全量(SATA)
Linear Model
Shallow CNN of (J&Z 15)
Deep Pyramid CNN (J&Z 17)
2
Example: Tencent Verticle Search Applications
• Concepts à Text • Dialog interaction • Story telling
Tencent AI NLP Dialog System
User Text Understanding
wenku.baidu.com
Knowledge
1
Example Usage: Q&A
• Basic Query Understanding • Parsing
• Pattern-based approach
• Attribute classification
刘 德 华的老婆是谁
Query
Text
3
Generation
• Automatic article writing • Summarization • Dialogs • Machine Translation • …
• Key Technologies:
刘德华的妻子是谁 刘德华和谁结的婚
人物类妻 子属性

刘德华的出生日期 刘德华什么时候生的 刘德华几年几月生的
人物类出生 日期属性

• Complex Query Understanding
• Complex rule engine
2
Attention Network for Aspect Sentiment Analysis [EMNLP 2017]
• Using different attentions to capture different sentiment related words
实体融合
(半)结构化信息抽取系统
非结构信息抽取系统 OpenIE 关系抽取 事件抽取
(半)结构化数据
无结构文本
Some Key Technologies
• Entity Extraction • Concepts Extraction • Entity Linking • Relation Extraction • Ambiguity Resolution • …
Knowledge
Understanding
Generation
Planning
• Structured • Unstructured • Real world
• Annotation • Semantics • Matching
System Architecture:
Ranking Loss
Metric Learning A_en2on based Alignment and Aggrega2on
Context Embedding
Word level Embedding
Recommendation system
News characteris2cs
Environmental characteris2cs
User characteris2cs
Context characteris2cs
Ar$cle score Score(u,d)=f(class,topic,tag,2me,…)
话题基本面计算组件
情感分类
情绪分类
意见挖掘
意图分类
话题成因计算组件
追踪/溯源
趋势/预测
传播/脉络
受众/分析
基础数据处理组件
抽取
排量
质量计算
分类
摘要
Spider(下载集成) 境外Spider(境外集群)
• Q&A pair semantic matching
1
System Architecture
Query理解
应用层 知识问答
新闻推荐
实体重要度
实体概念
分布式存储知识库
知识补充与表示层
实体别名
逻辑推理
链接预测
知识表示
数据清洗
知识融合层
实体分类
本体对齐
Translate Chinese in a photo
Applica$on
Wechat/Weixin Tencent Health Tencent Cloud AI Open Placorm
• Technology
• User behavior based semantic embedding
Deep Semantic Similarity Model
Example:
如何给宝宝添加辅食 六个月宝宝怎样正确增加辅食 相似度:0.85
4 Context
Knowledge graph
Sentiment analysis
Search
News recommendation
Machine translation
Chatbots
1
Tencent Knowledge Graph: billions of entities/relations
2
User Interests
• Predefined ontology • Automatically extracted tags • User behavior based user interests • …
Technology
Structure
Concepts
Dialog Manager (Planning)
Generation
NLP Examples from Tencent AI Lab
1 Knowledge
2 Understanding
3 Generation
State-of-the-art Text Categorization Accuracy • Deep pyramid CNN structure • Fast computation • Captures long range text dependency
相关文档
最新文档