NLP及其医疗应用-20180516
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
源语言
翻译解码系统
目标译文
统 计
多 策实 略例 翻 译 方 法规
则
领自 域适
应
语言模型 句法分析
短语模型
翻译建模 句法模型
语义分析
翻译建模 统计分析
②基于互联网大数据的 高质量翻译知识获取
双语探测
单语资源
翻译建模 双语例句
互译计算
翻译建模 词法 分析
互联网海量资源
调序模型 ③基于深度语义的语
言分语析言和模翻型译技术
分词
将句子切分为词序列 例如:钓鱼岛/是/中国/的/领土/ ห้องสมุดไป่ตู้性标注
给句子的词标注正确的词性
例如:钓鱼岛n/是v/中国n/的de/领土n / 句法分析
分析句子的组成结构 句子结构成分之间的相互关系 判定一个句子的合法性
词义消岐 研究给句子的词标注正确的词义。 例如:这个人真牛。//牛:动物|了不起。
文本输入 语音识别 触控操作 操作界面 语音合成 文本输出
自然语言理解 (NLU)
触发机制
主动引导语料 的生成和拼接
场景 识别
自然语音生成 (NLG)
提问
英语教学引擎 (ETE)
回答
18
基本架构
用户
人机交互界面 开放领域/受限领域
问题 事实性问题、列表问题、假 设问题、确认问题、因果问
题
答案 文字片段、多媒体数据片段、
把这些概率连乘起来,得到的就是这句话平时出现的概率。 如果这个概率特别低,说明这句话不常出现,那么就不算是一句自然语言,因为在语料库里面很少出
现。如果出现的概率高,就说明是一句自然语言。
14
词向量
词的数学表示方法:One-hot Representation。假设词表中有20000个词 “I”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...],第4位置 “want”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 ...],第9位置
• 语言词语的关系集合被表征为向量集合 • 向量空间内,不同语言享有许多共性 • 实现一个向量空间到另一个向量空间的映射和转换
Decoder 语义向量
Encoder
• 图为英语和西班语的五个词在向量空间中的位置 (已经过降维)
• 对英语和西班语之间的翻译准确率高达90%
16
基于大数据的互联网机器翻译核心技术
• 语用分析为确定真正含义,对表达的结构重新加以解释
复合句的理解,要求发现句子之间的相互关系,包括
• 相同的事物
• 事物的一部分
• 行动的一部分
• 与行动有关的事物
• 因果关系
• 计划次序
9
机器如何理解自然语言?
总统川普访问北京中关村
A0
访问
A1
• 理解自然语言的步骤
– 文本预处理 – 句子切分 – 形态分析 – 分词 – 词性标注 – 句法分析 – 词义消岐 – 语义分析 – 语用分析 – 篇章分析 – 海量文档处理
自然语言处理基础 语言模型与智能应答 “人工智能+医疗”八大应用场景 医疗AI的未来
13
语言模型(统计)
语言模型形式化的描述就是给定一个字符串”w1, w2, w3, w4, … , wt”,看它是自然语 言的概率 P(w1,w2,…,wt)。w1 到 wt 依次表示这句话中的各个词。
P(w1,w2,…,wt)=P(w1)×P(w2|w1)×P(w3|w1,w2)×…×P(wt|w1,w2,…,wt−1) ≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1) (N-Gram,N=1)
符号智能 + 计算智能,建立融合方法
8
句子的自动理解
简单句的理解方法
• 理解语句中的每一个词 • 以这些词为基础组成一个可以表达整个语句意义的结构。其中第二项工作又可分
成以下3个部分来进行:
• 句法分析将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构
• 语义分析各种意义被赋于由句法分析程序所建立的结构,即在句法结构和任务领域内对 象之间进行映射变换
《人民日报》、微博
情感分析中对表情符的利用
人工定义的表示,特征工程
WordNet、大词林(BigCilin)
哈 工
CYC
大 刘
知识图谱
挺 教
授
CKY, Viterbi, Beam-search
总
结
SVM、CRF、Q-Learching、RNN、CNN
12
目录 content
第一节 第二节 第三节 第四节
NLP及其医疗应用
刘继明 2018.5
目录 content
第一节 第二节 第三节 第四节
自然语言处理基础 语言模型与智能应答 “人工智能+医疗”八大应用场景 医疗AI的未来
2
自然语言处理
自然语言处理(Natural Language Processing, NLP)
– 自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,包括自然语言理解和 自然语言生成
当的词汇和一定的句法规则,把要交流的信息以句子形式表达出来
计算语言学是从计算角度处理语言
– 将人们对语言的结构规律的认识用精确的、形式化的、可计算的方式(计算模型)加以表示
语言的第一系统和第二系统
– 第一系统:语音系统 Sound System – 第二系统:文字系统(书写系统) Writing System
• 问题纷繁复杂
– 具有多样性(不同语种、不同地域、不同人群)
– 具有进化性
– 模糊性、缺省 • 存在大量可以利用的先验知识 • 与行业深入结合 • 部分课题评测难度高
老外来访被请吃饭。落座后,一中国人说: “我先去方便一下。”老外不解,被告知 “方便”是“上厕所”之意。席间主宾大悦。 道别时,另一中国人对老外发出邀请:“我 想在你方便的时候也请你吃饭。”老外愣了, 那人接着说: “如果你最近不方便的话, 咱找个你我都方便的时候一起吃。
• 自然语言理解所需的相关知识
• 语音知识:词如何与语音相关以及如何实现语音 • 词法知识:词的构成方法,词的不同形式对句法和语义的影响 • 句法知识:词如何排列成句 • 语义知识:词的意义是什么,词义如何组合成句子的意义。这里所讲的语义是上下文无关
的 • 语用知识:句子如何运用于不同的场合,以及在不同场合的运用对句子解释的影响 • 篇章知识:刚分析的句子如何影响下一句的解释(分析)。这对名词、代词的处理非常重要 • 世界(环境)知识:语言使用者为理解篇章(或维持对话)所必须具有的关于世界(或环境)与
语义 分析 句法分析 命名实体 识别 词性标注
分词
原始文本
HED ATT SBV
VOB ATT
Root 总统 川普 访问 北京 中关村
总统/n[川普 人名] 访问/v [北京 中关村 地名]
总统/n 川普 /nh 访问/v 北京 /nsf 中关村/ns 总统 川普 访问 北京 中关村 总统川普访问北京中关村
– 主要研究如何让机器进行自然语言信息处理,即人类语言活动中,信息成分的发现、提取、存储、加 工与传输
– NLP是计算机科学、语言学、人工智能与数学等学科的交叉学科和边缘学科
自然语言生成(Natural Language Generation)
– 把在计算机内部以某种形式存放的需要交流的信息,以自然语言的形式表达出来 – 是自然语言理解的一个逆过程。一般包括(1)建立一种结构,以表达出需要交流的信息;(2)以适
5
语言模型:人工规则方法
语言学 语义学 认知科学 人工智能
写规则
规则
自然语言输入
x
处理系统
处理结果
6
语言模型:统计学习方法
统计学习
自然语言输入
x1x2 xn
自然语言输入
x n 1
建立模型
学习系统
预测系统
概率模型
预测
ˆp( xn1 )
7
融合方法
基于规则的方法
形式语言 语法理论 词法理论 推理方法 ……
海量文档处理 信息检索 例如搜索引擎、数字图书馆 文本分类、聚类 分类检索、聚类检索 话题探测与追踪 信息自组织
匹配
分类
结构预测
生成
NLP
形式
搜索
文本分类
词性标注
机械文摘
问
语义
题
推理
分
布
语用
问答 文本蕴含
情感倾向性 隐式情感分析
反语
语义依存分析 隐式消费意图挖掘
机器翻译 写故事结尾 聊天机器人
大类
如何判断一句话是不是自然语言?
P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃) p(大家)表示“大家”这个词在语料库里面出现的概率; p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率; p(吃|大家,喜欢)表示“吃”这个词出现在“大家喜欢”后面的概率; p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。
世界结构的一般知识。通常,一个语言使用者必须知道其他使用者的信念和目标
4
自然语言理解的特点和困难
• 难度大,触及常识、推理等认知能力
• 有一定结构,如主谓宾,特殊句型。由“名词块”与“动词块”组成
• 歧义性,基本常识和上下文排除
– 处理歧义问题是NLP的核心问题。自然语言处理过程就是各种歧义现象的消解 过程
语义分析(这句话说了什么) 研究如何从一个语句中词的意义,以及这些词在该语句的
句法结构中的作用来推导出该语句的意义 语言和世界的映射关系 施事、受事、工具等
语用分析(为什么要说这句话 ) 研究不同语境中的语句的应用,及语境对语句理解的作用 语言交际目的:主题、述体、焦点
篇章分析 分析篇章的结构、主题、观点、摘要、有用信息。 主题分析/观点分析/自动文摘/信息抽取/信息过滤
双语词典
双语对齐
模 型 桥枢 接轴
语 言 翻 译 知技 识术 桥 接
④枢轴语言翻译
①基于互联网大数据的翻
虚拟集群管理
性能优化
译模型
机器翻译云平台
17
自动应答系统流程(例如英语教学)
自动问答(Question Answering,QA):它是一套可以理解复杂问题,并以充分 的准确度、可信度和速度给出答案的计算系统,以IBM‘s Waston为代表
细分类
特点
举例
数据
有标注
(自动、隐性)
相
无标注
关
伪数据
的
数
知识
元知识
据
(人工、显性)
语言知识
知 识
常识知识
和
世界知识
方
算法
NLP算法
法
(动态的)
机器学习算法
专家标注、众包 原始语料 量大 关于知识的知识 词典、规则库 很难从文本中挖掘 可以从文本中挖掘 跟语言知识密切相关 统计建模 特征表示与学习
Penn TreeBank
语料=所有中学课本
词向量表征了单词使用上下文中的句法语义特征
把每一个词(用神经网络)从20000维压缩到100维,每个词的表示为一个100维实数 向量。这种向量一般长成这个样子:[0.792,−0.177,−0.107,0.109,−0.542, ...]
15
机器翻译(通用Encoder-Decoder模型)
知识库
基于统计的方法
语言模型 HMM 机器学习 搜索方法 ……
• 机器学习针对于传统方法
……
• 知识表示和获取的分离
• 语料构建:专注于知识表示
• 机器学习:专注于知识获取
• 对比:专家系统 • 规则的获取和表示是同步的。 • 规则的管理是低效率的,困难的。
……
未来发展趋势 • 理性主义与经验主义的结合,即
口头语和书面语
语言单位
– 字符、词(Word)、短语(Phrase)、句子(Sentence) 、语段或篇章
语言学基本知识
• 符号学是用数学方法研究语言学的基础,包括
– 符号关系学(Syntactic),研究符号串中符号间的(表层)关系 – 语义学(Semantics),研究符号与其所指事物间的(深层)关系 – 语用学(Pragmatics),研究交际中如何选用符号来表达意义
生成时答案
逻辑流 数据流
数据源分析
知识挖掘 词性分析、句法分析、 依存分析、语义分析、
实体识别
知识表示 产生式规则、逻辑表示、 框架、语义网络、本体、
神经网络
数据源 结构化数据、半结构化收据、非
结构化数据、语义网数据
知识库 知识存储
问题分析
问题分析 期望答案类型分析、问题焦
点识别
知识表示 参照数据源知识表示
10
文本预处理 文本采集 文本格式转换:PDF、Office、HTML纯文本 文本编码识别、转换:GB、Big5、Unicode。
句子切分 句子边界识别 例如:I like eating, dancing & reading
形态分析 研究构词方法,词的有意义的组合。 构词的基本单位:词素(词根、前缀、后缀、词尾) 例如:老虎←老+虎;图书馆←图+书+馆 例如: work + er → worker, do + ing →doing
答案生成
答案表示 答案检验、自动摘要
答案排序融合 句子相似度计算、依存关系分
析、多信息融合
知识检索 数据挖掘、自然语 言处理、知识检索
与发现
答案评估 TREC、CLEF、NTCIR、TRECLQA Track