自然语言处理汇报ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
之间的相似度表示为 sim( w1i, w2j ) 。问句 A 和 B 之间的语义
相似度可以根据下面公式计算:
未来的方向--Syntaxnet
SyntaxNet 是一个框架,他是许多NLU系统中的关键组件。在这个系统中输入 一个句子,他会自动给句子中的每一个单词 打上POS(part-of-Speech)标 签,用来描述这些词的句法功能,并在依存句法树中呈现。这些句法关系直 接涉及句子的潜在含义。
问句相似度常见计算方法--句长相似度
句长相似度反映两个问句在长度形态上的相似程度。用LenSim( A,B) 表示 问句 A 和 B 的句长相似度,计算式如下:
其中,abs 表示绝对值
问句相似度常见计算方法--编辑距离相似度
编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所
需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,
插入一个字符,删除一个字符。
例如 “你好啊”与“你好”的编辑距离为1-1/3=0.667。
wenku.baidu.com
问句相似度常见计算方法--语义相似度
设两个问句 A 和 B,A 包含的词为 w11 , w12 ,…, w1n, B 包含
的词为 w21 ,w22 ,…,w2m,则词语 w1i( 1≤i≤n) 和 w2j ( 1≤j≤m)
未来的方向--Syntaxnet
谢谢!
在这个结构中,Alice和Bob被编码为名词,Saw是动词。动词saw 是句子的根, Alice是saw的主语,Bob是直接宾语(dobj)。
未来的方向--Syntaxnet
SyntaxNet 将神经网络运用于歧义问题。一个输入句子被从左到右地处理。 当句子中的每个词被处理时,词与词之间的依存关系也会被逐步地添加进来。 由于歧义的存在,在处理过程的每个时间点上都存在多种可能的决策,而神 经网络会基于这些决策的合理性向这些彼此竞争的决策分配分数。出于这一 原因,在该模型中使用 Beam Search (集束搜索)就变得十分重要。不是直 接取每个时间点上的最优决定,而是在每一步都保留多个部分性假设。只有 当存在多个得分更高的假设的时候,一个假设才会被抛弃。下图将展示的, 是“I booked a ticket to Google”这句话经过从左到右的决策过程而产生 的简单句法分析。
特定领域问答系统问句相似度计算方法
汇报人:
问句相似度常见计算方法--词形相似度
词形相似度反映两个问句中词语在形态上的相似程度,用两个问句中含有的 共同词的个数来衡量。用wordSim(A,B)表示问句A和B的词形相似度
其中:same(A,B)表示A和B中共同词的个数,当一个单词在A、B中出现的次数不 同时,以出现次数少的计数;len(A)和len(B)分别表示A和B中词的个数。