自然语言处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
叫作
摄受
错误的用法 其它 想象 好象 恃者 伺者 承侍 降服 调服 恶梦 摄授
NLP 应用趋势
智能接口
功能:
把现实世界中的信息送入电子世界
主要成果
拼音输入、手写输入、语音合成、语音输入,手机输入
知识处理
功能:
对于已进入电子世界中的信息进行加工处理获得知识
知识经济的时代已经到来! 知识就是力量——〉知识就是财富 百度爱问、百度文库、新浪爱问、VC知识库
S
NP
VP
V NP
PP
Miss Smith put two books on this dining table.
词义消歧
机器翻译中最难的问题之一是词义的二义性(歧义性) 问题。
比如 Bush 一词可以是美国总统的名字,也可以是灌木丛。
一个实用的方法是使用互信息。
互信息(Mutual Information)是信息论里一种有用的信息度 量,它是指两个事件集合之间的相关性
第八章 自然语言处理概述
董燕举
2012年10月15日
语言的习得之谜
当今的语言学界都承认这样一个基本事实: “任何一位四、五岁的儿童都能无师自通地 很好掌握包含数不清语法规则变化的本民族 口头语言”(只是对于“儿童为何只用几年 时间就能无师自通掌握本民族口头语言”这 样一个问题,目前语言学界还有各种不同的 说法和争论)。
语义分析:识别一句话所表达的实际意义。
语用分析:研究语言所在的外界环境对语言 使用所产生的影响。
语义与语用
同一词语在不同的“语境”中具有不同 “语义”
例如:中国奥运史上十大女杰的精彩“转身”
病毒
计算机领域:计算机病毒 医学领域:生物学病毒
自然语言处理的概念
自然语言处理( Natural Language Processing,NLP ) 也称自然语言理解或计算语言学; 主要研究如何让机器进行自然语言信息处理,即人 类语言活动中,信息成分的发现、提取、存储、加 工与传输。 NLP是计算机科学、语言学、人工智能与数学等学 科的交叉学科和边缘学科。
一次科学实验
巴别塔
据《圣经》创世记第11章记载,是当时人类联合起来 兴建,希望能通往天堂的高塔。为了阻止人类的计划, 上帝让人类说不同的语言,使人类相互之间不能沟通, 计划因此失败,人类自此各散东西。
内容提纲
8.1 自然语言处理概述 8.2 自然语言处理的基本技术 8.3 自然语言处理技术路线 8.4 实例与系统演示
分词歧义
例:南京市长江大桥
南京|市长|江大桥
南京市|长江|大桥
例:我们研究所有东西
我们--研究所--有--东西 (交叉歧义)
我们--研究--所有--东西
把手放在桌上
把--手--放在--桌上
(组合歧义)
把手--放在--桌上
分词的难点之一:未登录词
新词
名词:斑竹、大虾、面瓜、菜鸟、美眉、陶吧、911、白 骨精
2013年973重点支持方向
互联网环境中文信息处理与深度计算的基本理论与方 法
研究互联网规模中文深度计算的理论与模型,包括中 文信息表示理论与模型、句子与篇章的结构分析和语 义理解等方法;
研究言语多通道感知机理,包括多言语识别、翻译、 合成与融合、开放式多类型语言知识大规模获取与组 织等方法;
研究中文信息所承载中国文化元素的获取、传承和呈 现等方法;
构建大规模中文文本语义体系和语料库,开发相应软 件系统原型。
wenku.baidu.com
文本校对
正确的用法 执著 思维 唯一 唯心 磨炼 历事练心 做主 做一位智者 叫做
错误的用法 正确的用法
执着
其他
思惟
想像
惟一
好像
惟心
侍者
磨练
承事
历事炼心 降伏
作主
调伏
作一位智者 噩梦
要发展:主要集中于海量网络信息的处理
8.2 NLP的基本技术
词法分析 句法分析 语义分析
词法分析
词法分析目的是从句子中切分出单词,找出词 汇的各个词素,从中获得单词的语言学信息并 确定单词的词性
词性 : 名词、动词、形容词、介词等 词的构成 : 动宾, 动补, 偏正, 主谓
文本是人类知识最大的存储源,并且文本的数量 在不停地增长
电子邮件、新闻、网页、科技论文、 用户抱怨信
NLP典型应用
智能搜索引擎、自动问答、信息获取、语义网 语音识别,文字识别、输入法 机器翻译,自动文摘,跨语言检索 文本分类、文本聚类、文本分析(结构、内容、
情感)、文本挖掘(主题跟踪:人物跟踪,企业 跟踪)、文本过滤
首先从大量文本中找出和总统布什一起出现的互信息 最大的一些词,比如总统、美国、国会、华盛顿等等, 当然,再用同样的方法找出和灌木丛一起出现的互信 息最大的词,比如土壤、植物、野生等等。有了这两 组词,在翻译 Bush 时,看看上下文中哪类相关的词 多就可以了。
理解一段文字所需的NLP基本技术
文本预处理:文本格式转换、HTML->TXT 转换、 文件合并噪音信息过滤
句子切分:把段落切分成一个个句子 分词;把句子分成一个个单词 词性标注(Part-of-Speech Tagging):名词、动词、形
容词等 句法分析:句子的句法结构 词义消歧(Word Sense Disambiguation) 语义关系分析; 指代消解(Anaphora Resolution); 篇章理解; 自动摘要生成;
通过一组有限的规则作用于一个有限的词汇上, 从而本能地生成无限的可接受的、合乎文法的 句子
理性主义试图去描写人脑中的语言模型
分析模型:基于规则的方法;
人工规则方法
语言学 语义学 认知科学 人工智能
写规则
规则
自然语言输入
x
处理系统
处理结果
中医古文卷名篇名标注
《黄帝内经-素问》
String str = bufReader.readLine(); while (str!= null ) { //卷名标注
if (str.startsWith("卷 第")) str = "#"+str;
//篇名标注 if (str.startsWith(“篇第")) str = "*"+str; printWriter.println(str); str = bufReader.readLine();
}
规则方法的优点
计算语言学是从计算角度处理语言 将人们对语言的结构规律的认识用精确的、形式化 的、可计算的方式(计算模型)加以表示。
中文信息处理
中文信息处理的研究内容是利用计算机对汉语的音、 形、义等语言文字信息进行的加工和操作,包括:对 字、词、短语、句、篇章的输入、输出、识别、转换、 压缩、存储、检索、分析、理解和生成等各方面的处 理技术。
古埃及关于语言起源的故事
希腊史学家希罗多图斯的<史记> 载有一段埃及的故事:
古埃及的一位国王曾为探究人类最初的语言词汇到底 是什么而采取出人意料的办法。有一次,一个孩子降 生,他就下令让一个牧人把孩子放到荒郊野外,命令 他不许和孩子说任何话,还要一边放羊,一边照顾这 个孩子,等这个孩子说第一个词时马上来报告。一年 多以后,孩子说出第一个词汇bekos。国王立即召集 学者研究这个词的出处,后来发现是弗吉里亚语中面 包的意思,国王就认为人类最早开始说的词就是面包。
8.2 NLP研究技术路线
NLP语言模型 NLP两大流派:理性主义和经验主义 NLP两大技术路线:统计学习方法与人工
规则方法;
NLP语言模型
计算模型
理性主义
语言学家N. Chomsky 认为人类生成合乎文法 的语句的能力是生来具有的,为此他提出一种 称为生成句法( Generative Grammar) 的理 论;
8.1自然语言处理概述
基本语言学知识 自然语言处理概念 自然语言理解 研究目标 研究内容 NLP应用 发展历史
自然语言的概念
什么是自然语言
语言是人类交际的工具,是人类思维的载体
人造语言:编程语言,包括C++, BASIC等
世界语 自然语言:
形式:口语、书面语、手语 语种:汉语、英语、日语、法语…
语言学规则是人智慧的结晶,具有很好 的描述能力和生成能力;
能有效地处理句法分析中的长距离依存 关系等困难问题;
能够处理句子中长距离的主语和谓语动词之 间的一致关系;
规则方法的缺点
基于规则方法的语言模型一般比较脆弱、鲁棒性很差 语言是极其复杂的现象 人类总结的规则不完备、不一致,规则多了相互 冲突,难以对抗复杂的语言现象
语言学是研究语言规律的科学
网络语言
“昨晚,我的JJ带着他的青蛙BF到我家来 吃饭。在饭桌上,JJ的BF一个劲儿地对 我妈妈PMP,说她年轻的时候一定是个 漂亮MM,那酱紫真是好BT,7456……”
JJ : 姐姐
酱紫:这样子
BF : boy friend
青蛙BF:长相不好的男朋友
PMP:拍马屁
MM:妹妹
NLP的历史
20世纪50年代起步
机器翻译、自动文摘
50-60年代采用模式匹配的方法
60年代衰落
70-80年代采用面向受限域的深入理解的方法 90年代至今统计方法占主流
随着互联网的发展而复苏 互联网为NLP提供了市场需求和试验数据 统计语言模型和机器学习方法推动了NLP近来的主
[应用技术研究] 自动问答、机器翻译、信息检索、 文本挖掘、自动校对、信息抽取
[基础研究] 分词、词性标注、短语切分、 句法分析、语义分析、篇章理解等
[资源建设] 语料库资源建设 语言学知识库建设
软件企业 NLP研究者 语言学家
NLP 的应用
NLP应用前景
据统计,日常工作中80%的信息来源于语言,处 理文本的需求在不断增长
自然语言理解的困难
自然语言具有多样性(不同语种、不同地域、不同
人群)
自然语言具有进化性 自然语言的模糊性 自然语言的歧义性
处理歧义问题是NLP的核心问题。自然语言处 理过程就是各种歧义现象的消解过程。
机器能够理解人的语言吗?
很难!
什么是理解? 结构主义:机器的理解机制与人相同(白盒) 问题:人类语言理解机理尚未清楚 功能主义:机器的表现与人相同即可(黑盒) 图灵测试 如果通过自然语言的问答,一个人无法识别 和他对话的是人还是机器,那么就应该承认 机器具有智能
理解自然语言的准则
给计算机输入一段自然语言文本,如果计算机能 问答(question-answering)-机器能正确地回答输入 文本中的有关问题; 文摘生成(summarizing)-机器有能力产生输入文本 的 摘要; 复述(paraphrase)-机器用不同的词语和语句复述输入 文本; 翻译(translation)-机器把一种语言(源语言)翻译为 另一种语言(目标语言)
如: 开学, 生病, 加深, 认清, 原油, 火热, 头痛, 人造
自动分词: 汉语处理的难题之一
用程序从句子中切分出单词
自动分词
主要分词算法: 1.基于词表的分词-最大匹配 即“长词优先”原则,来进行分词 2.基于统计的分词
分词的难点 歧义字段处理 未登入词处理: 人名识别, 地名识别, 译名 识别, 新词识别
动词:打的、埋单、买单、给力 形容词:酷、小资、爽
命名实体
时间、地名、人名、组织机构名 商标、公司名、电话号码、电子邮件地址等等
合成词,简称,派生词
三个代表、十六大 牛市、熊市 微博
语法分析/句法分析
目的 : 分析句子结构, 找出词,短语在句中的相互关系 以及各自的作用, 并用层次结构来加以表示
BT:变态
7456:气死我了
语言的构成
语言
词汇
词
熟语
词法
语法
句法
词素
构形法
构词法 词组构造法 法
造句法
自然语言处理的层次
语音分析:从语音流中区分出一个一个声音 单元----音素
词法分析:从句子中切分出单词、找出词汇 的各个词素,确定单词的词性、词义等。
句法分析:对句子和短语的结构进行分析, 找出词、短语等的相互关系及在句子中的作 用等。
自然语言处理的研究目标
弱人工智能目标:建立一个足够精确的语言数学 模型使计算机通过编程来完成自然语言的相关任 务。如:听、读、写、说,释义,翻译,回答问 题等;
强人工智能目标:让用户能通过自然语言与计算 机自由对话;
NLP研究内容
[应用系统] 数字图书馆、电子商务、 电子政务、远程教育、语言学习