Class 05 第5节-医学自然语言处理 - 上海生物信息技术研究中心
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器能理解人类的语言吗?
背景知识
自然语言处理
NLP, Natural Language Processing 用机器处理人类语言的理论和技术
Natural language processing (NLP) is a field of computer science and linguistics concerned with the interactions between computers and human (natural) languages. --WIKIPEDIA
• 建立统计模型 • 利用语料库训练模型参数 • 编写算法解决问题
关键技术
规则方法流程
输入
算法
计算机学家
规则
语言学家
输出
关键技术
统计方法流程
输入
运用
计算机学家
参数
训练
模型
语料库
语言学家
输出
关键技术
规则方法
优点 缺点 语言知识的表示直观、灵活 易于表达复杂的语言知识 语言知识的覆盖率低 语言知识的冲突缺乏统一解决机制
比较著名中文语言资源包括:
北京大学计算语言学研究所开发的《现代汉语语法信息词典》
北京大学计算语言学研究所、人民日报社和富士通公司联合 开发的《人民日报标注语料库》 董振东先生的《知网》 梅家驹先生的《同义词词林》
背景知识
公用的测试平台
公共的测试平台可以使大家的研究工作有一个 互相比较的基准 目前国际上一些著名的评测,如MUC、TREC、 CoNLL等,都极大地促进了相关领域的研究工 作 汉语的自然语言处理研究中就很缺少这种公用 的平台
ungelivable
关键技术
技术难点 语言行为与计划
背景知识
发展历史
1950
起步
机器翻译 自动文摘
1960 模式匹配方法
60年代末衰落
1970 Conceptual Ontologies 1980 Machine Learning 1990 Statistical Algorithm 2000 Unsupervised and semi-supervised learning algorithms 随互联网的发展而复苏
国家863、973项目的范围内都组织过一些评测活动 还没有形成真正意义上的公共测试基准 (benchmark)
关键技术
规则方法阶段
语言学家:撰写“规则库”(包括“词典”)
计算机科学家:编写算法程序,对“规则库” 进行解释和执行
统计方法阶段
语言学家:建立“语料库” 计算机科学家:
自然语言理解系统把自然语言转化为计算 机程序更易于处理的形式。
自然语言理解
背景知识
自然语言处理的主要范畴
文本朗读(Text to speech)/语音合成(Speech synthesis) 语音识别(Speech recognition) 中文自动分词(Chinese word segmentation) 词性标注(Part-of-speech tagging) 句法分析(Parsing) 自然语言生成(Natural language generation) 文本分类(Text categorization) 信息检索(Information retrieval) 信息抽取(Information extraction) 文字校对(Text-proofing) 问答系统(Question answering) 机器翻译(Machine translation) 自动摘要(Automatic summarization)
词Fra Baidu bibliotek的消歧
打乒乓球
打毛衣
打电话
玩 编制
通讯
关键技术
技术难点 句法的模糊性
针对一个句子通常可能会剖析(Parse)出多棵剖析树 (Parse Tree)
有瑕疵的或不规范的输入
语音处理时遇到外国口音或地方口音 文本处理中的拼写、语法或者光学字符识别(OCR)的错 误
他非常男人
背景知识
我国的自然语言处理研究,在一定程度上 处于一种低水平重复状态
缺少公用的语言资源 缺少公用的软件模块 缺乏一些公共的基础设施 缺少公用的测试平台 缺少公用的文献资料库 缺少交流合作的机制
背景知识
公用的语言资源
语言资源,包括词典、语料库、规则库
英语的语言资源已相当丰富
自然语言 处理
以语音为物质外壳 语言是人类交际的工具 理解 转换 生成
背景知识
NLP is a very attractive method of humancomputer interaction. NLP has significant overlap with the field of computational linguistics, and is often considered a sub-field of artificial intelligence.
统计方法
优点 缺点 统计模型提供了统一的冲突解决机制 大规模数据提高了语言知识的覆盖率 不善于表示复杂的、深层次的语言知识 对于数据稀缺的语言(小语种)没有好 的解决办法
关键技术
技术难点 单词的边界界定
Natural Language Processing
医学自然语言处理
研究生命的起源
背景知识
Modern NLP algorithms are grounded in machine learning, especially statistical machine learning. Linguistics Computer Science
Statistics
背景知识
自然语言生成系统把计算机数据转化为自 然语言。
医学自然语言处理
上海生物信息技术研究中心
提纲
1 2 3 4 背景知识 关键技术 发展趋势 实例介绍
背景知识
据统计,日常工作中80%的信息来源于语言, 处理文本的需求在不断增长
文本是人类知识最大的存储源,并且文本的数 量在不停地增长
文本的种类繁多:科技文献、电子病历、电子 邮件、新闻、网页