【PPT】北京大学计算语言学研究所httpiclpkueducn.

合集下载

《计算语言学概论》PPT课件

《计算语言学概论》PPT课件
15
4.2 詞ê判別-11
其它ê問題(辭典無收ê詞)
定量詞 eg 三張紙、二十五個人、…
定量詞若無處理,會影響台語變調結果
複合詞問題 eg 國中小、上下班、… Prefix/Suffix eg 正確性、相關性、… 重thah詞 eg 歡歡喜喜、輕輕鬆鬆、… 人名、地名 eg 陳水扁、舞鶴、… 組織名、商品名 eg 台大資訊系、可口可樂、… 新名詞、簡省詞 eg E世代、A菜、資工、… 術語(Term)
(語詞)
3. A=[aij]nn , aij = P(qt+1=j | qt=i), 1≦ i ,j ≦N (目前詞
類是i ê情形下,下一個詞類是 j ê機率)
4. B={ bj(k) }, bj(k) = P(vk|j), 1 ≦k ≦M, 1 ≦j ≦N
5. π是開始狀態ê機率分佈
23
4.3 詞性標注-8
實作上
Beh按怎真緊ka詞chhe出來? 斷詞beh按怎做disambiguity? 詞類beh按怎做disambiguity?
5
4.2 詞ê判別
英文ê詞 (Tokenization)
White Space / 標點 隔開 有ê詞用標點隔開 eg “I’ll” “can’t” 有ê縮寫詞有句點 eg “U.S” 有ê詞有非字母 eg “AT&T” “Micro$oft” 數字 eg “123,456.789” “23.5%” “2005/12/21”
n個詞類,O(nm)
28
4.3 詞性標注-13
Viterbi : 利用動態規劃 ê觀念
假設每一個詞lóng有n個詞類標記,wm kàu wm+1 êj-th標記,有n個可能ê路徑,假設機 率siong kôan ê是 ti tj這個路徑

北航的C语言 ppt课件

北航的C语言  ppt课件
‘?’ … 一个字符常量的值是该字符在机器字符集(通常是ASCII字符集, 但某些IBM大型机用EBCDIC码)中的编码值, 它是一个整数值。 如上,在ASCII字符集中‘A’的值为65,‘b’的值为98,‘?’的 值为63。 转义字符常量,如: ‘\0’, ‘\n’, ‘\t’, ‘\b’, ‘\r’, ‘\f’ ‘\\’, ‘\’‘, ‘\ddd’(位模式,ddd为八进制数,其值为ddd) 字符常量可像其它数一样参与数值运算,主要用于同其它字符作 比较,如:
C++ C 1988 B.Stroustrup B 1972 D.M.Ritchie BCPL 1970 K.Thompson CPL 1969 M.Richards
1968 C.Strachey
ppt课件
晏海华
9
一个简单的C程序:在屏幕上显示一行正文
[例1-1] /* file: hello.c */ #include <stdio.h> main( ) {
cc [-o执行文件名] [–c] 文件名 o :指定执行文件名,缺省为a.out c :产生.o文件如:s1.c, s2.c s3.c组成一个C程 序, 则有:
cc –c s1.c cc –c s2.c cc –o s s1.o s2.o s3.c
ppt课件
晏海华
21
另一个简单的C程序:整数求和
double radius, area, perimeter;
scanf(“%f”, &radius);
area = PI * radius * radius;
perimeter = 2 * radius * PI;
printf(“Radius = %6.2 Area = %6.2 Perimeter = %6.2”, radius,area,perimeter);

北京大学计算概论-课件:第五讲-cpu内存基本工作原理

北京大学计算概论-课件:第五讲-cpu内存基本工作原理

新的状态
ADD RETURN
CARRY
HALT RETURN CARRY OVERFLOW RETURN RETURN RETURN
HALT
CONTROL 当前状态=HALT
…… * * 1 1 0 * * ……
图灵机—实例1
这个图灵机的功能是什么? 启示:计算机程序执行的顺序性
f(x) = x + 1
CONTROL 当前状态=START
…… * * 1 0 1 * * ……
ID 当前状态
01
START
02
ADD
03
ADD
04
ADD
05
CARRY
06
CARRY
07
CARRY
08 OVERFLOW
09
RETURN
10
RETURN
11
RETURN
控制规则表
当前符号
* 0
1
* 0 1 * * 0 1 *
…… * * 1 1 0 * * ……
ID 当前状态
01
START
02
ADD
03
ADD
04
ADD
05
CARRY
06
CARRY
07
CARRY
08 OVERFLOW
09
RETURN
10
RETURN
11
RETURN
控制规则表
当前符号
* 0
1
* 0 1 * * 0 1 *
写入符号
* 1
0
* 1 0 1 * 0 1 *
移动方向
左移 右移 左移 右移 右移 左移 左移 右移 右移 右移 不动

北京大学计算机系计算语言所PPT78页

北京大学计算机系计算语言所PPT78页
❖ 知识就是财富 ❖ 丰富你的人生
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
北京大 22、步步寻往迹,有处特依依。 23、望云惭高鸟,临木愧游鱼。 24、结庐在人境,而无车马喧;问君 何能尔 ?心远 地自偏 。 25、人生归有道,衣食固其端。
谢谢你的阅读

计算语言学ppt

计算语言学ppt

主要的技术和方法 – 基于统计的方法(4)
• 汉语自动分词(最大概率法) p(W1)= p(有) p(意见) p(分歧)= 0.018 0.01 0.004 = 0.00000072 p(W2)= p(有意) p(见) p(分歧)= 0.005 0.02 0.004 = 0.00000004 由于p(W1)>p(W2),所以选择W1,即 有/意见/分歧 该算法存在的问题:效率低;词在句中的出现不 是相互独立的事件。
主要的技术和方法 – 基于知识的方法(2) • 词法分析 主要功能是识别单词,确定单词的词形属 性。 方法是与具体的自然语言密切相关的。 (1)词形变化丰富的语言 (2)词形变化不丰富的语言 (3)没有词形变化的语言 (4)词的界限模糊的语言
主要的技术和方法 – 基于知识的方法(3)
• 词形变化丰富的语言 如:俄语,通过词尾变化表现语法关系。 Я люблю тебя. Я тебя люблю. Люблю я тебя. …… • 把单词的所有可能变形保存入词典 词法分析 – 查词典 缺点是:词典占大量存储空间 • 词典中只保存词根,词的变形规律用规则表示 词法分析 – 根据词的变形规则还原成词根,查词 典
主要的技术和方法 – 基于知识的方法(15)
• 句法分析 – 上下文无关文法 s np vp np n vp v’ vp v’ np v’ v u n 曹操 v 打败 u 了 n 周瑜
主要的技术和方法 – 基于知识的方法(16) • 句法分析 – 上下文无关文法
主要的技术和方法 – 基于知识的方法(4)
• 词尾变化不丰富的语言 如:英语,主要通过词序和介词来表示语法关系, 只有名词,动词和代词有简单的变形。 I love you. I you love. (错) Love you I. (错) You love me. • 可以把所有词的变形都放入词典,也可以在词典 中只保存词根。

北京大学计算机专业英语课件1

北京大学计算机专业英语课件1
Writing Homework (4): 20% (5% each)
Résumé and Cover Letter Essay Writing Proposal Criticatation (10): 15% (1.5% each) Group Presentation (1): 20% Class Participation: 5%
10:00 Reading Comprehension 11:30 Listening/Practice Dictation 11:25 Next Assignment
Closing; questions and answers (Q&A)
Administrative Issues
Course Instructor: George Liu Text Materials: PowerPoint Presentations – on ftp Folder 0A001 WuXi Technical English Fulltime Class
Mr. George Sir. George
Who I am
I was born on Sept. 10, 19XX.
I live in Sydney, New South Wales, Australia.
I was graduated B.S. in University of Technology Sydney and advanced my education for MBA course in New South Wales Australia.
I am bilingual speaking person. languages: English Mandarine

北京大学介绍ppt课件

北京大学介绍ppt课件

选择北大,理由(八)
• 北大是全国中学生心目中的圣殿,北大辉 煌的历史、深厚的底蕴、最强的师资、综 合的学科、最好的学术条件以及诱人的毕 业去向,一直以来就吸引着全国最优秀的 学子报考。北大2009年招生工作成绩喜人 ,高考状元录取人数雄踞全国高校之首。 近10年来北大录取高考状元385位,稳居高 校第一位,比第2名到第12名11所高校录取 状元人数总和还要多31位。
2019 24
选择北大,理由(六)
• 全校共拥有14个国家基础科学研究与教学 人才培养基地,数量居国内高校之首;北京大 学图书馆是亚洲最大的大学图书馆,藏书已 达530万册,并以每年8万册的速度递增;校园 网以宽带连接到每一间宿舍,学生可以自由 地在信息化时代的海洋里遨游.
2019
-
25
选择北大,理由(七)
2019
-
22
选择北大,理由(四)
• 北大拥有国内最雄厚的师资力量 • 北大名师如林,目前全校拥有中国科学院院 士51人,中国工程院院士8人,第三世界科学 院院士9人,中科院院士的数量在国内高校中 遥遥领先,两院院士的总数亦居领先地位.北 大还拥有教育部"长江学者"58人;国家杰出 青年基金获得者70人;国家973项目首席科 学家13人;博士生导师1135人,上述指标均居 全国高校之首.
2019
-
29
选择北大,理由(九)
• 在10余万北大学子中,不仅涌现了李政道,邓 稼先,钱三强,于敏,郭永怀,朱光亚,周光召,唐 敖庆,裴文中,黄汲清等一大批科学巨匠,也出 现了冯友兰,徐志摩,茅盾,朱自清,俞平伯,罗 常培,顾颉刚,傅斯年,范文澜,冼星海等一大 批饮誉海内外的文科大师.尤其值得庆贺的 是,2001年国家最高科技奖的两位获得者黄 昆,王选,都是北大的教授或校友.北大人的身 影活跃在各行各业之中.

北京大学博士论文开题报告ppt模板

北京大学博士论文开题报告ppt模板

北京大学博士论文开题报告
PPT来源:
统计机器翻译的优缺点
• 优点
– 无需人工编写规则,利用语料库直接训练得到 机器翻译系统;(但可以使用语言资源) – 系统开发周期短; – 鲁棒性好; – 译文质量好;
• 缺点
– – – – 时空开销大; 数据稀疏问题严重; 对语料库依赖性强; 算法研究不成熟。
北京大学博士论文开题报告 PPT来源:
Head Transducer MT (1)
• Head Transducer(中心词转录机) 是一种Definite State Automata(有 限状态自动机) • 与一般的有限状态识别器的区别:
– 每一条边上不仅有输入,而且有输出; – 不是从左至右输入,而是从中心词往两 边输入
北京大学博士论文开题报告 PPT来源:
信源-信道模型
P(S) S P(T|S) T
• 假设目标语言文本T是由一段源语言文本S 经过某种奇怪的编码得到的,那么翻译的 目标就是要将T 还原成S,这也就是就是一 个解码的过程。 • 注意,源语言S是噪声信道的输入语言,目 标语言T是噪声信道的输出语言,与整个机 器翻译系统的源语言和目标语言刚好相反。
IBM Model 3
• • • • • • • • 对于句子中每一个英语单词e,选择一个产出率φ,其概率为n(φ|e); 对于所有单词的产出率求和得到m-prime; 按照下面的方式构造一个新的英语单词串:删除产出率为0的单词,复制产出率为 1的单词,复制两遍产出率为2的单词,依此类推; 在这m-prime个单词的每一个后面,决定是否插入一个空单词NULL,插入和不插 入的概率分别为p1和p0; φ0为插入的空单词NULL的个数。 设m为目前的总单词数:m-prime+φ0; 根据概率表t(f|e),将每一个单词e替换为外文单词f; 对于不是由空单词NULL产生的每一个外语单词,根据概率表d(j|i,l,m),赋予一个 位置。这里j是法语单词在法语串中的位置,i是产生当前这个法语单词的对应英语 单词在英语句子中的位置,l是英语串的长度,m是法语串的长度; 如果任何一个目标语言位置被多重登录(含有一个以上单词),则返回失败; 给空单词NULL产生的单词赋予一个目标语言位置。这些位置必须是空位置(没有 被占用)。任何一个赋值都被认为是等概率的,概率值为1/φ0。 最后,读出法语串,其概率为上述每一步概率的乘积。

【PPT】北京大学计算语言学研究所httpiclpkueducn.

【PPT】北京大学计算语言学研究所httpiclpkueducn.
期待会议成功,期待更多的发展和进步。
北京大学计算语言学研究所
主要内容

引言——学科定位


自然语言理解的研究目标
自然语言处理的主攻方向 影响自然语言理解的文学表现手法 隐喻计算研究的基本思路 结语与致谢


北京大学计算语言学研究所

北京大学计算语言学研究所
自然语言理解的研究目标
为什么特别困难? :同计算机技术及其应用的飞速进步相比较 ——徐波等主编《中文信息处理若干重要问题》(2003-11) 拙文“语料库与综合型语言知识库的建设” 关于这个问题的探讨:
(1)对人类语言机制的认识 (2)语言既是对象,又是工具 (3)对当代计算机能力的认识 (4)NLP技术发展的历史经验
汉语语境分析
小张/n 打针/v 去/v 了/u (小张是护士?病人?)

北京大学计算语言学研究所
其他也可归为歧义消解的问题: 长句与句号、逗号
新一届测绘学名词审定委员会 的主要特点是年青化,吸收了一 些工作在教学、科研前沿的青年 专家学者,充分发挥他们接触新 知识多,对名词工作热情高、活 力大的特长,同中老年专家共同 做好新一届委员会的名词审定工 作。 (长句子,一逗到底)
北京大学计算语言学研究所

实例之一
关于自动升降晾衣架的对话
妻子:“嘿,过了一年才坏。”
丈夫:“什么呀,才一年就坏了。”
丈夫理解了妻子的意思吗? ——虚词词义:才(数量词前后,意义不同) ——背景知识:保修期 ——知识激活机制?
北京大学计算语言学研究所

汉语信息处理尤其需要大规模 的高质量的语言知识库的支持。
北京大学计算语言学研究所
主要内容

北京大学计算概论(C语言)经典课件Lecture 10——数组(下)

北京大学计算概论(C语言)经典课件Lecture 10——数组(下)
来自 其他多维数组可以此类推14
多维数组数据存储
二维数组,行列索引的表格
15
多维数组数据存储
二维数组在内存中的一维顺序排放
16
多维数组在内存中的布局
17
二维数组初始化
初始化:
#define NUMROWS 3
#define NUMCOLS 4 int val[NUMROWS][NUMCOLS] = { {8,16,9,52}, {3,15,27,6}, {14,25,2,10} };
作业3
数组数据统计
for(k=1;k<=1;k++) { printf("\n\n请选择你需要的功能,按下相应数字并回车\n1、查看每个学生的总分和平 均分;\n2、输入学号查看学生各科成绩;\n3、查看各科最高分及其对应学号;\n4、 统计平均分分数段人数\n"); scanf("%d",&m); switch(m) { case 1: { for(i=0;i<=q-1;i++) { sum[i]=Chinese[i]+math[i]+English[i]; average[i]=(float)sum[i]/3; printf("%d号学生的总分为%d,平均分为%.2f。\n",i+1,sum[i],average[i]); } printf("\n按0返回,否则关闭窗口。\n"); scanf("%d",&k); 11 }
第十讲 程序设计----数组
计算概论
(Introduction to Computing) 马思伟
北京大学数字媒体研究所 /

计算语言学

计算语言学
计算语言学讲义(03上)形式语言与自动机
7
形式语法 (2)
• 起始符S
– S属于VN – 相当于句法范畴中的句子
• 重写式规则(Rewriting Rules)的有限集合P 产生式规则(Production Rules)的有限集合P – 基本形式: α β – 含义:将α改写成β – α和β是终结符和非终结符组成的串 – α非空, β可以为空
计算语言学讲义(03上)形式语言与自动机
17
语法的判定复杂度
• PSG:半可判定
对于一个属于0型语言的句子L,总可以在确定步内 判断出“是”;但对于一个不属于0型语言的句子L’, 不存在一个算法,可以在确定步内判断出“否”。
• CSG:可判定,复杂度:NP完全 • CFG:可判定,复杂度:多项式 • RG:可判定,复杂度:线性
β2×P+ R
25
计算语言学讲义(03上)形式语言与自动机
内容提要
计算语言学讲义(03上)形式语言与自动机
26
内容提要
计算语言学讲义(03上)形式语言与自动机
27
词典检索算法 (1)
• 词典检索算法的性能评价
– 时间复杂度 – 空间复杂度 – 检索方式
• 精确匹配检索 • 前缀匹配检索
– 检索句子中某个位置开始的所有词 – 检索句子中某个位置开始的最长词
• 与乔姆斯基语法层级相交叉的语法类别
计算语言学讲义(03上)形式语言与自动机
16
用什么语法描述自然语言
• 正则语法描述能力太弱、上下文有关语法计算 复杂度太高,上下文无关语法使用最为普遍 • 从描述能力上说,上下文无关语法不足以描述 自然语言——自然语言中上下文相关的情况非 常常见 • 从计算复杂度来说,上下文无关语法的复杂度 是多项式的,其复杂度可以忍受 • 为弥补上下文无关语法描述能力的不足 ,需要 加上一些其他手段扩充其描述能力

北京大学计算概论(C语言)经典课件Lecture 4——信息显示与多媒体技术

北京大学计算概论(C语言)经典课件Lecture 4——信息显示与多媒体技术

例如
二进制数 +1000110 (70)的原码表示为: 01000110 (70) 二进制数 -1000110 (-70)的原码表示为: 11000110
21
数值数据的表示
带符号数的表示方法
反码 正数的反码与原码相同;负数的反码是将它 的原码除符号位外逐位取反。
二进制数+a1 a2 ……. an-1的反码为0a1 a2 ……. an-1 二进制数-a1 a2 ……. an-1 的反码为1ā1ā2 ……. ān-1
16
!11010 = 00101
^
数值数据的表示
有关概念
数的长度: 在计算机中,数的长度按比特(bit)来计算。 但因存储容量常以“字节”为计量单位,所以数据 长度也常以字节为单位计量。
1字节(byte)=8比特(bit)
数的符号: 一般用数的最高位(左边第一位)来表示 数的正负号,并约定以“0‖表示正,以“1‖表示负。 小数点的表示方法: 小数点的位置总是隐含的
显示 ①特②忑③慝④铽⑤忒
人选择①
得到“特”的国标 码
29
矢量字库和点阵字库
点阵字库
优点:编码、存储方法简单,使用方便,每个二进制 位直接对应屏幕上(或纸上)的一个点。 缺点:数据量大、占用空间多。
17
数值数据的表示
定点(fixed-point)数表示方法:将计算机中的小数 点的位置视为是固定不变的。
定点整数
范围:-2n~ (2n-1)
定点小数
18
数值数据的表示
浮点数:±d.dd...d ×βJ , (0 ≤ d i < β),
m为尾数 J为阶码
d.dd...d 为尾数,β 为底数,J 为指数,例:123.45 =0. 12345 × 103 计算机中x=m ×2J

ch5 约束满足问题 人工智能课程 北大计算机研究所ppt课件

ch5 约束满足问题     人工智能课程   北大计算机研究所ppt课件
例如八皇后问题,如果不计算皇后的初始状 态,算法的运行时间大体上独立于问题的大 小。
局部搜索算法的另一个优势是当问题改 变时可用于联机设置
在调度问题中尤其重要
第五章、约束满足问题
约束满足问题(CSP) CSP问题的回溯搜索 约束满足问题的局部搜索 问题的结构
问题的结构:利用来找到问题 的解
对于满足S所有约束条件的S中变量的每 个可能的赋值,
从剩余变量的值域中删除与S的赋值不相容 的值,并且
如果去掉S后的剩余CSP有解,把解和S的赋 值一起返回。
算法的时间复杂度
如果环割集的大小为c,那么总的运行时 间为O(dc(n-c)d2)。
寻找最小环割集是个NP难题
基于合并节点
把约束图分解为相关联的子问题集 独立求解每个子问题 合并结果
约束满足问题
CSP由一个变量集合和一个约束集合组成 问题的一个状态是由对一些或全部变量
的一个赋值定义的
完全赋值:每个变量都参与的赋值
问题的解是满足所有约束的完全赋值, 或更进一步,使目标函数最大化。
例子:澳大利亚地图的染色
对每个区域染上红、绿或蓝色,使得没有相 邻的区域颜色相同。
将问题形式化为CSP
弧相容算法AC-3的 时间复杂度是 O(n2d3)。
推广到k相容
弧相容算法AC-3
k相容
如果对于任何k-1个变量的相容赋值, 第k个变量总能被赋予一个与前k-1个变 量相容的值,那么该CSP问题是k相容的。弧相 Nhomakorabea=2相容
处理特殊约束:应用专门算法
删除约束中只有单值值域的变量,然后 将这些变量的取值从其余变量的值域中 删去(重复该过程)。
提前发现失败
HW
5.2,5.6
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特征中,语言处于核心地位。语言也许称得上是人 类的决定性特征之一。我们的祖先如何实现了语言 从无到有的飞跃,这也许是科学史上最大的谜。语 言是生物进化的最后一笔。这是因为语言令那些掌 握了它的动物超越了纯生物的范畴。
自然语言理解——机器具有人的语言能力。 自然语言理解研究超出了纯技术的范畴, 具有真正的科学意义。
三个大学的老师 三/m 个/q 大学/n 的/u 老师/n ——[ [ 三/m 个/q 大学/n ] 的/u 老师/n ] ——[ 三/m 个/q [ 大学/n 的/u 老师/n ] ] 三所大学的老师——[ [ 三/m 所/q 大学/n ] 的/u 老师/n ] 三位大学的老师——[ 三/m 位/q [ 大学/n 的/u 老师/n ] ]
北京大学计算语言学研究所
自然语言理解的研究目标
为什么特别困难? :同计算机技术及其应用的飞速进步相比较 ——徐波等主编《中文信息处理若干重要问题》(2003-11) 拙文“语料库与综合型语言知识库的建设” 关于这个问题的探讨:
(1)对人类语言机制的认识 (2)语言既是对象,又是工具 (3)对当代计算机能力的认识 (4)NLP技术发展的历史经验
《学科分类与代码表》(中国国家标准 GB/T13745--92 )
计算机科学技术 ——人工智能里 ——自然语言处理(520.2020)
(三级学科“自然语言处理”属于理工科)
语言学 ——应用语言学 ——计算语言学(740.3550)
(三级学科“计算语言学”属于文科)
文学 —— ——
(文学与语言学是近邻,如何同信息科技相互促进,会议主题 )
可能的切分:白天鹅/---白/ 天鹅/---白天/ 鹅/---白/ 天/ 鹅/
计算机程序可以按某种算法实现这种切分,给出一种 “正确的” 或多种结果。
白天鹅飞过来了——白/ 天鹅/ 飞/ 过来/ 了 白天鹅可以看家——白天/ 鹅/ 可以/ 看/ 家/ 白天鹅在湖里游泳——白/ 天鹅/ ?白天/ 鹅/ ? 词性标注问题:只——量词 q [zhi1] (隻) ?副词 d [zhi3]? 这只会测水温的鸭子 ——这/ 只/ 会/ 测/ 水温/ 的/ 鸭子/ (切分无歧义) ——这/r 只/q 会/v 测/v 水温/n 的/u 鸭子/n , 挺有用的 ——这/r 只/d 会/v 测/v 水温/n 的/u 鸭子/n ,没什么用
期待会议成功,期待更多的发展和进步。
北京大学计算语言学研究所
主要内容

引言——学科定位


自然语言理解的研究目标
自然语言处理的主攻方向 影响自然语言理解的文学表现手法 隐喻计算研究的基本思路 结语与致谢


北京大学计算语言学研究所

第二届文学与信息科技国际研讨会
中国国家973课题“文本内容理解的数据基础”
自然语言理解研究

文学表现Email: yusw@
2005年12月8日, 北京大学
主要内容





引言——学科定位 自然语言理解的研究目标 自然语言处理的主攻方向 影响自然语言理解的文学表现手法 隐喻计算研究的基本思路 结语与致谢
(意义决定词性,还是词性决定意义?)
北京大学计算语言学研究所

主攻方向——歧义消解
读音相同的“连”也有不同的词性(意义): 一个连有三个排——“连”是名词 n 我们兄弟心连心——“连”是动词 v 苹果可以连皮吃——“连”是介词 p 短语结构的歧义: m + q + n + “的” + n
北京大学计算语言学研究所

关于学科定位
2002夏——在北京大学酝酿 2003年12月在台湾元智大学成功召开 第一届“文学与资讯科技研讨会” 2004年3月罗凤珠主编 《语言,文学与资讯》在台湾出版
2005年12月8日-10日 第二届“文学与信息科技国际研讨会” 在北京大学召开
自然语言理解的研究目标
英国《新科学家》周刊 2005年4月9日 的文章
(参考消息 2005年5月8日 起连载3天)
生命进化的十大奇迹:脑(第3项)和语言(第4项) 脑常常被视作进化过程中的最高成就,因为它赋予了人类 一些高级特征,例如 语言、智慧、意识。 语言是进化的终极发明。在令人类区别于动物的

主要内容



引言——学科定位 自然语言理解的研究目标
自然语言处理的主攻方向
影响自然语言理解的文学表现手法 隐喻计算研究的基本思路 结语与致谢


北京大学计算语言学研究所

主攻方向——歧义消解
词语切分问题: 白天鹅
北京大学计算语言学研究所

句法结构的歧义
例1 例2 会员 学生 选举 认为 他 他 当 是 主席 校长
北京大学计算语言学研究所

主要内容

引言——学科定位
自然语言理解的研究目标 自然语言处理的主攻方向 影响自然语言理解的文学表现手法 隐喻计算研究的基本思路 结语与致谢




北京大学计算语言学研究所

关于学科定位
北京大学计算语言学研究所

实例之一
关于自动升降晾衣架的对话
妻子:“嘿,过了一年才坏。”
丈夫:“什么呀,才一年就坏了。”
丈夫理解了妻子的意思吗? ——虚词词义:才(数量词前后,意义不同) ——背景知识:保修期 ——知识激活机制?
北京大学计算语言学研究所

实例之二
关于“沙漠化”的文章
“几年前由于种植籽瓜有利可图,使大 批的种植者就到过渡带来开垦,……。 在这样的绿洲和沙漠过渡带开垦,极易 造成风蚀。”
——<今日民航>2001年9月号
就/ 到/ 就到/ 到/ 到过/ 过/ 过渡/ 带/ 来/ 带来/
(未登录词的识别——知识背景——认知机制)
北京大学计算语言学研究所
相关文档
最新文档