自然语言处理 第四章汉语语料库多级加工
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉语语料库多级加工
目的
• 语料库的多级加工技术是语料库语言学 研究的前沿课题。
• 它的处理目标是对生语料文本进行多级 加工(分词、词性标注、句法分析)形成树 库(treebank)语料。
• 目的:大规模的语料库中提取应用所需要 的各个语言单位上的语言学知识。
计算机语料库的功能的决定性 因素
• 语料库的规模
– 利用这个译名表,可初步确定外国人名在句子中的 位置和边界。
– 设任一连续汉字串C1...Ci...Cn (n1), 如果对所有的 Ci (i=1,...,n) , 都有Ci 属于译名表, 则初步可认为该 汉字串为外国人名。
外国人名识别(2)
– 初步确定外国人名之后, 再根据人名前后的限制性 成分, 进一步确定外国人名的界限。
– 第一次出现的人名叫做“定义性出现”, 尔后出现 的人名叫做“使用性出现”。 为此, 在切分时可根 据人名在定义性出现时的限制性成分首先建立人名 表。
中国人名识别(2)
• 人名的限制性成分主要有
– 身份词:表示人的职务, 职位, 头衔的词语和亲属称 谓的词语. 有的出现在人名之前, 如“工人, 教师, 丈 夫, 妻子, 犯人”, 有的出现在人名之后, 如“先生, 女士”, 有的可以出现在人名的前面和后面, 如“教 授, 总理”。
• 政府总理卢卡诺夫参加了庆祝活动 • 英国首相撒切尔夫人访问美国
根据译名表切分时会认为“理卢卡诺夫, 撒切尔 夫”是外国人名, 得出错误的切分。这时, 还要利用 限制性成分“总理”和“夫人”, 使译名表中的汉 字不能作用于限制性成分“总理”和“夫人”之上, 便可以得到正确的切分:“总理/卢卡诺夫”, “撒切 尔/夫人”。
– 歧义切分字段在汉语书面文本中所占的比例并不很 大,在实际的书面文本中,特别是在新闻类文本中, 未登录词的处理是书面文本自动切分的一个十分突 出的问题。这是汉语书面语自动切分的另一个难点。
中国人名识别(1)
– 根据统计, 汉语姓氏大约有1000多个, 姓氏中使用频 度最高的是“王”姓, “王, 陈, 李, 张, 刘” 等5个大 姓覆盖率达32%, 姓氏频度表中的前14个高频度的 姓氏覆盖率为50%, 前400个姓氏覆盖率达99%。 人 名的用字也比较集中。 频度最高的前6个字覆盖率 达10.35%, 前10个字的覆盖率达14.936%, 前15个字 的覆盖率达19.695%, 前400个字的覆盖率达90%。
– 许多身份词带有后缀字, 如“在逃犯, 理发员, 面包 师, 目击者”中的“犯, 员, 师, 者”等。
– 地名和单位名: 如“浙江绍兴周树人, 国家语委冯志 伟”。
– 复杂的定语: 如“德高望重的吕叔湘先生”。
• 根据这些限制性成分,可以有效地识别人名
中国人名识别(3)
– 中国姓氏用字中有的是专用作姓氏的, 如“赵, 邓, 潘, 冯”等, 有的则兼作其他词语使用, 如“顾, 黄, 周”等, 对于兼作其他 词语的姓氏, 需要建立规则来判断。 • “顾”兼作动词
– 语料库容量的大小直接影响到统计结果的可靠性
• 语料的分布
– 语料分布的考虑则关系到统计结果的适用范围
• 语料的加工深度
– 加工深度则决定了该语料库能为自然语言处理提供 什么样的知识
语料的加工顺序
– 经过不同阶段的处理,语料库包含的各类信息也不 断增加,最终将成为一个名副其实的语言知识库。 这样的知识库可以为汉语统计分析、汉语理解和机 器翻译等资源提供重要的资源和有力的支持
– 我们也可以利用只能出现在外国人名首和外国人名 末的汉字作为特征字来判定外国人名的边界。这需 要分别建立相应的字表来作为判定外国人名左右边 界的依据。
外国人名识别(3)
• 还可以利用简单的上下文来进一步判定 外国人名的边界
– 标点符号, 数字, 空格, 西文字母, 译名连接符 号常常是人名的边界。
– 记者顾小东 – 只顾短期的经济利益
• 规则: 如果“顾”前有副词(只), 则“顾”不为姓氏。 • “黄”兼作形容词
– 黄曾阳研究概念层次网络 – 彩色的光带射到黄玻璃上
• 规则: 如果“黄”后有物质名词,则“黄”不为姓氏。 • “周”兼作量词
– 由周恩来任国务院总理 – 地球自转一周
• 规则: 如果“周”前有数词, 则“周”不为姓氏。
外国人名识别(1)
– 《英语姓名译名手册》中共收英语姓氏, 教名约4万 个, 经计算机统计得出英语姓名译名用字表共476个:
“啊阿埃艾爱昂奥巴白柏拜班邦包保堡鲍北贝倍本比彼边别滨宾玻波博勃伯卜布采蔡藏策查察昌彻 陈楚垂茨慈次聪存措达大戴代丹当道德得登邓迪底地蒂第帝丁东杜敦顿多厄恩耳尔法凡范方菲费 芬丰冯佛夫福弗辅富盖甘冈高哥戈葛格各根贡古顾瓜圭郭果哈海罕翰汉杭豪赫黑亨洪侯胡华怀惠 霍基吉季计嘉佳加贾简姜焦杰捷金津京久居喀卡开凯坎康考柯科可克肯孔扣寇库夸匡奎魁坤昆阔 拉腊莱来赖兰朗劳勒乐雷黎理李里礼荔丽历利立莲连廉良列琳林霖龄留刘流柳龙隆卢鲁露路吕略 伦萝罗洛玛马麦迈满曼芒茅梅门蒙孟米密敏明名摩莫墨默姆木穆拿娜纳乃奈南内嫩能妮尼年涅宁 牛纽农努女诺欧帕派潘庞培佩彭蓬皮匹平泼朴普漆奇齐契恰钱强乔切钦琴青琼丘邱屈让热仁日荣 茹儒瑞若撒萨塞赛三缮桑瑟森莎沙珊山尚绍舍申生盛圣施诗石什史士寿舒朔斯思丝松孙索所塔泰 坦汤唐陶特藤提惕田铁汀廷亭通透图托脱娃瓦万旺威韦为维伟魏卫温文翁沃乌武伍西锡希悉席霞 夏显香向晓肖歇谢欣辛兴幸姓雄休修雪逊雅亚延扬阳尧耀耶叶依易意因英永尤雨约宰赞早泽曾扎 詹湛章张哲者珍真芝知智治朱卓兹子宗祖佐丕谟葆薇岑弼娅缪珀瑙赉滕斐熙鸠窦艮麟黛”。
自动分词
• 规范
– 北大计算语言学研究所1994年制订了《现代 汉语文本切分与词性标注规范V1.0》。
– 北大计算语言学研究所于1998年10月制订了 《现代汉语文本切分与词性标注规范V2.0》
– 后改名为《现代汉语语料库加工规范》。
分词的主要难点
• 切分歧义
– 交集型 – 覆盖型
• 未登录词
– 就是在词典中没有登录过的人名, 地名, 机构名, 新 词语等. 当采用匹配的Leabharlann Baidu法来切词时, 由于词典中没 有登录这些词, 会引起自动切词的困难。
目的
• 语料库的多级加工技术是语料库语言学 研究的前沿课题。
• 它的处理目标是对生语料文本进行多级 加工(分词、词性标注、句法分析)形成树 库(treebank)语料。
• 目的:大规模的语料库中提取应用所需要 的各个语言单位上的语言学知识。
计算机语料库的功能的决定性 因素
• 语料库的规模
– 利用这个译名表,可初步确定外国人名在句子中的 位置和边界。
– 设任一连续汉字串C1...Ci...Cn (n1), 如果对所有的 Ci (i=1,...,n) , 都有Ci 属于译名表, 则初步可认为该 汉字串为外国人名。
外国人名识别(2)
– 初步确定外国人名之后, 再根据人名前后的限制性 成分, 进一步确定外国人名的界限。
– 第一次出现的人名叫做“定义性出现”, 尔后出现 的人名叫做“使用性出现”。 为此, 在切分时可根 据人名在定义性出现时的限制性成分首先建立人名 表。
中国人名识别(2)
• 人名的限制性成分主要有
– 身份词:表示人的职务, 职位, 头衔的词语和亲属称 谓的词语. 有的出现在人名之前, 如“工人, 教师, 丈 夫, 妻子, 犯人”, 有的出现在人名之后, 如“先生, 女士”, 有的可以出现在人名的前面和后面, 如“教 授, 总理”。
• 政府总理卢卡诺夫参加了庆祝活动 • 英国首相撒切尔夫人访问美国
根据译名表切分时会认为“理卢卡诺夫, 撒切尔 夫”是外国人名, 得出错误的切分。这时, 还要利用 限制性成分“总理”和“夫人”, 使译名表中的汉 字不能作用于限制性成分“总理”和“夫人”之上, 便可以得到正确的切分:“总理/卢卡诺夫”, “撒切 尔/夫人”。
– 歧义切分字段在汉语书面文本中所占的比例并不很 大,在实际的书面文本中,特别是在新闻类文本中, 未登录词的处理是书面文本自动切分的一个十分突 出的问题。这是汉语书面语自动切分的另一个难点。
中国人名识别(1)
– 根据统计, 汉语姓氏大约有1000多个, 姓氏中使用频 度最高的是“王”姓, “王, 陈, 李, 张, 刘” 等5个大 姓覆盖率达32%, 姓氏频度表中的前14个高频度的 姓氏覆盖率为50%, 前400个姓氏覆盖率达99%。 人 名的用字也比较集中。 频度最高的前6个字覆盖率 达10.35%, 前10个字的覆盖率达14.936%, 前15个字 的覆盖率达19.695%, 前400个字的覆盖率达90%。
– 许多身份词带有后缀字, 如“在逃犯, 理发员, 面包 师, 目击者”中的“犯, 员, 师, 者”等。
– 地名和单位名: 如“浙江绍兴周树人, 国家语委冯志 伟”。
– 复杂的定语: 如“德高望重的吕叔湘先生”。
• 根据这些限制性成分,可以有效地识别人名
中国人名识别(3)
– 中国姓氏用字中有的是专用作姓氏的, 如“赵, 邓, 潘, 冯”等, 有的则兼作其他词语使用, 如“顾, 黄, 周”等, 对于兼作其他 词语的姓氏, 需要建立规则来判断。 • “顾”兼作动词
– 语料库容量的大小直接影响到统计结果的可靠性
• 语料的分布
– 语料分布的考虑则关系到统计结果的适用范围
• 语料的加工深度
– 加工深度则决定了该语料库能为自然语言处理提供 什么样的知识
语料的加工顺序
– 经过不同阶段的处理,语料库包含的各类信息也不 断增加,最终将成为一个名副其实的语言知识库。 这样的知识库可以为汉语统计分析、汉语理解和机 器翻译等资源提供重要的资源和有力的支持
– 我们也可以利用只能出现在外国人名首和外国人名 末的汉字作为特征字来判定外国人名的边界。这需 要分别建立相应的字表来作为判定外国人名左右边 界的依据。
外国人名识别(3)
• 还可以利用简单的上下文来进一步判定 外国人名的边界
– 标点符号, 数字, 空格, 西文字母, 译名连接符 号常常是人名的边界。
– 记者顾小东 – 只顾短期的经济利益
• 规则: 如果“顾”前有副词(只), 则“顾”不为姓氏。 • “黄”兼作形容词
– 黄曾阳研究概念层次网络 – 彩色的光带射到黄玻璃上
• 规则: 如果“黄”后有物质名词,则“黄”不为姓氏。 • “周”兼作量词
– 由周恩来任国务院总理 – 地球自转一周
• 规则: 如果“周”前有数词, 则“周”不为姓氏。
外国人名识别(1)
– 《英语姓名译名手册》中共收英语姓氏, 教名约4万 个, 经计算机统计得出英语姓名译名用字表共476个:
“啊阿埃艾爱昂奥巴白柏拜班邦包保堡鲍北贝倍本比彼边别滨宾玻波博勃伯卜布采蔡藏策查察昌彻 陈楚垂茨慈次聪存措达大戴代丹当道德得登邓迪底地蒂第帝丁东杜敦顿多厄恩耳尔法凡范方菲费 芬丰冯佛夫福弗辅富盖甘冈高哥戈葛格各根贡古顾瓜圭郭果哈海罕翰汉杭豪赫黑亨洪侯胡华怀惠 霍基吉季计嘉佳加贾简姜焦杰捷金津京久居喀卡开凯坎康考柯科可克肯孔扣寇库夸匡奎魁坤昆阔 拉腊莱来赖兰朗劳勒乐雷黎理李里礼荔丽历利立莲连廉良列琳林霖龄留刘流柳龙隆卢鲁露路吕略 伦萝罗洛玛马麦迈满曼芒茅梅门蒙孟米密敏明名摩莫墨默姆木穆拿娜纳乃奈南内嫩能妮尼年涅宁 牛纽农努女诺欧帕派潘庞培佩彭蓬皮匹平泼朴普漆奇齐契恰钱强乔切钦琴青琼丘邱屈让热仁日荣 茹儒瑞若撒萨塞赛三缮桑瑟森莎沙珊山尚绍舍申生盛圣施诗石什史士寿舒朔斯思丝松孙索所塔泰 坦汤唐陶特藤提惕田铁汀廷亭通透图托脱娃瓦万旺威韦为维伟魏卫温文翁沃乌武伍西锡希悉席霞 夏显香向晓肖歇谢欣辛兴幸姓雄休修雪逊雅亚延扬阳尧耀耶叶依易意因英永尤雨约宰赞早泽曾扎 詹湛章张哲者珍真芝知智治朱卓兹子宗祖佐丕谟葆薇岑弼娅缪珀瑙赉滕斐熙鸠窦艮麟黛”。
自动分词
• 规范
– 北大计算语言学研究所1994年制订了《现代 汉语文本切分与词性标注规范V1.0》。
– 北大计算语言学研究所于1998年10月制订了 《现代汉语文本切分与词性标注规范V2.0》
– 后改名为《现代汉语语料库加工规范》。
分词的主要难点
• 切分歧义
– 交集型 – 覆盖型
• 未登录词
– 就是在词典中没有登录过的人名, 地名, 机构名, 新 词语等. 当采用匹配的Leabharlann Baidu法来切词时, 由于词典中没 有登录这些词, 会引起自动切词的困难。