中文分词入门之最大匹配法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中文分词入门之最大匹配法
发表于2009年01月12号由52nlp
中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。中文分词入门最简单应该是最大匹配法了,当年师兄布置给我的第一个学习任务就是实现最大匹配法的分词算法(正向、逆向)。记得当时对自己参考学习最有帮助的是北大詹卫东老师“中文信息处理基础”的课件和源程序,不过他实现的是mfc程序,词表存储在数据库里。自己实现时用纯c++实现,利用hash_map 存储词表。这里我介绍一下相关的知识和一个简单的程序示例,部分参考自詹老师的讲义。
正向最大匹配法算法如下所示:
(注:以上最大匹配算法图来自于詹老师讲义)
逆向匹配法思想与正向一样,只是从右向左切分,这里举一个例子:
输入例句:S1=”计算语言学课程有意思” ;
定义:最大词长MaxLen = 5;S2= ” “;分隔符= “/”;
假设存在词表:…,计算语言学,课程,意思,…;
最大逆向匹配分词算法过程如下:
(1)S2=”";S1不为空,从S1右边取出候选子串W=”课程有意思”;
(2)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有意思”;
(3)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有意思”;
(4)查词表,W不在词表中,将W最左边一个字去掉,得到W=”意思”
(5)查词表,“意思”在词表中,将W加入到S2中,S2=” 意思/”,并将W从S1中去掉,此时S1=”计算语言学课程有”;
(6)S1不为空,于是从S1左边取出候选子串W=”言学课程有”;
(7)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程有”;
(8)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程有”;
(9)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有”;
(10)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有”,这W是单字,将W 加入到S2中,S2=“ /有/意思”,并将W从S1中去掉,此时S1=”计算语言学课程”;
(11)S1不为空,于是从S1左边取出候选子串W=”语言学课程”;
(12)查词表,W不在词表中,将W最左边一个字去掉,得到W=”言学课程”;
(13)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程”;
(14)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程”;
(15)查词表,“意思”在词表中,将W加入到S2中,S2=“课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=”计算语言学”;
(16)S1不为空,于是从S1左边取出候选子串W=”计算语言学”;
(17)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=”";
(18)S1为空,输出S2作为分词结果,分词过程结束。
相应程序示例:
准备文件:建立一个词表文件wordlexicon,格式如下
计算语言学
课程
意思
输入文件:test,格式如下
计算语言学课程有意思
编译后执行如下:SegWord.exe test
输出分词结果文件:SegmentResult.txt
源代码如下:
// Dictionary.h
#include
#include
#include
#include
#include
using namespace std;
using namespace stdext;
class CDictionary
{
public:
CDictionary(); //将词典文件读入并构造为一个哈希词典
~CDictionary();
int FindWord(string w); //在哈希词典中查找词
private:
string strtmp; //读取词典的每一行
string word; //保存每个词
hash_map
hash_map
typedef pair
};
//将词典文件读入并构造为一个哈希词典
CDictionary::CDictionary()
{
ifstream infile(“wordlexicon”); // 打开词典
if (!infile.is_open()) // 打开词典失败则退出程序
{
cerr << "Unable to open input file: " << "wordlexicon"
<< " -- bailing out!" << endl;
exit(-1);
}
while (getline(infile, strtmp, 'n')) // 读入词典的每一行并将其添加入哈希中{
istringstream istr(strtmp);
istr >> word; //读入每行第一个词
wordhash.insert(sipair(word, 1)); //插入到哈希中
}
}
CDictionary::~CDictionary()
{
}
//在哈希词典中查找词,若找到,则返回,否则返回
int CDictionary::FindWord(string w)
{
if (wordhash.find(w) != wordhash.end())
{
return 1;
}
else