基于朴素贝叶斯分类器的文本分类算法C语言
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
_finddata_t fileinfo;
/********查找.txt 文件,记录文件数**********/ if ((hFile=_findfirst("*.txt",&fileinfo))!=-1L) { do { count++; } while (_findnext(hFile,&fileinfo) == 0); } return count; }
ch = fgetc(fp); }
/********计算总文本数和每个类别下的文本数、∏P(ai|vj)********/ int txtCount[10]; //每个类别下的训练文本数 int countAll=0; //训练集中总文本数 float wordProbability[10]; //每个类别的单词概率,即∏P(ai|vj)
char ch; wenku.baidu.com/临时读取字符使用 int index=0; //classList 的行标 int className_c=0; //classList 的列标
if((fp=fopen("ClassList.txt","r"))==NULL) { printf("Failed to open the file: ClassList.txt.\n"); } ch = fgetc(fp); while(ch!=EOF) { if(ch!='\n') { classList[index][className_c]=ch; className_c++; } else { classList[index][className_c]='\0'; index++; className_c=0; }
countAll+=txtCount[1]; wordProbability[1]=CalculateWordProbability(wordCount); //获取该类别 下∏P(wj|vi) } if(_chdir("F:\\SogouC\\Sample\\3")) //更改当前绝对路径 printf("系统找不到指定路径!\n"); else { txtCount[2]=CountDirectory(); //获取该类别下.txt 文件数 countAll+=txtCount[2]; wordProbability[2]=CalculateWordProbability(wordCount); //获取该类别 下∏P(wj|vi) } if(_chdir("F:\\SogouC\\Sample\\4")) //更改当前绝对路径 printf("系统找不到指定路径!\n"); else { txtCount[3]=CountDirectory(); //获取该类别下.txt 文件数 countAll+=txtCount[3]; wordProbability[3]=CalculateWordProbability(wordCount); //获取该类别 下∏P(wj|vi) }
int countAll=0; //训练样本中总单词数 char token; FILE *fp; float wordProbability=1; //为后面联乘做准备 int i,j; long hFile; _finddata_t fileinfo;
for(j=0;j<wordCount;j++) //对于分类样本中的每一个单词 { countSame=0; countAll=0; if((hFile=_findfirst("*.txt",&fileinfo))!=-1L) // 对 于 该 类 别下每一个.txt 文本 { do { if((fp=fopen(fileinfo.name,"r"))==NULL) //是否能打开该文本 { printf("Sorry!Cannot open the file!\n"); exit(0);
if (strcmp(keyword,vocabulary[j]) == 0) //比较两个单词是否相同 countSame++; } fclose(fp);
}while (_findnext(hFile,&fileinfo) == 0); }
wordProbability*=
(float)(countSame+1)/(float)(wordCount+countAll)*300; // 计 算 ∏ P(wj|vi),为了扩大效果而*380 }
int SplitToWord(char text[]) { int i=0; char seps[]=", .\n"; /*定义单词的分隔符*/ char *substring;
/******利用分隔符将文本内容分割成单词并存储******/ substring=strtok(text,seps); while(substring!=NULL) { strcpy(vocabulary[i],substring);//将单词存储到 vocabulary 数组中 substring=strtok(NULL,seps); i++; } return i; //返回一共多少个单词 }
if(_chdir("F:\\SogouC\\Sample\\1")) //更改当前绝对路径 printf("系统找不到指定路径!\n"); else { txtCount[0]=CountDirectory(); //获取该类别下.txt 文件数 countAll+=txtCount[0]; wordProbability[0]=CalculateWordProbability(wordCount); //获取该类别 下∏P(wj|vi) } if(_chdir("F:\\SogouC\\Sample\\2")) //更改当前绝对路径 printf("系统找不到指定路径!\n"); else { txtCount[1]=CountDirectory(); //获取该类别下.txt 文件数
char vocabulary[1000][20];/*声明公有二维数组,用来存储分割好的单词*/
/*=================将要分类的文本分割成单词存储在二维数组 vocabulary 中================*/ //@输入参数:要分类的文本 //@输出参数:该文本中总单词数
}
/********存储此.txt 文件中每个单词并与分类文本的单词作比较*******/ while((token = fgetc(fp)) != EOF) { char keyword[1024]; i = 0;
keyword[0] = token; // 将每个词第一个字符赋给数组第一个元素 while ((keyword[++i] = fgetc(fp)) != ' ' && keyword[i] != '\t' && keyword[i] != EOF && keyword[i] != '\n'); // 开始读字符,直到遇到空白 符,说明找到一个词 keyword[i] = '\0';// 加结束符 countAll++;
/*=============================== 计 算 该 目 录 下 的 文 件数================================*/ //@输入参数:无 //@输出参数:该目录下.txt 文件数
int CountDirectory() { int count=0; //txt 文件计数器 long hFile;
return wordProbability; }
/*============================计算每个类别的最终概率 输出结果===============================*/ //@输入参数:分类文本中单词数
void CalculateProbability(int wordCount) { /*********将类别表存储在二维数组中*********/ FILE *fp; char classList[10][20]; //类别列表
基于朴素贝叶斯分类器的文本分类算法(C 语言)
#include <string.h> #include <direct.h> //_getcwd(), _chdir() #include <stdlib.h> //_MAX_PATH, system() #include <io.h> //_finddata_t, _findfirst(), _findnext(), _findclose()
/*=================================== 计 算 某 类 别 中∏P(ai|vj)===================================*/ //@输入参数:分类文本中单词数 //@输出参数:该类别下∏P(ai|vj)
float CalculateWordProbability(int wordCount) { int countSame; //分类文本中的某单词在所有训练样本中出现次数
取该类别下.txt 文件数 countAll+=txtCount[5]; wordProbability[5]=CalculateWordProbability(wordCount); //获取该类别 下∏P(wj|vi) }
if(_chdir("F:\\SogouC\\Sample\\7")) //更改当前绝对路径 printf("系统找不到指定路径!\n"); else { txtCount[6]=CountDirectory(); //获取该类别下.txt 文件数 countAll+=txtCount[6]; wordProbability[6]=CalculateWordProbability(wordCount); //获取该类别 下∏P(wj|vi) } if(_chdir("F:\\SogouC\\Sample\\8")) //更改当前绝对路径 printf("系统找不到指定路径!\n"); else { txtCount[7]=CountDirectory(); //获取该类别下.txt 文件数 countAll+=txtCount[7]; wordProbability[7]=CalculateWordProbability(wordCount); //获取该类别 下∏P(wj|vi) } if(_chdir("F:\\SogouC\\Sample\\9")) //更改当前绝对路径 printf("系统找不到指定路径!\n"); else {
if(_chdir("F:\\SogouC\\Sample\\5")) //更改当前绝对路径 printf("系统找不到指定路径!\n"); else { txtCount[4]=CountDirectory(); //获取该类别下.txt 文件数 countAll+=txtCount[4]; wordProbability[4]=CalculateWordProbability(wordCount); //获取该类别 下∏P(wj|vi) } if(_chdir("F:\\SogouC\\Sample\\6")) //更改当前绝对路径 printf("系统找不到指定路径!\n"); else { txtCount[5]=CountDirectory(); //获