哈希表技术判别源程序的相似性 实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
哈希表技术判别两个源程序的相似性
实验报告
[作者姓名]
2014-12-26
一.问题描述
实验题目:对于两个C 语言的源程序清单,用哈希表的方法分别统计两程序中使用C语言关键字的情况,并最终按定量的计算结果,得出两份源程序的相似性。
要求与提示:
C 语言关键字的哈希表可以自建,也可以采用下面的哈希函数作为参考:
Hash(key)=(key第一个字符序号*100+key最后一个字符序号)%41
表长m取43。此题的工作主要是扫描给定的源程序,累计在每个源程序中C语言关键字出现的频度。为保证查找效率,建议自建哈希表的平均查找长度不大于2。扫描两个源程序所统计的所有关键字不同频度,可以得到两个向量。如下面简单的例子所示:
根据程序1和程序2中关键字出现的频度,可提取到两个程序的特征向量X1和X2,其
中
X1= (4 3 0 4 3 0 7 0 0 2)T
X2= (4 2 0 5 4 0 5 2 0 1)T
一般情况下,可以通过计算向量Xi和Xj的相似值来判断对应两个程序的相似性,相
似值的判别函数计算公式为:
最后的相似性判别计算可分两步完成:
第一步用式(3-1)计算S,把接近1的保留,抛弃接近。的情况(把不相似的排除);
第二步对保留下来的特征向量,再用式(3-2)计算D,如D值也比较小,说明两者
对应的程序确实可能相似(慎重肯定相似的)。
S和D的值达到什么门限才能决定取舍?需要积累经验,选择合适的阑值。
3)测试数据:
做儿个编译和运行都无误的C程序,程序之问有相近的和差别大的,用上述方法求S}
并对比差异程度。
4)输入输出:
输入为若干个c源程序,输出为程序问的相似度以及向量的几何距离。
基本要求:建立哈希表,统计源程序中关键字出现的频度,并计算多个源程序之间的相似度。
测试数据:自己在网上找到一些C语言程序,分别为test1.txt,test2.txt,test3.txt等。运行结果应为输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。
二.需求分析
1.本程序用来通过建立哈希表求源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。
2.用户可以将源程序的.txt文件放入hashtable文件夹中,运行程序就可以输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。
三.概要设计
为了实现上述功能,可以用结构体表示哈希表,因此需要哈希表的抽象数据类型。
哈希表抽象数据类型的定义:
ADT hashtable{
数据对象:D={a
i |a
i
∈ElemType,且各不相同,i=1,2...,n,n≥0}
数据关系:R=φ
基本操作:
Hashfunc(char str[]);
Hashfind(char *words);
creathash(void);
resethash(int n);
isletter(char ch);
readc(char * filename);
getkey(char *str,int len);
copycount(int x[],int n);
check(int *x1, int *x2);
}end ADT
3.本程序实现模块
主程序模块
哈希表程序模块:实现哈希表的抽象数据类型
四.详细设计
1.各个子函数的设计
1)创建哈希表函数
函数原型:void creathash(void);
输入:读取存储了32个关键字的文件ckey.txt
思路:通过对ckey.txt文件逐行赋值给创建的str字符数组,并将该数组调入Hashfunc 函数。
(2)将关键字根据哈希函数放入哈希表中的指定位置的函数
函数原型:void Hashfunc(char str[]);
思路:对调进来的str数组通过调用getkey函数得到该关键词的key值后放入哈希表中的特定位置,并用线性探索来解决冲突。
(3)在哈希表中找是否该words为关键字,并统计频度的函数
函数原型:int Hashfind(char *words);
思路:将调进来的word字符数组先调用getkey函数获取key值,然后在哈希表里查找是否存在该字符串,如果存在则该关键字对应的频度加1.
(4)重置哈希表函数
函数原型:void resethash(int n);
功能:当n为0时,将指向哈希表中关键字的指针置成Null,同时将频度全部置为
0.而当n为1时,仅仅将频度置为0.
(5)获取单词key的函数
函数原型:int getkey(char *str,int len);
思路:用key1存储关键字的首字母,key2存储关键字的末字母,然后通过哈希函数得到key的值并返回。
(6)判断是否为字母的函数
函数原型:int isletter(char ch);
思路:如果调进来的ch字符的ASCII值在a~z或A~Z范围内的话则返回1,否则返回0.
(7)读取源程序文件中的单词的函数
函数原型:int readc(char * filename);
思路:为了读取源程序文件中的单词,所以一个字符一个字符的,如果读的超过最大关键字长度将会跳过当前识别区域,读取下一个单词,将得到的该单词调入Hashfind函数,来判断是否为关键字,并统计频度。
(8)将频度拷贝到数组里的函数
函数原型:void copycount(int x[],int n);
功能:将哈希表中关键字的频度复制到x数组中,以便进行后面相似度等的计算。
(9)检查两个源程序是否相似的函数
函数原型:void check(int *x1, int *x2);
思路:对调进来的x1和x2数组进行相似度计算,若相似度大于设定好的阈值,则再进行几何距离计算,最后给出两个文件是否相似的判断。
(10)取模函数
函数原型:float Mol(int *x);
思路:通过求向量模值的数学知识求x数组的模
(11)点积函数
函数原型:int Dot(int *x1, int *x2);
思路:通过点积的数学知识对两个向量求点积
(12)求相似度S的函数
函数原型:float S(int *x1,int *x2);
思路:根据题目给的求相似度的公式求x1和x2数组的相似度
(13)求距离D的函数
函数原型:float D(int *x1, int *x2);
思路:用题目给的球几何距离的公式求x1和x2数组的几何距离
2.主函数伪码
int main()
{
char filename1[]={"test1.txt"};
char filename2[]={"test12.txt"};
char filename3[]={"test13.txt"};
int x1[hashlen],x2[hashlen],x3[hashlen]; //存储频度的数组,用于相似度S的计算
resethash(0); //完全重置哈希表,即哈希指针置为NULL,频度置为0
creathash(); //通过文件ckey.txt