天津科技大学数据结构与算法课程设计报告-源程序的相似性

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据结构与算法课程设计报告

设计题目:源程序的相似性

专业计算机科学与技术

学号14101103

姓名傅开煤

2017 年1月10日

源程序的相似性

一、问题描述

对于两个C++语言的源程序代码,用哈希表的方法分别统计两个程序中使用C++语言关键字的情况,并最终按定量的计算结果,得出两份程序的相似性。

二、需求分析

建立C++语言关键字的哈希表,统计在每个源程序中C++关键字出现的频度, 得到两个向量X1和X2,通过计算向量X1和X2的相对距离来判断两个源程序的相似性。

例如:

关键字Void Int For Char if else while do break class

程序1关键字频度 4 3 0 4 3 0 7 0 0 2

程序2关键字频度 4 2 0 5 4 0 5 2 0 1

X1=[4,3,0,4,3,0,7,0,0,2]

X2=[4,2,0,5,4,0,5,2,0,1]

设s是向量X1和X2的相对距离,s=sqrt( ∑(x1[i]-x2[i]) 2 ),当X1=X2时,s=0,反映出可能是同一个程序;s值越大,则两个程序的差别可能也越大。

三、概要设计

为了实现上述功能,可以用结构体表示哈希表,因此需要哈希表的抽象数据类型。哈希表抽象数据类型的定义:

ADT hashtable{

数据对象:D={a

i |a

i

∈ElemType,且各不相同,i=1,2...,n,n≥0}

数据关系:R=φ基本操作:

本程序实现模块

主程序模块

哈希表程序模块:实现哈希表的抽象数据类型

调用关系图如下:

四、详细设计

1、各个子函数的设计

(1)创建哈希表函数

函数原型:void creathash(void);

输入:读取存储了32个关键字的文件keyword.txt

思路:通过对keyword.txt 文件逐行赋值给创建的str 字符数组,并将该数组调入Hashfunc 函数。

(2)将关键字根据哈希函数放入哈希表中的指定位置的函数

函数原型:void Hashfunc(char str[]);

思路:对调进来的str 数组通过调用getkey 函数得到该关键词的key 值后放入哈希表中的特定位置,并用线性探索来解决冲突。

(3)在哈希表中找是否该words 为关键字,并统计频度的函数

函数原型:int Hashfind(char *words);

思路:将调进来的word 字符数组先调用getkey 函数获取key 值,然后在哈希表里查找

是否存在该字符串,如果存在则该关键字对应的频度加1。

(4)重置哈希表函数

函数原型:void resethash(int n);

功能:当n 为0时,将指向哈希表中关键字的指针置成Null ,同时将频度全部置为0.

而当n 为1时,仅仅将频度置为0。

(5)获取单词key 的函数

函数原型:int getkey(char *str,int len);

思路:用key1存储关键字的首字母,key2存储关键字的末字母,然后通过哈希函数得

到key 的值并返回。

(6)判断是否为字母的函数

函数原型:int isletter(char ch);

思路:如果调进来的ch字符的ASCII值在a~z或A~Z范围内的话则返回1,否则返回0。

(7)读取源程序文件中的单词的函数

函数原型:int readc(char * filename);

思路:为了读取源程序文件中的单词,所以一个字符一个字符的,如果读的超过最大关键字长度将会跳过当前识别区域,读取下一个单词,将得到的该单词调入Hashfind函数,来判断是否为关键字,并统计频度。

(8)将频度拷贝到数组里的函数

函数原型:void copycount(int x[],int n);

功能:将哈希表中关键字的频度复制到x数组中,以便进行后面相似度等的计算。

(9)检查两个源程序是否相似的函数

函数原型:void check(int *x1, int *x2);

思路:对调进来的x1和x2数组进行相似度计算,若相似度大于设定好的阈值,则再进行几何距离计算,最后给出两个文件是否相似的判断。

(10)取模函数

函数原型:float Mol(int *x);

思路:通过求向量模值的数学知识求x数组的模。

(11)点积函数

函数原型:int Dot(int *x1, int *x2)

思路:通过点积的数学知识对两个向量求点积。

(12)求相似度S的函数

函数原型:float S(int *x1,int *x2);

思路:根据题目给的求相似度的公式求x1和x2数组的相似度。

(13)求距离D的函数

函数原型:float D(int *x1, int *x2);

思路:用题目给的球几何距离的公式求x1和x2数组的几何距离。

2、主函数伪码

3、调用关系图

调用关系图如下:

五、编码实现

2.使用void copycount(int x[],int n)来将频度拷贝到数组里的函数

3.使用int getkey(char *str,int len)来获取单词key的函数

4.使用void creathash(void)来创建哈希表函数

5.使用void Hashfunc(char str[])来将关键字根据哈希函数放入哈希表中的指定位置的函

相关文档
最新文档