西工大数据结构课程设计Tire-Tree

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据结构

课程设计实验报告

《课程设计》实验报告

班级:学号:姓名:

E-mail:日期:

◎实验题目:字典树

◎实验目的：设计合适的数据结构，建立字典树，解决文件中单词的搜索统计问题。

◎实验内容：现在有一个英文字典（每个单词都是由小写的'a'-'z'组成），单词量很大，达到100多万的单词，而且还有很多重复的单词。

此外，我们现在还有一些 Document，每个Document 包含一些英语单词。

针对这个问题，请你选择合适的数据结构，组织这些数据，使时间复杂度和空间复杂度尽可能低，并且解决下面的问题和分析自己算法的时间复杂度。

1）基本型问题

（1）选择合适的数据结构，将所有的英文单词生成一个字典Dictionary。（2）给定一个单词，判断这个单词是否在字典 Dictionary中。如果在单词库中，输出这个单词总共出现的次数。否则输出NO。

2）扩展型问题

（3）给定一个单词，按字典序输出字典 Dictionary 中所有以这个单词为前缀的单词。例如，如果字典 T={a,aa, aaa, b, ba}, 如果你输入 a,那么输出应该为{a, aa, aaa}。

（4）给定一个单词，输出在Dictionary 中以这个单词为前缀的单词的出现频率最高的10个单词，对于具有相同出现次数的情况，按照最近（即最后）插入的单词优先级比较高的原则输出。

（5）输出Dictionary中出现次数最高的10个单词。

3）高级型问题

（6）现在我们有一些Document，每个Document 由一些单词组成，现在的问题就是给你一个word，检索出哪些 Document包含这个 word，输出这些Document 的DocumentID（就如同搜索引擎一样，即输入一些关键字，然后检索出和这些关键字相关的文档）。

（7）在第（6）问中，我们只考虑了一个word 在哪些Document中的情况，我们进一步考虑2个相邻word的情况，检索出同时包含这两个相邻word的DocumentID。

4）挑战型问题

（8）现在我们再对（7）的问题进行扩展，把（7）中的只检索相邻 2个word 推广到可以检索多个word（即连续的k个word，其中k>=2），检索出同时包含k 个连续word 的DocumentID。

我解决了前六个问题。

一、需求分析

1．本程序演示中，程序自动读取目标文件，生成需要的文件。

2. 演示程序以用户和计算机的对话方式执行，即在计算机终端上显示“提示信

息”之后，由用户在键盘上输入相应数据。

3．程序执行的主要命令包括：

（1）构建栈；（2）构造字典树；（3）构建文件数；（4）树的查找；（5）结束。

二概要设计

为实现上述算法，选择字典树为本程序的存储结构。

1、本程序包括三个模块：

（1）主程序模块；

（2）构建栈模块；

（3）构造字典树模块；

（4）构建文件数模块；

（5）树的遍历模块；

1、定义存储链表结构：

（1）定义字典树与文件数结构：

#include

#define NULL 0

#define ERROR -1

#define stack_in_size 100

#define stackincrement 10

struct TreeNode /*树结点*/

{

char ch;

int number; /*以该字符为结束的单词出现的个数*/

struct TreeNode* pt[26]; /*指向后继的字母的26个指针*/

};

struct TreeNode *root;

typedef struct TreeNode *Link_TreeNode;

struct MAX_TEN /*存放出现频率最高的十个单词数据结构*/

{

char STRING[35];

int count; /*字符串出现的次数*/

int xiabao; /*字符数组位置的下标*/

};

struct MAX_TEN MAX[10];

struct MAX_TEN MIN;

struct DocumentNode /*文件结点*/

{

char ch; /*存放某个单词的一个字符*/

int number; /*以该字符为结束的单词出现的个数*/ struct DocumentNode* pt[26]; /*指向后继的字母的26个指针*/

struct Locationn *next;/*连接以该字符为结束的单词所在的位置*/ };

typedef struct DocumentNode *Link_DocumentNode;

Link_DocumentNode ROOT[301]; /*300个根节点指针,零号单元不用*/ struct Locationn /*单词在文件中的位置*/

{

int num;

struct Locationn *next;

};

struct WORD /*单词链表结构*/

{

char strr[35];

struct WORD *next;

};

typedef struct

{

char *base;

char *top;

int stacksize;

}SQSTACK;

SQSTACK S,T;

2、每个模块的分析：