实验报告课程名称数据结构B实验学期2018至2019学年第一学期学生所在系部年级专业班级学生姓名学号2017任课教师实验成绩计算机学院制华北科技学院计算机学院综合性实验报告第1页《数据结构》课程综合性实验报告开课实验室:软件工程实验室2018年11月23日实验题目用赫夫曼编码实现文件压缩一、实验目的1、了解文件的概念。2、掌握线性链表的插入、删除等算法。3、掌握Huffman树的概念及构造方法。4、掌握二叉树的存储结构及遍历算法。5、利用Huffman树及Huffman编码,掌握实现文件压缩的一般原理。二、设备与环境微型计算机、Windows系列操作系统、VisualC++6.0软件三、实验内容1、实验内容根据ascii码文件中各ascii字符出现的频率情况创建Haffman树,再将各字符对应的哈夫曼编码写入文件中,实现文件压缩。2、实验要求a、用C语言编程实现上述实验内容中的结构定义和算法。b、要有main()函数,并且在main()函数中使用检测数据调用上述算法。3、最后结果输出。要求:输出格式要界面直观、清晰大方、格式规范。四、实验方法或步骤1、实验的预备知识(1)构造Hufffman树的方法—Hufffman算法构造Huffman树步骤:I.根据给定的n个权值{w1,w2,……wn},构造n棵只有根结点的二叉树,令起权值为wj。II.在森林中选取两棵根结点权值最小的树作左右子树,构造一棵新的二叉树,置新二叉树根结点权值为其左右子树根结点权值之和。III.在森林中删除这两棵树,同时将新得到的二叉树加入森林中。IV.重复上述两步,直到只含一棵树为止,这棵树即哈夫曼树。华北科技学院计算机学院综合性实验报告第2页(2)Huffman编码:数据通信用的二进制编码思想:根据字符出现频率编码,使电文总长最短编码:根据字符出现频率构造Huffman树,然后将树中结点引向其左孩子的分支标“0”,引向其右孩子的分支标“1”;每个字符的编码即为从根到每个叶子的路径上得到的0、1序列。(3)二叉树的存储结构typedefstructnode{datatypedata;structnode*lchild,*rchild;}BtTree2、设计思想(1)实现的Haffman树的结构及创建算法,有两点说明:a)这里的Haffman树采用的是基于数组的带左右儿子结点及父结点下标作为存储结点的二叉树形式,这种空间上的消耗带来了算法实现上的便捷。b)由于对于最后生成的Haffman树,其所有叶子结点均为从一个内部树扩充出去的,所以,当外部叶子结点数为m个时,内部结点数为m-1,整个Haffman树的需要的结点数为2m-1。编码部分(2)压缩过程的实现:压缩过程的流程是清晰而简单的:1创建Haffman树2打开需压缩文件3将需压缩文件中的每个ascii码对应的haffman编码按bit单位输出4文件压缩结束。其中,步骤1和步骤3是压缩过程的关键。步骤1:这里所要做工作是得到Haffman数中各叶子结点字符出现的频率并进行创建。统计字符出现的频率可以有很多方法:如每次创建前扫描被创建的文件,“实时”的生成各字符的出现频率;或者是创建前即做好统计。本文采用后一种的方案,统计了十篇不同的文章中字符出现的频率。当前,也可以根据被压缩文件的特性有针对性的进行统计,如要压缩C语言的源文件,则可事先对多篇C语言源文件中出现的字符进行统计,这样,会创建出高度相对较“矮”的Haffman树,从而提高压缩效果。步骤3:将需压缩文件中的每个ascii码对应的haffman编码按bit单位输出,这是本压缩程序中最关键的部分。这里涉及“转换”和“输出”两个关键步骤:“转换”部分大可不必去通过遍历Haffman树来找到每个字符对应的哈夫曼编码,可以将每个Haffman码值及其对应的ascii码存放于如下所示的结构体中:typedefstruct{charasciiCode;unsignedlonghaffCode;华北科技学院计算机学院综合性实验报告第3页inthaffCodeLen;}HaffCode;创建由该结构体结点所组成的,长度为128的一维数组codeList[128]且codeList中的下标和asciiCode满足下面的顺序存放关系:codeList[i].asciiCode=i;这样的话,查找某个字符inChar的haffman编码的工作便变得相当轻松了,如下:sHaffCode=codeList[inChar].haffCode;数组codeList[128]的创建可以采用某种遍历方式下的按找到的字符进行置数的方式,十分的方便。/*Code2:codeList的创建算法,采用前序遍历的方式进行创建.*/voidpreHaffListMake(PHtTreeinTree,introotIndex,unsignedlongyouBiao,intsDepth,HaffCode*inList){if(inTree-ht[rootIndex].llinkIndex==-1&&inTree-ht[rootIndex].rlinkIndex==-1){inList[inTree-ht[rootIndex].info].haffCode=youBiao;inList[inTree-ht[rootIndex].info].haffCodeLen=sDepth;}else{preHaffListMake(inTree,inTree-ht[rootIndex].llinkIndex,youBiao1,sDepth+1,inList);preHaffListMake(inTree,inTree-ht[rootIndex].rlinkIndex,(youBiao1)|0x01,sDepth+1,inList);}}“输出”部分是最重要的部分,也是最易出错的部分。这里,涉及到C语言的位操作,要求这个算法能处理好以下几个问题:1)每个字符所对应的haffCode的比特位长度由5~23位不等长,不可少输,多输,输错任何一位,后一个字符的haffCode要紧跟在前一个字符的haffCode后面。2)最后一个字符要能合理的结束。这主要是为解压缩考虑的,比如,在最后一个要输出的haffCode的最后一位,它恰好是位于最后一个有效字符的第一位,剩下的七个比特位是要用无效的haffCode加以填充的。否则,如果填充的haffCode亦为某个ascii字符的haffCode时,那么在解压缩时,则该在原被压缩文件中不存在的字符便会无中生有的在解压后的文件中出现,这显然是不正确的,应在程序中加以处理。编码部分的流程如图3-1所示:华北科技学院计算机学院综合性实验报告第4页图3-1#includestdio.h#includestring.h#includestdlib.h#includeconio.hstructhead{unsignedcharb;//记录字符在数组中的位置longcount;//字符出现频率(权值)longparent,lch,rch;//定义哈夫曼树指针变量charbits[256];//定义存储哈夫曼编码的数组}header[512],tmp;/*压缩*/voidcompress(){charfilename[255],outputfile[255],buf[512];unsignedcharc;华北科技学院计算机学院综合性实验报告第5页longi,j,m,n,f;longmin1,pt1,flength,length1,length2;doublediv;FILE*ifp,*ofp;//printf(\t请您输入需要压缩的文件:);//gets(filename);strcpy(filename,yuan.txt);ifp=fopen(filename,rb);if(ifp==NULL){printf(\n\t文件打开失败!\n\n);return;}//printf(\t请您输入压缩后的文件名:);//gets(outputfile);strcpy(outputfile,yuanys.txt);//ofp=fopen(strcat(outputfile,.hub),wb);ofp=fopen(outputfile,wb);if(ofp==NULL){printf(\n\t压缩文件失败!\n\n);return;}flength=0;while(!feof(ifp)){fread(&c,1,1,ifp);header[c].count++;//字符重复出现频率+1flength++;//字符出现原文件长度+1}flength--;length1=flength;//原文件长度用作求压缩率的分母header[c].count--;for(i=0;i512;i++){if(header[i].count!=0)华北科技学院计算机学院综合性实验报告第6页header[i].b=(unsignedchar)i;/*将每个哈夫曼码值及其对应的ASCII码存放在一维数组header[i]中,且编码表中的下标和ASCII码满足顺序存放关系*/elseheader[i].b=0;header[i].parent=-1;header[i].lch=header[i].rch=-1;//对结点进行初始化}for(i=0;i256;i++)//根据频率(权值)大小,对结点进行排序,选择较小的结点进树{for(j=i+1;j256;j++){if(header[i].countheader[j].count){tmp=header[i];header[i]=header[j];header[j]=tmp;}}}for(i=0;i256;i++)if(header[i].count==0)break;n=i;//外部叶子结点数为n个时,内部结点数为n-1,整个哈夫曼树的需要的结点数为2*n-1.m=2*n-1;for(i=n;im;i++)//构建哈夫曼树{min1=999999999;//预设的最大权值,即结点出现的最大次数for(j=0;ji;j++){if(header[j].parent!=-1)//parent!=-1说明该结点已存在哈夫曼树中,跳出循环重新选择新结点*/continue;if(min1header[j].count){华北科技学院计算机学院综合性实验报告第7页pt1=j;min1=header[j].count;continue;}}header[i].count=header[pt1].count;header[pt1].parent=i;//依据parent域值(结点层数)确定树中结点之间的关系header[i].lch=pt1;//计算左分支权值大小min1=999999999;for(j=0;ji;j++){if(header[j].parent!=-1)continue;if(min1header[j].count){pt1=j;min1=header[j].count;continue;}}header[i].count+=header[pt1].count;header[i].rch=pt1;//计算右分支权值大小header[pt1].parent=i;}for(i=0;in;i++)//哈夫曼无重复前缀编码{f=i;header[i].bits[0]=0;//根结点编码0while(header[f].parent!=-1){j=f;f=header[f].parent;if(header[f].lch==j)//置左分支编码0{j=strlen(header[i].bits);memmove(header[i].bits+1,header[i].bits,j+1);华北科技学院计算机学院综合性实验报告第8页//依次存储连接“0”“1”编码header[i].bits[0]='0';}e