2013高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写):B我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):重庆XX大学参赛队员(打印并签名):1.祝XX2.冯XX3.周XX指导教师或指导教师组负责人(打印并签名):张XX(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。以上内容请仔细核对,提交后将不再允许做任何修改。如填写错误,论文可能被取消评奖资格。)日期:20XX年X月XX日赛区评阅编号(由赛区组委会评阅前进行编号):2013高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):1碎纸片的拼接复原摘要图像碎片自动拼接复原是需要借助计算机把大量碎片重新拼接复原成初始图像的完整模型,这一研究在考古、刑侦犯罪、古生物学、医学图像分析、遥感图像处理以及壁画保存复原等方面具有广泛、实际的应用[1].本文主要解决碎纸机破碎文档的自动拼接复原问题.我们利用图像数字化技术,借助Matlab软件将图像转化为矩阵.通过建立数学模型,运用矩阵论、聚类分析方法、自定义相似度方法、遗传算法、字符分割和字符识别等方法,对数据进行处理,实现对图像碎片自动拼接,从而将所给碎片拼接复原为完整图像.问题一,我们首先把碎片图形进行二值化处理,根据所给纵切黑白碎片边缘的像素关系(相邻两张碎片,一张碎片矩阵右边的像素与另一张碎片左边的像素相同),我们采和自定义相似度算法,利用附件一和附件二求出碎片间的相似度,然后根据所需要满足的条件即相似度最大原则,建立了纵切碎片拼接模型一及其算法,运用Matlab编程实现该模型,并得到碎片复原结果(见表一表二).问题二,要实现快速准确的拼接复原纵横切碎片,在问题一的思路基础上,我们采用了模糊C的均值聚类方法,先对附件三所有碎片进行初步的分类,然后在自定义相似度算法上增加了约束条件,以此来排除有若干碎片在匹配时相似度相同的情形,建立了改进的中文纵横切碎片拼接模型二,同样利用Matlab软件求得碎片的复原结果(见表三).对于英文纵横切碎片的拼接问题,我们采用了字符切割和字符识别思想,即在碎片的二值化矩阵中选取适当大小的行与列,对碎片边缘的英文字母进行切割,与其他图片匹配合并,提取切割字母的特征(统计特征或结构特征),再利用字符识别的方法从得到的特征库中找到与待识别字符相似度高的字符,将两张碎片拼接在一起,先一行一行地进行拼接,再利用模型二横切碎片方法,利用Matlab软件求得碎片的复原结果(见表四).问题三,在处理双面打印纵横切碎片时,经分析发现两面图片最大的区别在于光滑度的不同,纸张的正面比反面要光滑,因此在模型二的基础上还需增加一步筛选工作,就是采用傅里叶变换将图像的二值矩阵从“空域”变为“频域”,再根据不同页面的频率范围,设定一段频率值,借助计算机将双面打印的碎片进行分类,分离出在同一页面的碎片.分离成功后再采用模型二对于英文碎片的拼接方法将碎片进行复原即可,通过这种方法求得碎片的复原结果.关键词:碎片拼接均值聚类方法相似度模型傅里叶变换2一、问题重述1.1背景:破碎文件的拼接和复原对于司法物证复原、历史文献再现和军事情报获取等方面都有极其重要的作用.于是碎纸片的拼接复原技术便成为图像处理与模式识别领域中的一个崭新典型的应用.图像配准是图像拼接复原的基础,而且图像配准算法的计算量一般非常大,因此图像拼接复原技术的发展很大程度上取决于图像配准技术的创新.本文将通过图像提取技术获取一组碎纸片的形状、颜色、文字等信息,然后利用计算机进行相应的处理从而实现对这些碎纸片的自动拼接复原.1.2重述:该题研究的是如何对碎纸片进行拼接复原.传统上,拼接复原工作需由人工完成,准确率较高,但是效率低.随着计算机技术的发展,当碎纸片数量巨大的时候,人们试图开发碎纸片的自动拼接技术,以提高拼接复原的效率.问题1对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、2给出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需要人工干预,写出干预方式及干预的时间节点.问题2对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、4给出的中、英文各一页文件的碎片数据进行拼接复原.如果复原过程需要人工干预,写出干预方式及干预的时间节点.问题3对于双面打印文件的碎纸片拼接复原问题设计碎纸片拼接复原模型和算法,并针对附件5给出的一页英文印刷文字双面打印文件的碎片数据进行拼接复原,结果表达同上.二、问题分析碎纸机破碎纸片的拼接复原,都需要经过获取图像,导入图像,图像预处理,图像配准,和图像的拼接复原步骤.其中图像配准是碎纸片拼接复原技术中最重要的环节之一.针对本题中给出的三种不同的情况,需采用不同的模型和算法来提高拼接复原的效率和准确度[2]:对于问题1所需要拼接复原的碎纸片为纵向切割的小纸条,通过Matlab软件将所给图片转换成为198072的二值矩阵,先随机选择一个碎片的矩阵作为基本矩阵,将剩余矩阵与基本矩阵作比较,通过matlab软件计算出相比较矩阵的相似度,再根据模型一的匹配方法将碎纸片进行拼接复原,此拼接模型不需要人工干预.对于问题2对于碎纸机既横切又纵切的情形,所得碎片的像素较低,采用模型一的算法无法完全拼接复原1911个碎片,需要先对碎片进行聚类分析,筛选出特征相同的碎片,再根据二重判别标准的相似度刻画原则,将碎片进行横向和纵向的拼接复原.对中文碎片进行拼接时,先通过二值矩阵找出字间距和一个字的间距,通过聚类分析法先将所有碎片分行找出,把横纵切拼接问题转化为横切碎片拼接,再利用行间距和字的行高约束条件,运用遗传算法拼接复原整个图片.英文碎片拼接与中文碎片拼接不同,在拼接碎片时,需要采用字符切割的方法,提取英文字母的特征,根据碎片边缘字母的特征,再利用字符识别的方法,寻找相匹配的碎片,根据这一原则运用遗传算法的匹配方法拼接复原英文碎片.对于问题3要想拼接复原双面打印碎片,必须先将所有碎片进行分类.把同一页的碎片分离出来.经过分析可得,两面打印的纸张的粗糙度不同,正面比反面光滑,根据这一特征,需要采用傅里叶变换处理图像,从而得到碎纸片的“频率”图.高频代表图像的细节、纹理信息,低频代表图像的轮廓信息.对所有碎纸片进行高频滤波.滤波后可得图像的纹理信息.运用Matlab软件计算若干碎纸片的频率信息,设定频率范围,将所有碎纸片分为正反页面图片两类.再采用模型二的算法拼接复原整个图片.3三、基本假设1、碎纸机破碎的每个纸片的长、宽和厚度均相同;2、所有碎片是黑白图片,图片清晰;3、碎片完整没有缺损缺失,可以完全拼接复原;4、碎纸片的正反两方面的印刷效果都一样,互不影响;5、扫描图片没有变异,文字与图片上边界平行;6、文件页边距和行距固定;7、碎片中的文字方向相同,不需要考虑碎片拼接时需要旋转拼接复原.四、符号说明符号含义iA表示第(119)i个碎纸片的像素矩阵n表示所选碎纸片像素矩阵中参与比较的行数im表示两个碎纸片像素边界矩阵元素相同的数目b表示两个碎纸片像素边缘矩阵的相似度(ibnm)vi表示二值矩阵的聚类中心RP表示矩阵的向量空间),(yxf),(yxg4五、模型的建立与求解通过我们建立的自动拼接模型,在图片拼凑过程中,我们可以预测图片的拼接大致需进行图片处理、边界比较、图片输出等步骤.通过我们所得的模型预测,可以得出预测方程.具体流程图如图5-1所示:导入图片图片光滑、去噪处理边界比较修正相似度比较输出拼接顺序图片拼接结束开始图5-1模型方法预测(一)问题一模型的建立与求解5.1.1图像的导入运用Matlab软件采用二值法原理将碎片的图像转换成为198072的(0,1)矩阵,记为iA)19,,2,1(.5.1.2图像的去噪边缘处理采用中值滤波的原理对图像边缘进行去噪.中值滤波就是用相邻像素的中值来替代该像素的值,利用Matlab对图像所成二值矩阵进行光滑处理,以此提高碎片匹配时的相似度.中值滤波法是一种非线性平滑技术,它将每一象素点的灰度值设置为该点某邻域窗口内的所有象素点灰度值的中值.中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术,中值滤波的基本原理是把数字图像或数字序列中一点的值用该点的一个拎域中各点值的中值代替,让周围的像素值接近的真实值,从而消除孤立的噪声点。方法是去某种结构的二维滑动模板,将板内像素按照像素值的大小进行排序,生成单调上升(或下降)的为二维数据序列。二维中值滤波输出为)},(),,({),(wlklykxfmedyxg,其中,),(yxf,),(yxg分别为原始图像和处理后图像。W为二维模板,通常为33,22区域,也可以是不同的的形状,如线状,5圆形,十字形,圆环形等中值滤波的函数为:),(),(),(1),('yxfyxtsgmyxf5.1.3图像的配准1)遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种有效的解最优化问题的方法.借助计算机选取第一张碎片作为第一张图,采用遗传算法,将该图片的右边缘矩阵与剩下的18张图的相对应的左边缘矩阵随机的根据相似度进行比较,然后把相似度最高的图片作为第二张图并与第一张图片拼接起来.将第一张图作为基准图,向右匹配,若右方向的匹配完成,再朝左方向匹配,以此类推,直到将所有图片拼接复原完成.问题一不需要进行人工干预.选择初始矩阵计算碎片相似度选择是否满足终止条件输出拼接顺序图片拼接结束开始交叉图5-2遗传算法流程图2)相似度的计算方法:计算机自动选择一张碎片为第一张碎片(此处就以000.bmp6为第一张),具体实现算法为用嵌套循环,第一重循环取出每张图片最右边(第72列)的像素矩阵,第二重循环取出每张图片最左边(第1列)的像素矩阵,然后作这两个矩阵的比较,结果相同为1不同为0,对其结果矩阵求和作为刻画相似度的标准,如果是自身比较则置为0,当结果中出现1980(说明两张图片是100%匹配,可以判断出第一张和最后一张),用这种方法就可以得到完整的拼接图像,剩余图片的矩阵随机编号为iA,利用Matlab软件选取矩阵中的n行运用同或运算法则进行相似度的计算.假设100010100A01101101iA.让1A的最右列与iA的最左列的元素一一对应作比较,同行的两元素相同则为,1,不同记为0,从第一行开始累加,累加的结果记为im.相似度记为:100%ibnm(n=1980).5.1.4图像的导出1)根据配准结果进行矩阵的拼接.2)运用Matlab软件编程实现图像的导出.表一附件一图片排序008014012015003010002016001004005009013018011007017000006表二附件二图片排序0030060020070150180110000050010090130100080120140