搜索引擎的排名与设计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2013高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写):B我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):参赛队员(打印并签名):1.2.3.指导教师或指导教师组负责人(打印并签名):(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。以上内容请仔细核对,提交后将不再允许做任何修改。如填写错误,论文可能被取消评奖资格。)日期:2014年8月21日2013高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):互联网搜索引擎的排名与设计摘要针对问题一,互联网搜索引擎的优劣评价标准包括多个方面,包括检索可靠度、信息可信度、查询速度和界面功能方面等,我们用不同的搜索引擎来搜索生活类、娱乐类、工作类、学习类共4类类型的关键字,从生成网页上的信息抽取出准确度,可信度。另外用页面生成时间和查询返回时间来表示查询速度这一指标,用搜索引擎的界面设计与功能以及广告来表示界面功能这一指标。最后再利用多元回归来求的各指标的权重系数,其次用曲线估计来预测模型,通过方差检验发现拟合度良好,从而得出搜索引擎的排名。针对问题二,根据题目我们在设计具有个性化特色的互联网搜索引擎的时候设计出了学生信息管理系统。具体内容是:首先了解搜索引擎的原理及其他相关知识,建立数据库,以便搜索出相关信息,然后利用E-R实体分析数据库中各个数据库表的相互关系,并提取关键字,最后利用Visualc++来设计代码,并运行。该系统可以储存数据、读取数据、查找数据才,与搜索引擎的原理类似。另外,针对问题三,我们设想了一种“云端”来推广。我们认为这样可以使搜索者获得更大便利。关键词:多元回归,权重系数,曲线估计,拟合度,Visualc++,数据库,,E-R实体,学生信息管理系统一、问题重述随着互联网的高速发展和普及,人们越来越依赖于互联网共享信息和获取信息。同时,网络上的海量信息是我们巨大而宝贵的资源,但是,这些信息格式和内容纷杂多变,又充斥着大量虚假和垃圾信息,搜索引擎技术是高效且方便地利用这些资源的有效手段。在搜索页面中,只要输入你想搜索的内容,比如,mp3、游戏、电影、软件、图片、音乐、新闻、视频等等,或者输入作者名、文章标题、书名或期刊名、出版年月或发表年月、关键词等,搜索引擎会立刻给出符合条件的链接。常见的搜索引擎有百度、谷歌、雅虎等:参考下面的资料和其它资料,解决如下问题:1建立数学模型,对现有互联网搜索引擎的优劣进行评价,给出排名前5名的搜索引擎,并将排名结果与[1]的排序结果进行比较。2建立数学模型,设计出具有个性化特色的互联网搜索引擎,并举例对搜索引擎进行验证。例如,如果是汉字成语搜索引擎,那么输入“张”时,可搜索出“张冠李戴”等成语;如果是中文人名搜索引擎,那么输入“张”时,可搜索出“张三丰”等人名;当然,也可以对某类图片、某类音乐等进行搜索。3将你设计的个性化搜索引擎进行一般性推广。二、问题分析2.1问题一:针对问题一的分析,关于对现有互联网搜索引擎的优劣进行评价,搜索引擎的检索效果可以从检索可靠度、信息可信度、查询速度和界面功能方面来衡量。检索准确度:输入关键字搜索后检索到的内容与用户需要的内容的贴近度;安全可信度:检索到的内容是否安全可信;查询速度:查询信息时的快慢;界面功能:即一个搜索引擎应该具备的一些功能除外,其界面是否还有其他辅助功能等。用不同的搜索引擎来搜索生活类、娱乐类、工作类、学习类,从生成网页上的信息抽取出准确度,可信度。另外用页面生成时间和查询返回时间来表示查询速度这一指标,用搜索引擎的界面设计与功能以及广告来表示界面功能这一指标。最后再利用多元回归来求的各指标的权重系数,其次用曲线估计来预测模型,通过方差检验发现拟合度良好,从而得出搜索引擎的排名。2.2问题二:针对问题二的分析,随着我国高等教育的迅速发展,高等规模的不断扩大,学校信息管理的网络化、信息化、智能化成为发展的趋势。学生信息管理系统是为了适应现代化学校管理的需要、加快推进高效数字化校园建设、充分利用校园网,利用网络、多媒体等计算机应用技术和手段,提高办公效率的信息管理系统。正因为学生信息管理系统是如此的重要,而对于学生而言也是最需要的。所以我们设计了一个简化的学生信息管理系统的搜索引擎。搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。根据自己的优化程度,获得相应的名次。学生信息管理系统在用户输入用户名、密码时,具有自动识别的功能。若出错时将给用户提示信息。三、模型假设3.1假设评价指标体系只有四个指标体系;3.2假设搜索内容已排除一切狭义和罕见的生活不常用的检索内容;3.3假设附表中所有的数据都是真实可靠的;3.4假设学生信息管理系统中所需的软件和硬件都已具备。四、符号说明z-------------------------综合得分x1-----------------------检验可靠度x2-----------------------信息可信度x3-----------------------查询速度x5-----------------------界面功能五、模型的建立与求解5.1问题一:5.1.1首先确定被评价对象有百度、搜搜、搜狗、谷歌、必应、有道、360、宜搜、一淘等搜索引擎,其次对这些搜索引擎的四项指标(检验可靠度、信息可信度、查询速度、界面功能)的数据进行采集。可得一下表格:表一常见搜索引擎的准确度百度搜搜搜狗谷歌必应有道360宜搜一淘生活类734676620娱乐类544564340工作类4655232115学习类109991313151110总计262222252826261825准确度(%)32.527.527.531.253532.532.522.531.25表二常见搜索引擎的信息可信度百度搜搜搜狗谷歌必应有道360宜搜一淘生活类1091110776510娱乐类131514131410111010工作类11161217151514159学习类141011131412131111总计485048535044444140准确度(%)6062.56066.2562.5555551.2550表三常见搜索引擎的查询速度百度搜搜搜狗谷歌必应有道360宜搜一淘页面生成0.0010.0050.0020.050.030.110.040.050.03查询返回0.91.31.51.11.21.21.31.11.0总计0.9011.3051.5021.151.231.311.341.151.03表四常见搜索引擎的界面功能百度搜搜搜狗谷歌必应有道360宜搜一淘设计、功能213212232广告422321123总计6355333555.1.2经过查询,得出了以上几个搜索引擎的综合得分,利用SPSS软件对这些数据先进行标准化,其次进行多元线性回归,分别求出这些指标的权重系数。CorrelationsZscore(综合得分)Zscore(检验可靠度)Zscore(信息可信度)Zscore(查询速度)Zscore(界面功能)PearsonCorrelationZscore(综合得分)1.000.238.326-.181.503Zscore(检验可靠度).2381.000.275-.170-.290Zscore(信息可信度).326.2751.000.144-.063Zscore(查询速度)-.181-.170.1441.000-.568Zscore(界面功能).503-.290-.063-.5681.000Sig.(1-tailed)Zscore(综合得分)..269.196.321.084Zscore(检验可靠度).269..237.331.225Zscore(信息可信度).196.237..355.437Zscore(查询速度).321.331.355..055Zscore(界面功能).084.225.437.055.NZscore(综合得分)99999Zscore(检验可靠度)99999Zscore(信息可信度)99999Zscore(查询速度)99999Zscore(界面功能)999995.1.3结果分析:表格共分为三个部分,第一部分表示的是5个变量两两相关系数表,因变量综合得分与界面功能的相关性较大,4个自变量之间也存在一定的相关性。第二部分给出了5个变量两两相关的显著性检验结果表。最后一部分给出了各个变量的样本数。从表中我们可以得出模型z=0.238x1+0.326x2-0.181x3+0.503x4,从而得出四个指标的权重系数分别为0.238,0.326,0.181,0.503。将以上这些指标数据用曲线估计,可得出每个指标与综合得分之间的曲线拟合,例如检验可靠度与综合得分的曲线拟合如下图所示:从图中可以看出有条直线拟合效果良好,而且2R值为0.565,拟合效果虽然不是很好,但也不是太差。通过模型计算z值,可得出搜索引擎的排名顺序:百度、谷歌、一淘、必应、搜狗、搜搜、宜搜、有道、360。搜索引擎网站排行榜的排名为:百度、搜狗、搜搜、一淘、谷歌、有道、360、必应、宜搜。通过比较可得百度仍然位居第一,但是其他搜索引擎发生了稍微的排名变化,可能原因是本文中采取的评价指标有限,而且存在一定的测量误差,但是搜索引擎网站的排名指标是非常广泛的,而且数据大部分也比较可靠,因此产生这些排名变化也是理所应当,不足为奇的。5.2问题二:当学生权限进入系统后可以进行系统管理、查询等功能。图一学生操作的功能图学生信息管理系统管理查询模块帮助模块5.2.1数据库的设计:首先创建数据库,然后在数据库中依次创建如下3个数据表。学生表:用来储存学生信息。学生成绩表:用来储存学生成绩。课程表:用来储存课程信息。班级表:用来储存班级的信息。5.2.2数据库表的设计:(1)学生表设计学生表是用来储存学生的基本信息,表的设计如图二所示:字符名称类型宽度升序学号字符型12姓名字符型10性别字符型2出生日期字符型8班级编号字符型4升序密码字符型6图二学生表(2)学生成绩表设计学生成绩表用来储存学生各科成绩,表的设计如图三所示字段名类型宽度小数位索引学号字符型11升序姓名字符型10语文数值型41数学数值型41英语数值型41思想品德数值型41体育数值型41美术数值型41音乐数值型41图三成绩表图(3)班级表设计班级表用来储存班级的基本信息,表的设计图四所示字段名称类型宽度索引班级编号字符型11升序班级名称字符型20教师名称字符型10图四班级表(4)课程表设计课程表用来储存课程信息,表的设计如图五所示字段名类型宽度索引课程编号字符型11升序课程名称字符型14教师编号字符型11教师名称字符型10课时字符型

1 / 21
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功