1答案*******************************一********************************************填空1.数值型文字型(字符)语音型图像型2.原料成品3.信息4.自然人为5.数据文本声音图像6.语义差异传递载体7.外表整体内容8.收集传输加工储存(存储)9.信息形式信息内容10.内在的信息需要外在刺激11.标题词单元词叙词关键词12.线性结构非线性结构树形结构网状结构13.数据预处理索引生成查询处理检索14.信息需求信息集合15.出发点依据16.人工赋予自动生成名词解释1.数据:是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。2.信息加工:是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。3.信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。4.检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。5.信息检索:可以从广义和狭义两个角度理解。广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。狭义的信息检索仅指信息查找过程。6.信息检索系统:是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。7.检索效果:是指利用检索系统(或工具)开展检索服务时所产生的有效结果。简答题1.简述了解用户信息需求的作用答:用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。2.简述影响信息动机向信息行为转化的主要因素答:(1)信息动机强度(2)认知能力(3)抱负水平3.简述信息需要的特点答:(1)信息需要的广泛性(2)信息需要的社会性2(3)信息需要的发展性(4)信息需要的多样性4.简述信息检索系统的构成模式答:(1)信息数据的选择、处理、录入、维护子系统(2)词表和标引子系统(3)检索子系统(4)系统-用户接口子系统5.简述信息检索系统的流程系统可分为数据预处理、索引生成、查询处理和检索四个部分。论述题1.有人说,信息加工是一个体系,你如何理解,请着重从“体系”这个角度加以说明答:(1)加工的方式、方法多种多样。(2)加工的方式、方法相互之间有关联,从不同角度对信息进行加工的。(3)加工过程有其内在联系,构成一个完整的系统。(4)整个加工体系会随着时间的变化,信息数量的变化,载体的变化和技术的变化而不断变化和完善。(5)信息的加工按其加工对象的不同可分为对外表信息的描述与加工,对整体信息的描述与加工,还有对内容信息的描述与加工。2.请探讨一下信息加工的层次性根据信息加工特点,信息加工分为6个层次:①外表信息的加工是描述性的,给用户提供的是信息的线索;②整体信息的加工是概述性的,给用户提供的是信息的内容特点;③内容信息的加工要深入信息内部,对有用的信息给予揭示标引,使读者利用信息有据可查;④精粹信息的加工是通过比较鉴别的方法,选取价值高的整体或局部信息,给用户直接提供信息的精华,满足用户对实质性信息的要求;⑤深度信息的加工是研究性和评价性的,解决信息的优劣和有关信息的有效组合问题,给用户以启迪和决策依据;⑥相关信息的加工是信息的外延和扩展,使有关信息根据一定关系进行链接,给用户检索和直接利用的方便。*******************************二********************************************填空1.数据字典2.定义机制验证约束机制3.外模式内模式模式4.题录文摘全文5.人工标引计算机辅助标引自动标引6.对比匹配7.概念相关性位置相关性8.夹角余弦9.知识库文本处理智能接口名词解释1.数据模型:是描述数据、数据联系、数据操作、数据语义以及一致性约束的概念工具的集合。2.著录:就是对信息外部特征进行分析、选择与记录的过程。3.标引:就是指对信息内容特征进行分析,赋予信息以检索标识的过程。4.词位检索:是以数据库原始记录中的检索词之间的特定位置关系为对象的运算,又称全文检索、邻近检索。简答题1.什么是倒排文档?为什么要使用倒排文档?答:倒排文档是将主文档中的可检字段抽出,按某种顺序重新排列起来所形成的一种文档。3按表达文献内容特征的主题词排列的文档称为基本索引文档;按表达文献外部特征排列的文档称为辅助索引文档。在实施检索时,必须和顺排文档配合使用。倒排文档类似于检索工具中的辅助索引。2.简述布尔模型及其优缺点答:布尔模型是最简单的信息检索模型。这种模型的理论基础是集合论。布尔模型最大的优点是理论简单、使用方便。缺点是:(1)它只能给出精确匹配的结果;(2)检索结果有可能因查询词在大量文档中出现而数量太多;(3)由于找不到与查询词完全匹配的文档而使结果太少。3.简述向量空间模型及其优点答:向量空间模型是一种简便、高效的文本表示模型,其理论基础是代数学。向量空间模型最主要的优点在于:(1)该模型的权重计算方法能够提高系统的检索性能;(2)模型中使用的部分匹配方法能检索出与用户的查询输入条件“近似”的文档;(3)在模型中可以根据检索出的结果与查询条件的相关程度对结果进行排序。另外,向量空间模型计算简单,检索速度快。4.简述“网播”的信息推送方式答:(1)频道式推送(2)邮件式推送(3)网页式推送(4)专用式推送5.简述智能信息检索的系统结构答:智能信息检索系统是由知识库、文本处理和智能接口三部分组成。6.简述智能信息检索的主要方法答:(1)统计方法(2)文本分析方法(3)人工智能方法(4)语料库方法7.有哪些种类的加权检索?各有哪些特征?加权检索把量化思想引入定性检索之中,是改善和提高检索效果的一种重要手段。分标引加权和检索加权;检索加权是指检索者在给出检索词的同时,并为每个检索词赋予权值,以区分每个检索词在检索中的重要程度。通过加权,明确了各检索词的重要程度,使检索更有针对性,并且能依据权值的大小,对命中记录的重要性进行排序词频加权检索是根据检索词在记录中出现的频次来计算命中记录的权和,依据命中记录权和数从大到小排列,最后由阈值控制输出命中结果。与检索词加权检索不同的是,词的权值是由数据库记录中的词频决定,不是由检索者指定,不需人工干预,减轻了检索者的负担。词频加权检索方法应建立在对全文数据库和文摘数据库基础之上,否则词频加权将失去意义。简单词频加权检索:指检索时累计检索词在记录中出现的次数来决定记录的权值,然后累计该记录每个检索词权值之和来决定该记录是否为命中记录。相对词频加权检索:是将每一个检索词在本文中频率和在整个数据库中的频率综合考虑,进行加权检索的方法。标引加权检索是指在对文献进行标引时,根据每个标引词在文献中的重要程度不同,为它们附上不同的权值,检索时通过对检索词的标引权值相加来筛选命中记录。*******************************四********************************************填空1.表示存储组织访问2.文件内容表达信息查询的获得相关信息的匹配3.基于文本基于Web基于字表基于词表4.分词子系统句法语义子系统总控部分5.自动主题标引自动分类标引6.统计标引法概率标引法句法分析法语义分析法人工智能法7.文本输入词典抽词知识库综合与转换输出48.词频标题位置句法结构线索词指示性短语9.索引数据库检索机制10.主文件倒排文件11.数据准备文本预处理数据加载名词解释1.全文检索:是指以全文本信息作为检索对象,建立全文数据库,除了具有布尔逻辑检索功能外,还具有文本检索功能,并允许用户以自然语言检索,直接获得原文中的有关章节和段句。2.自动标引:是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。3.主题词标引:是指抽取信息中能够表达其核心内容的词或词组,并将这些词或词组转化为受控词的过程。4.自动文摘:就是利用计算机自动地从原始文献中提取文摘。简答题1.简述单汉字标引法及其优缺点答:单汉字标引法是众多标引方法中比较有影响的一种。吸收了西文自动抽词标引的思想,把一个单汉字看成一个西文单词而作为标引词,检索时先匹配单字,再进行词组重组。另外增加了一个停用字表,提高了标引效率。优点:单汉字法绕开切分问题,容易实现,便于系统维护,标引速度快、深入、客观且一致,词语组配灵活。缺点:检索速度不快,增加了用户的智力负担,浪费了计算机存储空间,牺牲了隐含概念主题及词汇间相互关系的表达,系统的查全率和查准率都不能令人满意。2.简述主题词标引的基本思路答:主题词标引的基本思路是利用汉语自动分词的研究成果,采用词典分词法将文献进行切分,通过词加权或词频统计法对切分后的词进行排序确定关键词,利用主题词表将关键词转化、合并、去重、重新排序后确定系统正式使用的主题词,并追加文献代号送入系统主题词字段中。3.简述主题词标引的实现答:(1)构造词表①构造切分词表②构造主题词表(2)主题词标引①抽取关键词②归并关键词③确定标引词④主题词标引4.简述自动标引的基本流程答:自动标引的基本流程包括:确定标引源、输入标引源内容、预处理、分词处理、确定关键词、转换为受控词、给出主题标识符。9.简述自动标引的基本方法自动标引的方法主要有:(1)统计标引法;(2)概率标引法;(3)句法分析法;(4)语义分析法;(5)人工智能法10.简述汉语自动标引的方法较典型的汉语自动标引方法包括:词典标引法、切分标引法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等。11.简述自动标引的系统构成一个自动标引系统通常包括文本输入、词典、抽词、知识库、综合与转换以及输出等6个子系统。*******************************五********************************************填空1.从互联网上抓取网页建立索引数据库在索引数据库中搜索排序2.目录式机器人元3.搜索器索引器检索器用户接口4.页面数据索引数据URL数据5.域名服务器(DNS)6.站点爬行57.消除重复辨别类型限制范围限制深度8.深度优先广度优先9.插件10.字符串词条11.数据汇编12.单词13.词汇词汇出现情况14.索引15.效率准确性16.模板级网页库级17.全面性更新性准确性功能性18.以网对网一级映射模式19.词典生成工具词典导出工具词典连接工具20.语意分析器词典维护工具关键词分析名词解释1.搜索引擎:从狭义的角度来说,搜索引擎由信息收集软件、索引数据库和查询接口三部分组成。从广义的角度上讲,搜索引擎是互联网上的一类网站,是提供查询、搜索的网站。2.垂直搜索:是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,它通过定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。3.Innernet网:就是由一个或多个相关的词典组成的反映人的知识网络及相关工具的系统。简答题1.简述搜索引擎的特点答:(1)信息服务的综合性(2)信息服务的智能性(3)信息服务的个性化(4)具有支持Agent的能力(5)具有与电子商务灵活结合的能力2.Robot程序设计时需要考虑的问题是什么答:(1)与平台无关性(2)要考虑是否直接影响访问Web的效率,影响搜索数据库的质量(3)要考虑对网络或被访问站点的影响(4)还应遵守一些协议3.简述网络蜘蛛的工作过程答:(1)网络蜘蛛向被访问的站点标明自己的身份(2)一般会访问一个特殊的文本文件Robots.txt(3)遵守相关协议(4)网络蜘蛛在下载网页