Logo第九章信息组织技术•信息组织第9章信息组织技术安徽大学管理学院2信息组织技术包含的种类很多,本章主要介绍一般性的信息组织技术,如代码和编码技术、分词和标引技术、数据库技术、数据仓库技术,以及适合于数字资源组织的超文本技术和用于构建数字空间的虚拟现实技术。•信息组织第9章信息组织技术安徽大学管理学院39.1代码与编码技术9.1.1代码1.代码的概念代码是符号的一种,它与语言文字、图形、数字符号一样,可以用来代表或描述特定的信息,它不是通常的符号,而是指那些为便于信息组织、传播、存贮检索和加工处理而设计的非常规的符号。•信息组织第9章信息组织技术安徽大学管理学院49.1代码与编码技术9.1.1代码2.代码的功能(1)代码能够简明、精确地描述信息。(2)代码可以反映信息的类别特征(3)代码有利于信息组织,(4)代码可以服务于特殊的信息处理需求。•信息组织第9章信息组织技术安徽大学管理学院59.1代码与编码技术9.1.1代码3.代码的类型(1)按代码构成成分不同,代码可分为单纯代码和混合代码。(2)按照代码组织功能不同,可以将其划分成排序码和无序码。(3)按代码组合的方式不同,可分成层次码、特征组合码和镶嵌式组合码。•信息组织第9章信息组织技术安徽大学管理学院69.1代码与编码技术9.1.1代码检验位是用来检验前9位代码是否正确,计算方法是,用10,9,8,7,6,5,4,3,2分别乘以ISBN的前9位数字,所得乘积除以11,用11减去所得余数即为校验码,如为10,用“×”表示,如为11,用“0”表示。如《国际经济学》一书的ISBN号为:ISBN7—300—02904—3/F892其含义是:组号—出版者号—书序号—校验号/分类号。•信息组织第9章信息组织技术安徽大学管理学院79.1代码与编码技术9.1.1代码(4)按代码的主要用途,可以区分为信息识别组织代码和信息传输/交换代码。4.信息代码的设计•信息组织第9章信息组织技术安徽大学管理学院89.1代码与编码技术9.1.2信息编码信息编码是指用一个或一组按特定规则排列起来的符号来表达信息的过程,它实质上包含两个环节,一是信息的代码化;二是代码的组织。•信息组织第9章信息组织技术安徽大学管理学院99.1代码与编码技术9.1.2信息编码在信息组织工作中,信息编码的应用也相当广泛,由此产生的各种代码,如分类代码、商品代码、报刊代码等等,这些代码都大大提高了信息组织的效率。•信息组织第9章信息组织技术安徽大学管理学院109.1代码与编码技术9.1.2信息编码在信息组织中,信息编码应具有如下一些基本功能,(1)能简化信息表达,便于信息的识别、记忆、组织、传播、存贮和检索。语言文字是一个庞大的符号系统,用其表达、识别记忆信息一般要耗费大量时间,随着信息的激增,这一问题更显突出,为此,人们迫切需要设计各种代码,使信息变得更加简明、有序,易于记忆存贮和识别检索。(2)在要求保密的情况下,能弥补基本符号由于通信导致不易保密的缺陷。•信息组织第9章信息组织技术安徽大学管理学院119.1代码与编码技术9.1.3条形码•信息组织第9章信息组织技术安徽大学管理学院129.1代码与编码技术9.1.3条形码条形码是由一组粗细不一、相互平行的黑白条符组成并按一定编码规则组织起来,用来表示字母、数字、甚至汉字等信息。由于黑白条符对光的反射率不同,用光扫描器扫描条形码时,反射率不同的黑白条符转化成高低不同的电信号、据此,计算机读入了有关条码信息。•信息组织第9章信息组织技术安徽大学管理学院139.1代码与编码技术9.1.3条形码1.条形码发展概论2.条形码技术的特点(1)信息输入速度快(2)信息输入准确性高(3)信息的保持性高(4)信息采集量大•信息组织第9章信息组织技术安徽大学管理学院149.1代码与编码技术9.1.3条形码3.条形码设计的注意事项(1)条码字符集:(2)条码符号的密度:(3)条码的结构:4)编码方法:5)编码容量:•信息组织第9章信息组织技术安徽大学管理学院159.1代码与编码技术9.1.3条形码6)条码的连续性与非连续性:7)条码的长度:8)条码识读的方向性:9)条码的纠错能力:•信息组织第9章信息组织技术安徽大学管理学院169.1代码与编码技术9.1.4密码2.密码的类型1)替代密码:2)伪文密码:3)隐式密码:•信息组织第9章信息组织技术安徽大学管理学院179.1代码与编码技术9.1.4密码4)移置密码:5)公开密钥密码和仿真密码:•信息组织第9章信息组织技术安徽大学管理学院189.1代码与编码技术9.1.4密码3.密码三要素1)明文:2)密钥:3)密文:•信息组织第9章信息组织技术安徽大学管理学院199.2自动分词与标引技术9.2.1自动分词目前常用的汉语分词技术有:(1)词典分词法:(2)切分标记法:(3)单汉字标引:(4)智能分词法:•信息组织第9章信息组织技术安徽大学管理学院209.2自动分词与标引技术9.2.1自动分词2.条形码技术的特点(1)信息输入速度快(2)信息输入准确性高(3)信息的保持性高(4)信息采集量大•信息组织第9章信息组织技术安徽大学管理学院219.2自动分词与标引技术9.2.1自动分词3.条形码设计的注意事项(1)条码字符集:(2)条码符号的密度:(3)条码的结构:4)编码方法:5)编码容量:•信息组织第9章信息组织技术安徽大学管理学院229.2自动分词与标引技术9.2.1自动分词6)条码的连续性与非连续性:7)条码的长度:8)条码识读的方向性:9)条码的纠错能力:•信息组织第9章信息组织技术安徽大学管理学院239.2自动分词与标引技术9.2.2密码2.密码的类型1)替代密码:2)伪文密码:3)隐式密码:4)移置密码:5)公开密钥密码和仿真密码:•信息组织第9章信息组织技术安徽大学管理学院249.2自动分词与标引技术9.2.2密码3.密码三要素1)明文:2)密钥:3)密文:•信息组织第9章信息组织技术安徽大学管理学院259.3自动分词与标引技术9.3.1自动分词目前常用的汉语分词技术有:(1)词典分词法:(2)切分标记法:(3)单汉字标引:(4)智能分词法:•信息组织第9章信息组织技术安徽大学管理学院269.3自动分词与标引技术9.3.2自动标引自动标引是以计算机代替人工,自动生成表达信息记录内容特征的主题、分类或其它有意义的标识,它是标引技术与计算机结合的产物,是信息组织自动化的基础。•信息组织第9章信息组织技术安徽大学管理学院279.3自动分词与标引技术9.3.2自动标引自动标引的基本过程是计算机读入待标引的信息和标引工具集,对读入的信息记录的进行内容(而不仅仅是文本)分析统计,选择相关语词或其它(如波形、图像轮廓)标识。将选择出的标识与计算机内存贮的标引工具集进行匹配扫描。将自动标引结果和标引对象的信息存贮在一起,形成一条完整记录。•信息组织第9章信息组织技术安徽大学管理学院289.3自动分词与标引技术9.3.2自动标引基于内容的信息检索(CBR:Content-basedRetrieval)则是指根据媒体对象的语义和上下文联系进行检索,是基于内容的多媒体自动标引的目的。基于内容的多媒体自动标引直接从媒体中提取信息线索,以某种标识近似表示信息内容。•信息组织第9章信息组织技术安徽大学管理学院299.3自动分词与标引技术9.3.3自动分类自动分类通常包括自动聚类、自动归类(1)自动聚类度,通常以文献相似度矩阵计算,定义方法有欧氏距离法、数量积法、相关系数法、指数相(2)自动归类•信息组织第9章信息组织技术安徽大学管理学院309.3自动分词与标引技术9.3.3自动分类自动归类是指计算机通过词频统计、语法分析和语义分析等途径得到代表文献内容的类主题词,然后按照某一分类表将文献划分到某个类目的过程。•信息组织第9章信息组织技术安徽大学管理学院319.3自动分词与标引技术9.3.3自动分类归类一般过程包括:对文献的题目或文摘进行分词,同时从词典中取出词法和语文知识赋予每个词。采用词频统计,语法和语义分析方法时,进行主题分析,选出类主题,然后利用一个能够反映类主题目之间相应关系的主题词进行归类,并转换为类号。•信息组织第9章信息组织技术安徽大学管理学院329.3自动分词与标引技术9.3.3自动分类由此可见,自动归类和自动标引,采用技术和方法上有共同之处。例如需要词语切分,利用词频统计,位置加权,语法和语义分析等,但是自动归类的目的不是选定关键词而是通过分类表和知识库选出类主题词并转换为类号。•信息组织第9章信息组织技术安徽大学管理学院339.4数据库技术9.4.1数据管理的发展与数据库技术的出现1.数据管理数据是描述事物的符号记录,数据本身不能完全表达内容,需要经过语义解释。数据管理就是对数据进行分类、组织、编码、存贮、检索和维护。计算机描述数据经历了三个环节,即从现实世界转化为信息世界再转化为机器世界,其抽象过程如图4.3所示。•信息组织第9章信息组织技术安徽大学管理学院349.4数据库技术9.4.1数据管理的发展与数据库技术的出现信息组织信息组织现实世界——————信息世界——————机器世界(报表、物体、人)(实体、属性、链)(字段、记录、文件、键)图4.3计算机描述数据三个环节•信息组织第9章信息组织技术安徽大学管理学院359.4数据库技术9.4.1数据管理的发展与数据库技术的出现2.数据库技术出现及意义数据库技术是计算机软件的一个重要分支,产生于60年代末,1969年美国IBM公司推出了层次模型的IMS数据库系统。1969年10月,提出COBOL语言的美国CODASYL组织的数据库任务(DBTG)发表了网状数据库系统的标准文本,1970年美国的IBM公司的高级研究员EFCod提出了关系模型。这三件事奠定了数据库系统的基础。•信息组织第9章信息组织技术安徽大学管理学院369.4数据库技术9.4.1数据管理的发展与数据库技术的出现在信息数字化、知识经济化、决策科学化、管理现代化、资源网络化的数字经济时代,数据库是使用相当普遍的信息组织方式。3.数据库及数据模型数据库(Database,DB)是存储在一起的相关数据的集合。•信息组织第9章信息组织技术安徽大学管理学院379.4数据库技术9.4.1数据管理的发展与数据库技术的出现4.数据库的结构5.数据库管理系统•信息组织第9章信息组织技术安徽大学管理学院389.4数据库技术9.4.2数据库系统的设计1.系统开发方法下面是几种常见的方法:1)自顶向下(top-down)的方法2)生命周期法(lifecycle),3)需求分析法(requirementanalysis),4)原型法(prototyping)其做法5)OO法•信息组织第9章信息组织技术安徽大学管理学院399.4数据库技术9.4.2数据库系统的设计2.数据库系统设计步骤(1)需求调查(2)系统分析与概念结构设计(3)逻辑结构设计与物理结构设计(4)数据库的实现与维护•信息组织第9章信息组织技术安徽大学管理学院409.4数据库技术9.4.3数据库建设中的信息组织问题这些错误出现的主要原因有:(1)人为输入错误(2)由于记录符号及格式方面的非规范化导致的。(3)数据采集滞后、失真导致的。(4)数据标引方面的问题导致的。如错标漏标、标引深度不统一等等。因此,在数据库建设中就严格加