媒体资产管理技术MediaAssetManagement第6章:信息组织与编目技术第6章信息组织与编目技术信息组织意思是指关于信息(即元数据)的组织方式,是信息管理的基础,其目的是为了更好地进行信息检索。信息组织的有关理论是编目技术的理论基础,也是媒资管理技术的重要的理论基础之一。媒资系统根据信息组织原理对元数据进行加工、保存,并提供检索服务。信息组织学最早源于图书情报的分类研究。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第6章信息组织与编目技术信息组织概述1自动标引技术2中国图书及广电节目分类法3编目技术4音像资料编目标准5§6.1.1信息组织的基本概念1.信息组织的定义信息组织也称信息有序化或信息整序,是根据信息资源检索的需要,利用一定的科学方法和规则,通过对信息外在特征和内容特征的选择、分析、描述与存储,使其有序化,从而保证用户对信息的有效获取和利用,实现信息的有效流通和组合。MEDIAASSETMANAGEMENT§6.1.1信息组织的基本概念1.信息组织的模型MEDIAASSETMANAGEMENT信息存储介质信息资源分析选择描述存储检索获取信息§6.1.1信息组织的基本概念信息组织的要求信息特征有序化。信息流向明确化。信息流速适度化。2.信息组织的目的:实现无序信息向有序信息的转换减少社会信息流的混乱程度;提高信息产品的质量和价值;建立信息产品与用户的联系;节省社会信息活动的总成本。MEDIAASSETMANAGEMENT§6.1.1信息组织的基本概念(1)信息内容层次的组织信息内容层面包括叙述层、含义层、效用层三个层面,它们分别对应着语法信息、语义信息和语用信息。叙述层信息是按照语法规则从信息编码中摄取表面状态的信息而成,叙述层信息组织往往采用号码法(标记符号)、物名法(物体名称)、引证关系法(引证文献)、时序法(时间顺序)、地序法(地域划分)等;含义层信息是以叙述层信息为基础或现象的深层信息,其组织多采用分类法(以学科分类体系为中心)或主题法(以词语来表达信息资源中的主题);效用层信息是指信息所表述的内容的价值与效用,其组织采用权值序化(以权值进行有序化)或逻辑序化(以逻辑进行有序化)等方法。MEDIAASSETMANAGEMENT§6.1.1信息组织的基本概念(2)信息加工层次的组织信息依其产生的先后与组织加工的深度可分为零次信息、一次信息、二次信息、三次信息。零次信息,未经加工整理的,零散的,缺乏系统性和逻辑性的信息。一次信息是人们直接以自己的生产、科研、社会活动等实践经验为依据生产出来的信息,也常被称为原始文献(PrimaryDocument)。一次文献如期刊论文、专利文献、科技报告、会议录、学位论文等等。二次信息,对一次信息进行加工整理后的产物,即对无序的一次信息的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志等,也被称为二次文献(SecondaryDocument)。三次信息,利用二次信息,选择有关的一次信息加以分析、综合而编写出来的专题报告或专著,如综述报告、述评报告、研究报告、技术预测、数据手册、一次文献书目的书目、二次文献的书目和索引等等,被称为三次文献(TertiaryDocument)。MEDIAASSETMANAGEMENT§6.1.1信息组织的基本概念(3)信息载体的组织人类社会的信息以口语、体语、文献、实物等为载体表现出来。这时信息组织大致可分为:动态信息组织(包括对口语、体语、实物等信息的组织)、文献信息组织、数据组织、网络信息组织等等。能记录和保存信息的载体是存储介质,即用于记录、传输、积累和保存信息的实体。包括以能源和介质为特征,运用声波、光波、电波传递信息的无形载体和以实物形态记录为特征,运用纸张、胶卷、胶片、磁带、磁盘传递和贮存信息的有形载体。MEDIAASSETMANAGEMENT§6.1.1信息组织的基本概念(4)信息学科内容的组织按信息的内容区分,信息组织可分为政务信息、军事信息、经济信息、科技信息、管理信息等不同领域的信息组织,多成为行业性的信息资源建设或行业性网络信息资源建设的重要部分,进而形成各自信息系统、行业网络或网络站点的数据库等。MEDIAASSETMANAGEMENT§6.1.1信息组织的基本概念4.信息组织的功能信息管理的过程是指信息的收集、传输、加工与存储,而信息组织是信息管理的理论基础,信息管理必须按照信息组织的方式提供服务。第一,基本功能——全面揭示和再现信息的特征,科学反映和描述信息的特色。第二,增值优化功能——信息单元、数据依据逻辑方法再现和重组的过程是一个序化增值过程。第三,目标功能——有效减除或减少信息之间的干扰,准确控制信息的运动方向,使之与特定用户需求相结合,从而方便有效地为用户提供服务。第四,社会功能——规范、控制信息流向的社会目标。MEDIAASSETMANAGEMENT§6.1.1信息组织的基本概念5.信息组织的原则(1)客观性原则——客观而准确,使信息组织与条件变化和环境变化保持客观一致性。(2)系统性原则——协调,一是宏观和微观的关系;二是信息与其他的关系;三是各个环节之间的关系;四是不同方法之间的关系。(3)目的性原则——信息管理的一切环节都必须以“用户第一”的宗旨。(4)现代化原则——思想观念、技术手段的现代化。(5)方便性原则——采用用户认可和习惯的方式。(6)重要性递减原则——即依据信息的重要程度序化信息MEDIAASSETMANAGEMENT§6.1.2信息组织的过程及其内容原则:准确、目的明确、适合需求、及时、系统性、预见性、计划性,方法:采购、交换、调查、网络。信息采集严格遵循一定的描述规范。查重、描述、复核并输入,把握特征、使用描述语言。信息描述MEDIAASSETMANAGEMENT揭示信息主题:主题分析、主题标引、检验审核,采用信息语言,自然语言或人工语言。信息揭示§6.1.2信息组织的过程及其内容分为决策研究、咨询服务及编译报道等三个方面,有比较法、分析综合法、推理法、专家调查法。信息分析MEDIAASSETMANAGEMENT上传、检索、下载、借阅、复印、咨询、调查信息服务信息存储的目的就是为了便于查找,分类组织、主题组织、网络信息组织、超媒体、主题树、数据库等等。信息存储MEDIAASSETMANAGEMENT第6章信息组织与编目技术信息组织概述1自动标引技术2中国图书及广电节目分类法3编目技术4音像资料编目标准5以计算机自动处理为手段的信息组织自动化程度不断提高,具体表现在以下几个方面:计算机辅助编制管理分类表和叙词表电子版分类法和叙词表的研制分类法和叙词表在联机检索和网络检索中的应用自动标引和自动分类自动文摘技术信息抽取技术§6.2自动标引技术MEDIAASSETMANAGEMENT§6.2自动标引技术自动标引(AutomaticIndexing),又称计算机辅助标引(ComputerAidedIndexing),是:根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。换句话说,就是:利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。按人工介入与否分为全自动标引与半自动标引。按标引词来源分为自动抽词标引与自动赋词标引。MEDIAASSETMANAGEMENT§6.2自动标引技术自动标引的意义适应信息资源快速增长的需要加利福尼亚大学伯克利分校研究人员发现,仅1999-2002年的三年中,全球新生产出的信息量就翻了一番。新产生的信息中92%记录在硬盘等磁存储介质上。信息资源的快速增长,造成信息相对过剩。只有提高信息组织的效率,才能摆脱信息相对过剩带来的困惑,因此信息标引显得非常重要。自动标引适应了这一需要。克服了手工标引难以克服的缺点。与熟练标引人员相比,自动标引的准确性不如手工标引,但在其他指标方面自动标引具有无可比拟的优势:处理能力强处理速度快成本低一致性好,稳定性好MEDIAASSETMANAGEMENT自动分类自动分类标引就是由计算机代替人工,对网络信息进行分类,赋予其分类标识,以描述信息主题内容的过程。自动抽词自动抽词标引指使用计算机自动抽取文本资源中表达文献主题的语词作为检索标识。自动赋词自动赋词标引是在自动抽词的基础上,根据自然语言词语与检索词对应表,将关键词转换成检索词(规范词),建立倒排索引文档或编制书本式检索工具的工作自动摘要即利用计算机自动地从原始文献中提取文摘。§6.2自动标引技术MEDIAASSETMANAGEMENT机读文献语句分析语词加权确定阈值选出标引词概念转换受控词停用词处理抽词关键词文档与索引生成手检或机检用户相关性判断反馈自动标引工作流程图一般认为,信息资源分类就整体而言包括聚类和归类两个方面。所谓聚类,是指按照信息资源的特点和使用需要,通过区分和类集建立起类目体系的过程;所谓归类,是指依据建立的分类体系对信息资源进行组织的活动,一般是根据信息资源的特点,将其分门别类地归入该系统的相应类目,通过这一操作实现对信息资源的分类组织。§6.2.1自动分类MEDIAASSETMANAGEMENT自动分类标引自动分类标引就是由计算机代替人工对视音频信息进行分类,赋予其分类标识,以描述视音频信息主题内容的过程。先分析被分类的视音频对象的特征,然后将其与一个分类表或一个分类标准进行比较,最后将被分类的视音频对象划归为特征最相近的一类,并赋予相应的分类号。视音频信息的自动分类目前仍然建立在有文本的基础上的。自动分类一般经过如下几个过程:MEDIAASSETMANAGEMENT§6.2.1自动分类§6.2.1自动分类对所有训练文档进行分词处理,统计每个词的文档出现频率等信息,然后构造每篇文本的向量。文本的向量化表示计算评估值,对所有特征根据评估值大小进行排序,选取预定数目的最佳特征作为结果的特征子集。特征抽取MEDIAASSETMANAGEMENT根据一个文档的特征向量,计算该文档的类别。分类器自动分类的过程文本表示训练过程分类过程训练文本统计统计量特征表示学习分类器新文本特征表示类别文本分类的过程§6.2.1自动分类MEDIAASSETMANAGEMENT自动抽词标引自动抽词标引由计算机自动从文本中抽取词或短语来表达信息资源的主题内容。在手工标引中,标引员一般会尽量选择那些能较好指示信息资源内容的词或短语作为标引词。影响选择时的因素有词语在信息资源中出现的频率、出现的位置、词语的语言环境等。计算机要完成这项任务,某种程度上需要模拟人类的思维过程。§6.2.2自动抽词MEDIAASSETMANAGEMENT1.绝对频率加权法基本思想是:计算文献集合中每篇文献中每个不同的词出现的频率;把每个不同的词在n篇文献中的出现频率相加,得到每个词的集合频率;按集合频率递减排序,用试错法确定高频词和低频词的阀值,排除高于高频词阀值和低于低频词阀值的词;对余下的中频词赋予较高权值作为标引词。MEDIAASSETMANAGEMENT§6.2.2自动抽词绝对频率加权法的缺点没有考虑选择作为标引词的术语对文献的区分性能。当以一数据库为范围进行考察时,一些词语虽然在某一文献资源中经常出现,但同时也经常在整个数据库中出现,那么根据这一方法抽取出来的词可能无法很好的区分数据库中的不同文献。这些高频词可能并不具有检索意义,会降低文献的查准率。例如:在政治新闻数据中,“中国”和“中共”出现的次数很多,但它们并不能很好的区分这个文本集合中的单个条目。而“信访调研”可能出现的次数很少,但它却比“中国”和“中共”这两个词更能区分文本集合中的不同文本。所以,它将是一个很具有检索价值的词。而在使用绝对频率法进行抽词标引时,“信访调研”因为在文本中出现的