自由分类法(Folksonomy)——一种新的网络信息分类方法1、自由分类法的产生与发展随着互联网的高速发展,网络信息资源也在以指数级高速增长,如何对网络信息资源进行有效合理的组织成为人们关注的一个问题。传统的信息组织方法(如分类法,主题法)无所适从;元数据也陷入了僵局,变得越来越庞大和复杂,使得其实用性大打折扣;而新型的信息组织方法(如语义网,SKOS等)目前还处于理论探讨层面。有一种网络信息组织的方法脱颖而出,逐渐成为人们的新宠,这就是自由分类法。Folksonomy是一个创造词,是由社会性书签服务中最具特色的自定义标签(Tag)功能衍生而来。Folksonomy=Folks+Taxonomy,Folks在英文中是表示一群人,一伙人的意思。Taxonomy则是指分类法。而Folksonomy是指“公众”自发定义的标签分类,我们将它称为“公众分类”,也有人称之为大众分类、通俗分类、分众分类、社群分类等。Folksonomy是一种新的网络信息分类方法,由网络信息用户自发为某类信息定义一组标签进行描述,并最终根据标签被使用的频次选用高频标签作为该类信息类名的一种为网络信息分类的方法。自由分类法诞生于web2.0时代,从2002年开始,出现了诸如美味书签(用于分享网页资源)、Flikr(用于分享图片)和国内的“豆瓣”(用于分享读书电影音乐)等网站,用户可以按照自己的喜好为网上的资源分类,即添加标签(Tag)。当用户愿意共享这些内容时,这些“Tag”就成为所有互联网用户在搜索时的关键词。早期这种网络信息的组织方式曾被称为群落分类(ethnoclassification)或者社会分类(socialclassification)。2004年8月,ThomasVanderWal和GeneSmith第一次提出Floksonomy这个概念。基于以上的发展背景,国内对Floksonomy的翻译法很多,有大众分类法,自由分类法和社会分类法等。本文采用“自由分类法”。由于自由分类法是实践先于理论,因此对自由分类法的定义还是比较统一的,目前比较常见的是中科院国家科学图书馆毛军博士的定义:“自由分类法是用户自发的用标签(Tag)对感兴趣的资料进行分类,并与他人共享标签的过程和结果。”由于受Floksonomy中组成词之一Taconomy的影响,都将Folksonomy译成“某某分类法”。分类又叫划分,按照某种属性作为划分标准,对某一类事物进行区分和分组,并按某种次序排列起来。分类有两层含义:一层是区分与类聚,按照某一属性将事物一一划分开来,叫区分;通过区分将同类事物集合在一起,叫类聚;另一层是系统性,事物经过区分与类聚之后就构成各个类,然后再按各类事物之间的相互联系,组成一个合理的,科学的体系,这就是系统性。Folksonomy最重要的就是使用Tag。例如,当一个博客在收藏Sina.com的时候,自定义了“门户”、“中国”、“新闻”这三个关键词作为Tag,而其他人在收藏Sina.com的时候也定义了自己的关键词作为Tag,如“中国”、“新闻”、“网站”。最后统计出用“中国”、“门户”、“新闻”这三个关键词定义Sina.com的频率最高,这三个词就可以拿来对Sina.com进行描述。这其中反映了一个用户的认知度问题。在这个过程中,只是实现了分类的第一层含义,并没有实现系统化,不难看出,“自由分类”的过程更倾向于我们所说的主题法,只不过是用不规范的“主题词”(这里指Tag)对网络信息进行标引,当每一个用户用一个新的Tag对同一信息资源进行标引时,实际上是增加了一个类目,因此,是在标引的过程中实现了“自由分类”。2、自由分类法的特点优点:(1)自由与传统分类法相比,这种分类法的特点在于它并没有采用预先制定的信息分类法和词表,而是用户根据个人的使用习惯,以自定义的自由词为数字资源对象进行标注和分类。所以公众分类法比传统的等级分类和分面分类法更接近用户大众并易于被他们接受,自由灵活是其突出的优点。用户可以对其感兴趣的内容进行标识,提供一个或者多个标签,或什么也不作,仅浏览他人的标签。人们不必了解DCMI修饰符,也不必查询杜威十进制分类法(DDC)。(2)共享用户对内容进行标注后,他人可立刻看到这些标签,如果认为标签不合适,还可以自行增加新的标签,因此共建共享是其另一重要特色。常用的标签按字顺排列,形成下图所示的标签云图(TagCloud)。这种TagCloud不同于传统的、针对文字本身的关键字检索,而是一种模糊化、智能化的分类。(3)动态更新动态更新是其有别于传统分类法的又一个重要特色。动态更新是随着人们使用不同标签标识内容信息,被使用最多的标签就最能说明这条信息的特点。一些使用频率低的标签逐渐“淡出”人们的视野,而那些使用频率高的标签会在标签云图以字号变大的形式反映出来,这种更新可让人随时发现当前人们关注的“热点”和“走势”。(4)与元数据比较缺点:(1)缺乏层次性公众分类法与传统分类法的一个显著不同是:它是一种平面的分类方式,系统在整体信息的组织上,是一个用词构成的平面结构,因而很难使用它来揭示复杂的关系。(2)表达概念模糊基于公众分类法的数字资源采用的是根据用户自定义的词,进行描述、分类和检索,这就造成了标签的模糊性,主要表现在以下四个方面:①缺乏语义精确性(lackofsemanticprecision)由于用户认知程度不同,对标签词义的理解各异,导致对同一事物的揭示存在很大的差异。比如在同一标签下,可能会发现彼此完全没有关系的内容。②缺乏同义词控制(lackofsynonymcontrol)由于用户用词习惯的不同,会出现大量的同义词,例如不同的词表达同一的概念:土豆/马铃薯,又如一个词的不同写法:web2/web20/web2.0,还有同一个词在英语中用户可能会使用单数或复数形式,等等。③词的多义性问题。比如“china”这个标签,到底指中国,还是指瓷器。④用户标签五花八门,可能会产生大量“噪音”,加重系统负担,降低分类的准确性。这些都会造成查找的困难。方面元数据Folksonomy定义关于数据的数据(dataaboutdata)关于数据的标签(tagaboutdata)目的组织信息以方便用户使用组织信息以方便用户使用制作人专业人士公众(网络用户)制作成本高低维护费用大小(几近于零)更新周期长即时规范性分类架构事先制定、严谨、准确、标准、规范、权威分类架构未事先制定、标签因人而异、自由标注,品质参差不齐便利性复杂、麻烦简单、方便时效性滞后适时直观性差及时反映大众兴趣热点与发展趋势覆盖面小越来越广3、自由分类法的应用(1)宽自由分类法(BroadFolksonomy)面向大众,拥有大量异质用户。这里的异质是指用户在认知能力、知识结构和兴趣领域上具有一定差异,每个用户都可能用自己的语言对社区中现有或尚未添加的内容提供与众不同的标签,每一个内容都存在相当多的标签来描述。它所构建的是一个大众分类体系平台。其原理如下图所示:如下图所示,对于一个网络资源对象,可能存在5种标签来描述它,其中使用最多的是tag2,说明这是被最广泛接受的词汇,而曲线的尾端可能会出现很多通用性较差、较不常用的tags,形成长尾(long-tail)。宽公众分类提供了一种工具,能够了解用户的用词习惯,抽取准确的受控词。(2)窄自由分类法(NarrowFolksonomy)特点:用户特质因为用户在知识结构和兴趣领域上具有很大的同质性。所以窄公众分类的可以用于为某一领域或专业的信息或知识提供共享平台。其原理如下图所示:4、自由分类法的完善(1)对Tag进行排序除了按照字顺和权重排序之外,还有多种形式,包括动态形式,如结合相关反馈、合作过滤、点击次数等。(2)对Tags进行聚类为了达到更好地揭示资源之间的相互关系,对Tags进行聚类能够帮助用户通过一个tag更快地发现与之相关的内容。(3)对Tag进行层级化现在的标签是平面结构,不能很好地反映他们之间的层次关系。如果可以与叙词表结合使用,利用已有的叙词表中的层级关系,希望将来可以实现从平面的标签到网状的概念地图。(4)对Tag进行规范化由于标签完全由用户自行创建,这种自由导致了标签的表示法不规范,例如:拼写错误,单复数形式混用,另外,由于目前大多数应用系统只支持单个词,用户为了更清楚地表达自己的意思,往往会使用符号来形成复合词,例如:目前一些del.icio.us(即“美味书签”,当前网络上最大的书签类站点)的用户使用如下的Tag来表示编程语言:Programming/C++,Programming/Java和Programming/XHTML等。(5)使用同义环方法通过使用同义词环方法——当用户在添加了tag和数据源之后,系统管理员可以对这些数据,根据统计得到的势曲线进行分析,挑选出相关的同义词,构成同义词环,帮助提高准确性。同时同义词环的方法也可以用于处理同一词的单复数形式,同一词的不同语言表示。不强行要求环中的某一个词被当作“正式词”,而是每一个词都可以作为正式词;同义词环可以一组一组逐步建立,随着检索环境的变化和网站内容的变化而随时增加新的同义词环。