黑龙江大学图书大众标注评介———以豆瓣网为例王达(20096948)李蒙(20096921)高衍飞(20096943)张洪铭(20096992)二、豆瓣网及其图书标注一、大众标注与大众标注网站三、图书大众标注与主题标引之比较四、改进大众标注的若干建议课题背景作为一种阅读方法,标注古已有之。近年来,随着网络的兴起与发展,一种超越印本、以数字内容为对象的标注———网络标注已经逐渐成为热门话题,诸多学者也对其展开了广泛的研究与激烈的讨论。美国互联网研究机构PewInternet&AmericanLifePro-ject于2008年12月发布的一项研究报告显示,28%美国网民已经开始对互联网上诸如图片、新闻、博客等信息进行标注。在Web2.0时代,大众标注以其自身的亮点吸引着学者和众多的网络用户去关注它、使用它。同时,一大批大众标注网站的发展正逐渐步入轨道,如de.licio.us、Flickr、豆瓣、Digg、Yahoo!MyWeb2.0等,这些网站在自己特定的服务范围内,为网络用户提供网页、图书、音乐、电影、博客、图片等多方面的标注。本文主要对豆瓣网站的大众标注功能进行观察与分析。在此基础上结合实例,将豆瓣网图书的大众标注与传统的主题标引进行比较,借此剖析大众标注的优点与存在的缺陷,并有针对性地提出一些规范意见和措施。最后憧憬豆瓣网在Web2.0时代下的发展前景。主要参考书目网络标注的主要方法概述大众标注网站服务功能与运营模式分析论网络信息分类组织的研究文献分类法主题法导论网络信息分类法新亮点Folksonomy论网络环境下用户标注的价值与应用图书大众标注评介一、大众标注与大众标注网站•标注历史悠久,但目前对标注还没有一个统一的定义,不过各种说法的本质基本上一致。概括来说,标注(tagging)就是通过对文献进行主题分析,识别其重要特征,赋予确切的检索标志(如类号、标题词、叙词、关键词、人名、地名等),用以反映该文献内容的过程。从这个概念可以看出,标注的原理与文献标引的原理是相同的。网络标注就是标引技术在网络环境中的体现。大众标注(folksonomy)是网络标注更为普遍的新形式,是Web2.0环境下的信息组织方法之一,也有人称之为大众分类。可以这样理解,在大众标注环境下,人们可以根据自身习惯去自由选择语词对网页、博客、图书、音乐、图片等进行标注,以方便以后对这些资源的管理、检索和使用,而这些语词又被称为标签。•一、大众标注与大众标注网站•顾名思义,大众标注一个最明显的特点就是将“大众”二字发挥得淋漓尽致。传统的主题标引及元数据标注时,主体创建者只包括两类人,专业人员和作者;大众标注则增加了另一个大众群体———普通网络用户。他们正逐渐取代前两类人的地位,成为大众标注的主角。从另一个角度来看,大众标注又体现出人以外的大众化,即语词的大众化。传统标引使用的语词,很多是标引员精心选择的受控语词;而大众标注中的标签来源于范围广泛的自然语言,这样就不要求用户必须受过特殊的专业培训,必须使用受控词表,他们自由地使用除了那些受控词之外的,大众非常熟悉的非控语词,这正是大众标注被广大网民接受的一个重要原因。最初大众标注网站主要服务于书签的网络化管理,被称为SocialBookmarkingWeb-site。经过几年来的发展,大众标注网站扩大了自己的服务功能,在原先的基础上又增添了资源共享的功能。这是一种突破狭义资源的共享,不是简简单单的数字信息的共享,比如网络标签本身,更包括了以这些标签为纽带建立起来的一种社会人际关系网络的共享。•豆瓣网是一个集博客、交友、小组、收藏于一体的新型社区网络,已被公认为中国Web2.0时代最纯粹最精彩的先锋网站[4]。作为大众标注网站的一个典型代表,豆瓣网的标注范围主要包括图书、音乐、影视和博客等领域。现对照普通文献的主题标引,对豆瓣网的图书标注作实例分析。1、豆瓣网概况:豆瓣网()成立于2005年,作为一个大众标注网站,它不同于一般的门户网站,在保留浏览功能的同时,更多的是呼吁用户的广泛参与。豆瓣网的创始人杨勃正是利用亲友、同事在做选择时的影响作用,并将这一作用扩大,让我们在更大的社会交际圈中,挖掘彼此之间潜在的共性,以促进更广泛的交流。注册为豆瓣成员后,你就可以看到最近最受欢迎的图书、音乐、电影,同时你也可以以自己的习惯来记录、收藏、评价感兴趣的内容,并与他人分享。在你有了一定的收藏量之后,系统能够自动根据你的兴趣爱好给你推荐图书、音乐、电影等。此外,豆瓣网也是一个很好的交友平台,在那里你可以随便光顾其他任何成员,查看他们的简介、收藏、推荐和发表过的评论,若是趣味相投,你还可以把他加为“友邻”,成为朋友或是你关注的人;豆瓣网还提供了各种话题的小组,让你在评论之外进行各种交流。实践让我们坚信:豆瓣———参与越多,收获越多!随着电子商务的发展,豆瓣网成了多个实体书店的集合体,让你的选择成百上千地增加。你可以检索你喜欢的图书,看到别人的评论以及读书的朋友,同时你也可以自由地发表自己的见解。在豆瓣网,每个成员都可以创建自己的图书收藏,自由地添加图书标签。豆瓣网的图书标签来源于用户的图书收藏,这些标签都是由普普通通的网友自己创立的。点击首页的“读书”,就能看到豆瓣网中所有的图书标签汇总,按照它们出现频次的高低排列.2、豆瓣网的图书标注如图1所示(2008年4月26日14时12分截取,豆瓣网所有图书标签的第一页)。经粗略统计豆瓣网的图书标签数量已经达到207,000个左右(截止2008年4月26日10时)。豆瓣成可以建立自己的电子图书书架,将自己感兴趣的书收藏起来。在收藏时,为了自己使用方便,用户可以给图书加上任意的非控标签,系统不会排斥任何一个表达,同时显示其他豆瓣成员常用的一些标签(按使用频次排列),供你参考。如果你已经有了收藏的记录,系统也会在旁边给出“我的标签”(即你自己已经使用的标签,也是按照使用频次排列),供你浏览。如图2所示,表明当某个用户想收藏韩寒的《三重门》这本书时,点“收藏”弹出的对话框。用户可以在左侧的“标签”栏中填入自己想要的标签,同时右侧列出了其他豆瓣成员关于这本书常用的标签以及他本人已经使用过的标签供他参考。三、图书大众标注与主题标引之比较现在很多人将大众标注称为“大众分类”、“分众分类”,认为这是一种分类系统。这里的“分类”只能是就其效果而言的,起到了一种按事物聚类的作用,仅是一种模糊化的分类,不同于严格意义上的文献分类。主题标引是依据一定的主题词表或主题标引规则,赋予文献词语标识的过程。从其原理来看,大众标注的本质接近于普通文献的主题标引,核心都是赋予加工对象内容主题的语词标识。与传统图书馆的主题标引相比,大众标注有其自身的特点。(一)大众标注的优点标注工序去复杂化标注者不受限制标注词不受控制标注的自由度大标注功能扩大大众标注优点豆瓣网的图书标签就像脱缰的野马没有了羁绊,可以自由自在地奔跑!就好比没有了向导,沙漠里的旅行者不知走到哪里才是最好的。正因为用户参与的广泛性、标注的随意性,图书标签免不了存在一些缺陷。与主题标引相比,大众标注最明显的不足就是过于自由。我们组在对豆瓣网的图书标签进行了抽样调查,随机选取50本图书作了观察与统计(2008年5月14日19时28分),大众标注的不足可以总结为以下几点:豆瓣网的图书标签就像脱缰的野马没有了羁绊,可以自由自在地奔跑!就好比没有了向导,沙漠里的旅行者不知走到哪里才是最好的。正因为用户参与的广泛性、标注的随意性,图书标签免不了存在一些缺陷。与主题标引相比,大众标注最明显的不足就是过于自由。我们组在对豆瓣网的图书标签进行了抽样调查,随机选取50本图书作了观察与统计(2008年5月14日19时28分),大众标注的不足可以总结为以下几点:用户标签时存在错误图书标签数参差不齐系统缺乏对词形控制系统对标签管理松散系统的推荐不很合理标签的意义可能混淆三、图书大众标注与主题标引之比较网络信息特点网络用户和分类人员复杂性分类工具欠缺及现有分类法本身的复杂性网络信息分类组织决定性因素LOGO(二)网络用户和分类人员复杂性网络用户的复杂性网络用户的范围十分广泛,网站的用户也各有不同,从各级政府机关的领导者、决策者到学有专长的科学家、技术人员,从图书馆参考咨询工作者到研究生,从电脑爱好者到股民、球迷,从家庭主妇到中小学生无所不有。他们职业、专业不同,受教育的程度差别极大,用户个体的认知特征和知识储备各不相同,对知识体系的了解也不尽相同,加之工作岗位和专业,食物认知等等差异复杂及差异性分类人员的复杂性各网络网站的信息人员在知识结构、专业基础、分析能力、工作作风等方面,存在很大差异,基本情况是计算机技术水平较强而学科知识、分类编目方面的能力较欠缺,也可以说多数没有学过图书馆学、情报学及信息管理学,缺乏分类技能的专门训练,所以差异很大。(三)分类工具的欠缺及现有分类法本身的复杂性现有的文献信息分类工具,数量庞大、体系复杂、类目繁多。有关图书、档案、专利、标准等国内外都有许多供选择的分类工具,有的本身就是一、二百万字的大部头,中间又采用等级列举式、分面组配式、列举组配混合式类目表,每种分类法都存在这样那样的疑难问题,可以说直到目前还没有建立起一部适合网络信息的分类表。基于以上三个网络分类组织决定性因素,并通过大量网络信息资源浏览,我们发现了现有网络信息分类法的几个问题:二、现有网络信息分类法的几个问题:1.知识覆盖不全2.归类不够科学3.类目排列随意4.大纲缺乏稳定5.类名有失规范1.知识覆盖不全目前的网络信息分类法的分类体系基本上都存在着知识残缺不全、体系设计粗略的通病。以全球百强中文网站前列的新浪()、Yahoo中文(cn.yahoo.com)、网易()、搜狐()、的分类体系来说,不是未列自然科学,就是未设社会科学。又如中华网(search.china.com)、263在线(search.263.net)等分类体系,既未列自然科学,也未列社会科学。许多网络信息分类法的分类体系过于简陋。。2.归类不够科学许多网络信息分类法的分类体系,未能严格地按照类目的内涵和外延进行科学地归属类目。如搜狐的分类体系,把“图书馆”归入“教育”大类,又在“文学”大类中作为交替类目列出,把“文革”归入“艺术”大类等。又如无名网络()的分类体系,把“社会科学”和“自然科学”归入“科学文化”大类,作为二级类目并列。总之,归类不当的现象在网络信息分类法系统中比比皆是。3.类目排列随意几乎所有的网络信息分类法的分类体系都存在着类目排列混乱的通病。如新浪、网易、中华网等的分类体系,都把“文学”与“艺术”、“电脑网络”与“科学技术”、“经济”与“文化”及“政治”等原本密切的大类,人为地分割开来。又如搜狐的分类体系,对“文学”大类之下27个二级类目的排列是:19个类是按汉语拼音字母顺序排列的,其余8个随意堆积。再如新浪的分类体,对“文学”大类之下29个二级类目的排列,看不出有什么次序及其依据,据说是按类目的使用频率或访问量序列的,给人的印象是比较混乱。有的网络信息分类法的分类体系,类目之间界限模糊。如网易分类体系中新增的“行业分类”大类与原有的“公司企业”大类,外延多有交叉重叠,因为后者也是按行业划分的。4.大纲缺乏稳定有些网络信息分类法的分类大纲改变太大,使人难以把握。如TOM·COM搜索引擎的分类体系,原有大类10个,后又增补9个,删去3个,改调5个,现有16个;搜狐分类体系的大类数目及类名虽未改变,但首页与分类搜索界面上的大类排序却大相径庭。5.类名有失规范网络信息分类法在其分类体系中采用了广大网民所喜闻乐见的俗称、简称、惯称等自然语言,诸如媒体、影视、环保、婚恋、高校、求职、文革、黑客、电脑、IT业等词语,这是无可厚非的。但有些类名缺乏规范化处理,类下又无必要的注释,容易增加网民的知识负担,如名捕分类体系中的“说天说地”、“美眉写真”,天网搜索分类体系中的“嗜好