ICS33.070M37YD中华人民共和国通信行业标准yorr1902-2009消息类业务内容分类技术要求TechnicalRequirementsforContentClassificationofMessagingService2009-06-15发布2009-09-01实施中华人民共和国工业和信息化部发布YDrr1902-2009目;欠HmIJ1J1446789施…{头…务…业响滤影过的息量消容的息码消代对类码分编于类语………基分…略………))件缩………录录文和……施附附用义……实性性引定求码码范料性、要编编规资武士一口士一口围范语体类类UKM范规术总分分4:1录录考前引123456附附参yorr1902-2009目IJJ=I本标准是基于用户设置规则的消息过滤业务系列标准之一,该系列标准的名称预计如下:1.YDfT1774-2008基于用户设置规则的消息过滤业务技术要求2.YDfT1775-2008基于用户设置规则的短消息过滤系统技术要求3.四厅1902-2009消息类业务内容分类技术要求4.移动终端垃圾短信息过滤技术要求本标准的附录A为规范性附录。本标准的附录B为资料性附录。本标准由中国通信标准化协会提出并归口。本标准起草单位t工业和信息化部电信研究院、中国联合网络通信有限公司、中国移动通信集团公司、华为技术有限公司、中兴通讯股份有限公司、北京电信规划设计院有限公司、大唐电信科技产业集团、北京展讯高科通信技术有限公司、国家计算机网络应急技术处理协调中心本标准起草人:落红卫、何桂立、张薇、王新京、舒敏、陈萍、曾明发11YDrr1902-2009引群发消息类业务的广泛应用,不仅为用户提供了大量的有用信息,为政府部门提供了便利的宣传渠道:同时也为商家拓展了便捷的广告手段,为消息业务服务提供商带来了巨额的经济效益。但不可否认,目前群发消息通常没有确定的发送目标而多采取广播式的发送方式,在很大程度上给用户形成严重的骚扰。同时,用户也没有适合的方式来选择需要的消息,只能被动盲目地接收消息。为使用户可以有选择地接收自己希望得到的消息,而不是被迫接收消息,特制定本标准,目的是在群发消息发出之前,就在消息中加入消息类业务内容分类代码,进而用户在接收时可以选择接收需要的消息,同时屏蔽不需要的消息。基于消息类业务内容分类代码的实施,不仅可以规范群发消息服务提供者相关行为,提升服务水平,还可以保护用户免受垃圾消息的滋扰和侵害。同时,可以提升行业主管部门专业性监管能力,配合相关的监管策略,去芳存良,使群发消息类业务得以健康发展。IIIYDrr1902-2009消息类业务内容分类技术要求1范围本标准描述了消息类业务内容分类总体技术要求,规范了消息类业务分类编码方案和分类代码表,并且对消息分类编码在消息类业务中具体实施进行了具体技术规范。本标准主要适用于消息业务提供商提供的群发广告消息类业务,其他消息业务可参照执行。2规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准。然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GB!T4754YD!T1774-2008YD.厅1775-20083术语、定义和缩略语国民经济行业分类与代码基于用户设置规则的消息过滤业务技术要求基于用户设置规则的短消息过滤系统技术要求下列术语、定义和缩略语适用于本标准。3.1术语和定义3.1.1编码Coding给事物或概念赋予代码的过程。3.1.2编码对象CodedObjects被编码的事物或概念。3.1.3编码对象集CodedSet一个元素集按一种编码方案映射到另一个元素集上。3.1.4编码方案CodingScheme将一个集合中的元素映射到另一个集合中的元素的规则汇集。3.1.5代码Code表示特定事物或概念的一个或一组字符。3.1.6代码值CodeValueYDrr1902-2009将一种编码方案应用于编码对象集中的一个元素所产生的结果。3.1.7代码元素集CodeElementSet将一种编码方案应用于编码对象集中的所有元素所产生的结果。3.1.8代码表CodeList编码对象集和代码元素集的映射关系列表。3.1.9代码结构CodeStructure代码字符排列的逻辑顺序。3.1.10代码长度CodeLength一个代码中所包含的有效字符的个数。3.1.11等长码EqualLengthCode在同一个代码体系中,所有编码对象的代码长度都相等。3.1.12短消息业务ShortMessageService短消息业务是通信系统提供的通信终端之间,或者通信终端与其他短消息实体之间进行文字信息收发的业务。3.1.13短消息业务中心ShortMessageServiceCenter在短消息业务网络中,完成短消息发送、接收、转发和存储等处理功能的系统。3.1.14多媒体消息MultimediaMessage一种或者多种不同媒体类型元素组成的多媒体表述。它包括格式化文本、图片、图像、动画、声音、话音、视频剪辑等媒体类型的消息。3.1.15分类Classification按照选定的属性(或特征)区分分类对象,将具有某种共同属性(或特征)的分类对象集合在一起的过程。3.1.16行业Industry从事相同性质的经济活动的所有单位的集合。3.1.17互联网短消息网关InternetShortMessageGateway2YD/T1902-2009业务提供商与短消息业务中心之间的中介实体。互联网短消息网关一方面负责接收业务提供商发送给移动用户的短消息井且提交给短消息中心。另一方面,移动用户点播业务提供商的信息将由短消息中心通过互联网短消息网关发给业务提供商。另外,互联网短消息网关还应根据路由原则将业务提供商提交的信息转发到相应的互联网短消息网关。3.1.18类Class具有某种共同属性(或特征)的事物或概念的集合。3.1.19E马位Position在字符串中,可由元素占据并用序号标识的部位。3.1.20上位类CategoryinHigherLevel在线分类体系中,一个类目相对于由它直接划分出来的下一级类目而言,称为上位类。3.1.21受众Receiver消息的接受者和利用者,即消息类业务的服务对象。3.1.22数字代码NumericCode有阿拉伯数字组成的代码。3.1.23线分类法MethodofLinearClassification将分类对象按选定的若干属性(或特征),逐次地分为若干层级,每个层级又分为若干类目,同一分支的同层级类目之间构成并列关系,不同层级类目之间构成隶属关系。3.1.24消息Message消息是指包含信息的语言、文字和图像等。3.1.25消息类业务MessagingService通信系统提供的通信终端之间,或者通信终端与其他短消息实体之间进行文本、图形、音频、视频信息收发的业务。本标准中主要指短消息业务和多媒体消息业务。3.1.27信息分类Informationclassifying把具有某种共同属性(或特征)的信息归井在一起,把具有不同属性(或特征)的信息区分开的过程。3.1.28字母代码AlphabeticCode有拉丁字母组成的代码。3YDrr1902-20093.2缩略语ISMGIntemetShortMessageGatewayMCMessageCenterMMSMultimediaMessageMSMobileStation5MBShortMessageEntitySMILSynchronisedMultimediaIntegrationLanguageSMSShortMessagingServiceSPServiceProviderWAPGWWAPGateway4总体要求互联网短消息网关消息中心多媒体消息移动台短消息实体同步多媒体集成语言短消息业务服务提供商WAP网关消息类业务最大的特点就是采用主动发送,被动接收的工作模式进行传输,用户并不知道发送者发送的是什么内容的消息,在这种情况下只有被迫接收到以后才能判断该消息是否是自己需要的。往往在这种情况下,用户己经受到垃圾消息的骚扰。为了便于用户有选择地接收需要的消息,有必要通过技术手段最大限度地解决消息识别问题。根据消息类业务的特点,解决消息内容识别井且进行分类最有效的方法就是在消息源头使用合理有效的编码方案对要发送的消息进行分类编码,并且把相应代码添加到消息体前面作为消息内容分类依据,从而保证所有消息具备消息内容分类特征以备后期识别判定使用。在现实生活中,消息类业务内容涉及社会生活的方方面面,制定出一套合理有效的编码方案并不容易。为了确保该编码方案可以真正满足消息过滤业务的需要,制定消息类内容分类编码方案应满足以下要求:·唯一性:每一个编码对象仅对应一个代码,一个代码只唯一表示一个编码对象:·合理性:有恰当的分类依据,代码结构与分类体系相适合;·扩充性:代码应可以满足不断编码对象扩充和修改的需求:·规范性z代码结构和编写格式必须一致。另外,消息类业务中消息内容空间往往有一定限制,例如短消息业务内容代码空间只有140个字节。故此,消息类业务内容的分类代码要求尽量简短。同时消息类业务内容分类代码尽量使用等长代码,这样,消息过滤实体或者消息监昕实体就可以在不分析消息体内容的情况下,直接按照字节位直接读取分类代码进而识别消息类别。5分类编码5.1分类编码方案消息类业务内容包罗万象,涉及社会经济生活的方方面面,而国民经济行业分类是对杜会经济活动进行的分类,是社会经济行业划分的基本依据。因此,基于国民经济行业的分类是最适合消息类内容分类的分类方法。在进行国民经济行业分类时候,通常采用经济活动的同质性原则进行行业类别的划分。即每一个行业类别都按照相同性质的经济活动归类,而不是单单依据行政事业编制、会计制度和部门管理归类。根据国内外经济实际情况,国民经济行业分类适合采用线分类和分层编码的方法,划分为门类、大类、中类和小类四级。门类是国民经济行业分类中活动性质相近的经济部门的综合类别:大类构成国民4yorr1902-2009经济重要的经济部门:中类是活动性质相近的小类行业的综合类别:小类是国民经济行业分类的核心层,构成了全社会经济活动中可供观察和度量的最小的产业活动类别的全部内容。门类分类结构成树状结构。其中,门类采用英文字母代码,大类、中类和小类采用阿拉伯数字代码。分类信息采用等长编码,代码长度总长为5:门类字母代码码位为1,采用升序编码,顺序为A、B、c…:大类数字代码码位为2、3,采用升序编码,顺序为01、02、03…:中类数字代码码位为4,编码采用升序编码,顺序为1、2、3…:小类数字代码码位为5,采用升序编码,顺序为1、2、3…。其中:如果中类和小类需要设立带有其他的收容项,原则上规定收容项的代码尾数为9如果大类或中类不再细分,则后面的代码补0直到第四位。相应编码结构如图1所示。|添加分类代码以后的新消息体!|消息体Illoxxxx-II原消息体1IIT下=分隔符卜4类数字代码|ι中类数字代码|二大类数字代码」一þ门类字母代码固1分类编码结构分类代码内代码紧密连接,无分隔符。分类代码与消息内容之间以空格作为分隔符。因此,分类代码加分隔符一共占用6个宇符的长度。表1为门类代码,参见GB4754-2002第5章。表1门类代码表门类字母代码门类名称A农、林、牧、渔业B采矿业C制造业D电力、燃气及水的生产和供应业E建筑业F交通运输、仓储和邮政业G信息传输、计算机服务和软件业H批发和零售业I住宿和餐饮业J金融业K房地产业L租赁和商务服务业岛4科学研究、技术服务和地质勘查业N水利、环境和公共设施管理业O居民服务和其他服务业P教育Q卫生、社会保障和社会福利业R文化、体育和娱乐业S公共管理和社会组织T国际组织5YD/T1902-2009大类、中类和小类依据其归属的上位类而各有不同。图2是以住宿和餐饮业(0为例进行的编码划分。5.2分类代码表住宿和餐