国家统计局计算中心应用开发部--10第三章专业字典、词典本章讨论的是SARP系统的专业字典(单位字典、分组标志全集字典以及指标词典)。这部分内容是用户在处理一特定专业时,该专业各表所共同使用的“公共信息”部分,也是SARP系统的基础部分,占有较重要的位置。§3.1单位字典表§3.1.1单位字典表的概念在进行统计报表处理时,首先接触到的是填报报表的基层单位和进行报表处理的汇总单位。在一定时期,对于一个特定的统计专业的各统计表通常是由相同的单位填报,也就是说:一个统计专业,虽然有众多的表式、指标各异的报表,但处理单位是相同的。基于这一特点,我们将一个统计专业各报表统一使用的处理单位全体独立建库,作为独立于各表而又为各表共同使用的公共信息库。由于该库记录的是单位信息,所以我们将其称之为单位字典库。单位信息包括:单位代码、单位名称、分组标志值、单位注释以及一些内部使用的附加信息。一个统计专业,只能有一个相应的单位字典库。鉴于此,对那些虽属同一统计专业,但处理单位集不同的报表,可将其划分为不同专业来进行处理,以保证各专业下的各表使用的是相同的字典库。§3.1.2单位编码每一个参加处理的单位都应有唯一的单位编码,这个编码是系统识别该单位的关键字,只有通过它,系统才能区分、查找单位。单位编码通常采用层次码与顺序码两种编排形式。从广义上讲,顺序码实际上是层次码中较特殊的一种,我们下面只讨论层次码。层次码采用将编码划分为若干小段的方法编排。每一小段代表一定含义,使各单位隶属关系更为明显,归类更为方便。将编码按小段进行划分,每段代表一定的含义,其段总数称为编码的层数。在单位编码上我们习惯称之为单位编码的级数。下面我们通过两个例子来解释单位编码的概念。1、国家行政区划码行政区划码是全国省、地、县、乡四级的编码(目前,年报只用到乡级)。采用九位编码方式,第一段为省级编码;第二段为地级编码;第三段为县级编码;第四段为乡级编码。共为四个小段,分别表示省、地、县、乡。国家统计局计算中心应用开发部--11所以,国家行政区划码:编码级---4级1级编码长度---2位2级编码长度---2位3级编码长度---2位4级编码长度---3位一级单位---所有省级单位二级单位---所有地级单位三级单位---所有县级单位四级单位---所有乡级单位从编码上能直接看出它代表的是哪一级单位及其隶属关系。2、对某地轻工业与重工业系统的各企业编码满足上述要求的编码方法较多,在这里我们采用的是二层的方法,即第一层为1位,代表所属系统;第二层为3位,代表企业的顺序号。可编为:1000轻工业系统1001企业11002企业2......2000重工业系统2001企业12002企业2......该编码方法:编码级----2级1级编码长度----1位国家统计局计算中心应用开发部--122级编码长度----3位一级单位----两个,“1000”与“2000”二级单位----所有企业通过上述两个例子,可以看到描述一种编码的方法主要是通过“编码级”与“各级编码长度”两个指标来完成。这两个概念非常重要,必须弄清楚。在一定的编码规则下,编码长度不足或超长都属非法编码的范畴。另外,还有一类非法编码不易为用户所发觉,这就是“越级编码”,即其编码在隶属关系上出现间断。例:在国标行政区划码的编码规则下,下述编码均为越级编码:530001、002321、530022编码“530001”虽系“530000”(云南省)下的一个三级单位(第三级编码非“00”),但第二级编码却为“00”,所以该单位属哪个地(州)不明确,为非法编码。其余两个编码也有类似问题。§3.1.3分组标志与标志值分组标志是各基层或汇总单位的品质属性,是对单位进行归类划分的一种方法。设置分组标志是为对报表进行分组汇总、对数据进行归类分析服务的。对于一特定的单位,它在各分组标志上都有其特定的唯一取值。这里,我们不想从统计学的角度来对分组标志与标志值进行解释,我们只希望通过下面的例子,使用户能明白SARP系统所指的“分组标志个数”、“分组标志宽度”、“分组标志值”的含义。例如:/110.国有||120.集体按经济性质分||130.股份合作|\141.国有联合………国家统计局计算中心应用开发部--13/11特大型|按企业规模分|12大一型||13大二型||21中一型||22中二型|\30小型/一个为“按登记注册类型分”分组标志个数——2个|\一个为“按企业规模分”第一个分组标志值的宽度——3位。该标志的各值(110、120、130…)各占三位。第二个分组标志值的宽度——2位。该标志的各值(11、12、13、21、22、30)占两位。110、120、130……为第一分组标志的可取标志值;11、12、13……为第二分组标志的可取标志值。§3.2指标词典库§3.2.1指标词典库的内容在作报表输出打印时,将涉及到大量的指标的汉字名称,这些汉字若直接装配在某一张表上,只能为该表打印时所使用,其它表上若有相同的指标出现,用户势必再重键入这些汉字。为了避免用户在表框装配时的重复劳动、简化操作,同时考虑到报表制度改革的方向,SARP系统采用了指标分统计专业建库的方法。指标词典库(文件名SARPXX.dict,其中,xx为专业代码)分专业建立,为该专业各表使用的公共信息库。其内容较为简单,即:指标代码——识别指标的关键字;国家统计局计算中心应用开发部--14指标名称——指标的汉字名称,供报表输出及数据录入时使用;计量单位——指标的计量单位的汉字名称可以有两个,用户在出表时,可以选择其中一个进行输出。用户在进行制表输出前应首先建立指标词典库,SARP系统报表输出的主栏指标和宾栏指标汉字是通过指标代码调用词典库来进行制表的,也就是说,主栏指标和宾栏指标汉字必须先登录在词典库中。§3.2.2指标词典库的定义用户通过主菜单上的【词典(D)】→【新建指标词典】进入指标词典的定义。如图3.1所示:图3.1指标词典库定义比较直观,用户在【指标代码长度】,【指标名称长度】,【计量单位个数】及【计量单位1的宽度】的下拉式列表中直接设定结果,而【计量单位2的宽度】设置需要在【计量单位个数】中设为2,才可由灰变深后设定。§3.2.3指标词典库编辑用户通过主菜单上的【词典(D)】→【指标词典编辑】进入到指标词典库的编辑状态。如图3.2所示:国家统计局计算中心应用开发部--15图3.2在SARP系统的指标词典库内的指标可采用外部文件追加的方法,也可直接利用SARP系统提供的指标词典库编辑功能。根据情况,用户可以两种方法混合使用。指标词典库编辑采用每个指标占一行的窗口编辑方式将各指标的信息以全屏幕方式提供用户在网格内进行编辑,指标信息包括指标代码、指标名称以及计量单位,指标在显示时按指标代码的大小顺序进行排序。下面从使用的角度分别进行介绍:1、编辑词典库内容进入词典编辑后,屏幕如图3.3所示:国家统计局计算中心应用开发部--16图3.3屏幕从左到右各字段的顺序是指标代码、指标名称、计量单位1(计量单位2)。用户可利用光标键↑、↓、←、→移动光标至相应的项上修改。编辑时,词典库的所有内容被一次读入内存供用户编辑。2、在词典库内查找指定的指标通过点击词典库录入屏幕左上角的二级菜单“编辑菜单”并选择“记录查找”,则屏幕显示如图3.4图3.4键入欲寻找的指标代码,系统光标将快速地定位至相应的指标上。如果所键入的指标不存在,则屏幕显示如图3.5所示:国家统计局计算中心应用开发部--17图3.53、逻辑删除、恢复指定的指标逻辑删除一个指标后,该指标的信息仍然保存,所不同的是,该指标被视为无效指标,在主栏和宾栏描述的指标词典栏中不存在,即该指标不参加定义主栏和宾栏等操作。对那些在此之前就已定义了的主栏或宾栏指针,该指标在这些表指针中仍然有效。用户可通过二级菜单“编辑菜单”中的“逻辑删除当前记录”将其置为无效指标,通过二级菜单“编辑菜单”中的“恢复逻辑删除记录”来恢复为有效。也可以通过选择工具栏中的相应按钮来实现。4、增加新的指标增加新的指标,只须将光标移至最末一指标的最后一个单元格,然后敲回车键,则屏幕将出现一对话框,对话框中有一编辑框,供用户键入新的指标,若用户前一个指标代码的最后一位是数字,则编辑框中会出现前一个指标代码加1后的代码,如图3.6所示:图3.6新增指标必须首先键入指标代码,该指标代码有效,则系统予以接收,光标顺次右移至名称项;否则,等待用户重新键入,若系统不接收,其原因有:欲新增的指标代码位数和定义指标词典时不一致欲新增的指标代码在指标词典中已存在5、物理删除指定的指标特别提醒用户,对于新增的单位(在退出编辑后即不再属新增单位)作物理删除将真正地删除该单位,如果以前定义的主栏和宾栏指针用到了物理删除的指标,则该指针变得无效,亦被删除。§3.3分组标志全集字典分组标志全集指单位字典表中各分组标志的可取值的全体。分组标志应为单位字典国家统计局计算中心应用开发部--18表中除单位编码项之外的所有其他各项。在分组标志全集字典内存放的是根据用户选择的部分(或全部)分组标志的所有可能取值及其含义。本节从使用的角度进行介绍。§3.3.1分组标志全集字典的格式SARP系统中,分组标志全集字典文件是在创建单位字典表时自动生成的,用户需要录入或按分组标志全集字典文件格式的要求编辑文件。文件名是SARPXX.LMT(XX为专业代码),文件格式应为:*N1,第N1个标志的含义A1,标志值A1的含义A2,标志值A2的含义A3,标志值A3的含义..*N2,第N2个标志的含义B1,标志值B1的含义B2,标志值B2的含义B3,标志值B3的含义..国家统计局计算中心应用开发部--19例如,如下分组标志:┏━━━━━━━┳━━━━━━━━━━━━┳━━━━━┳━━━━━━━━┓┃标志1┃标志2┃标志3┃标志4┃┣━━━━━━━╋━━━━━━━━━━━━╋━━━━━╋━━━━━━━━┫┃隶属┃注册类型┃企业规模┃本企业是┃┃关系┃┃┃┃┣━━━━━━━╋━━━━━━━━━━━━╋━━━━━╋━━━━━━━━┫┃10.中央┃110.国有┃11.特大型┃⒈轻工业┃┃20.省┃120.集体┃12.大一型┃⒉重工业┃┃40.市、地区┃130.股份合作┃13.大二型┃┃┃50.县┃141.国有联营┃21.中一型┃┃┃61.街道┃142.集体联营┃22.中二型┃┃┃62.镇┃143.股份制经济┃30.小型┃┃┃63.乡┃161.股份有限公司┃┃┃┃71.居委会┃162.有限责任公司┃┃┃┃72.村委会┃170.外商投资有限公司┃┃┃┃90.其他┃171.中外合资经营企业┃┃┃┃┃172.中外合作经营企业┃┃┃┃┃173.外资企业┃┃┃┃┃180.港、澳、台投资经济┃┃┃┃┃181.与大陆合资经营企业┃┃┃┃┃182.与大陆合作经营企┃┃┃┃┃183.港、澳、台独资企业┃┃┃┃┃190.其它经济┃┃┃┗━━━━━━━┻━━━━━━━━━━━━┻━━━━━┻━━━━━━━━┛专业代码为:GY;专业路径为:\SARP\GY。则\SARP\GY目录下SARPGY.LMT文件格式应为:*1,隶属关系10.中央20.省40.市、地区50.县61.街道62.镇63.乡71.居委会72.村委会90.其他国家统计局计算中心应用开发部--20*2,登记注册类型110,国有120,集体130,股份合作141,国有联营142,集体联营143,股份制经济161,股份有限公司162,有限责任公司170,外商投资有限公司171,中外合资经营企业172,中外合作经营企业173,外资企业180,港、澳、台投资经济181,与大陆合资经营企业182,与大陆合作经营企业183,港、澳、台独资企业190,其它经济*3,企业规模11,特大型12,大一型13,大二型21,中一型22,中二型30,小型*4,本企业是(轻、重工业)1,轻工业2,重工业标志的顺序是可以颠倒,即可不按由小到大的顺序存放。如:*4,本企业是(轻、重工业)1,轻工业2,重工业*2,登记注册类型国家统计