质量控制规范和数据检测工具介绍

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

CALIS学位论文数据质量控制规范和数据检测工具介绍赵阳zhaoyang@lib.tsinghua.edu.cn清华大学图书馆学位论文项目组2007.09.27南京CALIS学位论文数据质量控制规范---数据格式(模式二)record/recordheader……/headermetadataabout符合CALIS元数据规范的元数据片断/metadataCALIS_OBJ:objInfo……/CALIS_OBJ:objInfo/aboutMETS:mets……/METS:mets当前元数据所对应的METS包record/recordheader……/headermetadataabout符合CALIS元数据规范的元数据片断/metadata/about用于维护元数据与METS一致性的四项信息record/recordheader……/headermetadata符合CALIS元数据规范的元数据片断/metadataCALISRecordV2,无MetsCALISRecordV2,有Mets依据科技部科技基础性工作专项资金重大项目《我国数字图书馆标准规范建设》中《专门数字对象描述元数据规范》子项目中的《学位论文描述性元数据》制订;CALIS_ETD,基于DC并在DC基础上扩展;扩展原则包括横向扩展规则和纵向扩展规则;横向扩展规则主要是扩展元素,但新增加元素不能与已有元素有任何语义上的重复;纵向扩展规则主要指扩展修饰词,应遵循dumb-down(向上兼容)原则,增加的修饰词的语义应包含于相应的未限定元素中,不能超出被修饰词(元素)的语义;CALIS学位论文数据质量控制规范---数据格式(V2,metadata部分)学位论文本地系统CALIS_ETD元数据项本地系统与Schema对应关系必备性和重复性要求题名title(中文题名)必备,不可重复交替题名alternative(外文题名)有则必备,作者creator(作者名)必备,不可重复培养单位institution(作者单位+作者所在院系)必备主题subject(scheme=keyword,中英文关键词混在一起)必备subject(scheme=disciplineList学科专业代码)必备附注(空值)description(中文文摘)必备文摘abstract(英文文摘)必备资助fund(论文研究所受的资助)导师contributors(导师名)必备机构institution(导师所在单位)必备日期(空值)date必备,提交日期dateSubmitted必备,答辩日期defenseDate(论文答辩日期)必备,不可重复,全文可获得日期Available一般指发布日期。必备,学位论文本地系统CALIS_ETD元数据项本地系统与Schema对应关系必备性和重复性要求资源类型type如没有,需要自动为其赋值(本地系统需将type赋值为“学位论文”)。必备,不可重复,资源格式format如没有,需要自动赋值(Application/pdf)必备URIidentifier(calis-oid)必备语种language如没有,需要自动赋值(chi)必备相关文献relation权限管理rights注3权限声明rightsStatement保密级别securitylClassfication(填写论文保密级别)必备学位(空值)degree必备学位授予单位grantor必备,不可重复学科专业discipline有则必备,不可重复,注4馆藏信息location必备典藏号callNumber必备,不可重复页码pageNum(论文总页码)有则必备学位论文数据质量控制规范---数据格式(模式二)record/recordheader……/headermetadataabout符合CALIS元数据规范的元数据片断/metadataCALIS_OBJ:objInfo……/CALIS_OBJ:objInfo/aboutMETS:mets……/METS:mets当前元数据所对应的METS包record/recordheader……/headermetadataabout符合CALIS元数据规范的元数据片断/metadata/about用于维护元数据与METS一致性的四项信息record/recordheader……/headermetadata符合CALIS元数据规范的元数据片断/metadataCALISRecordV2,无MetsCALISRecordV2,有MetsCALIS学位论文数据质量控制规范---数据格式(V2,mets部分)CALIS学位论文数据质量控制规范---数据格式(模式二)record/recordheader……/headermetadataabout符合CALIS元数据规范的元数据片断/metadataCALIS_OBJ:objInfo……/CALIS_OBJ:objInfo/aboutMETS:mets……/METS:mets当前元数据所对应的METS包record/recordheader……/headermetadataabout符合CALIS元数据规范的元数据片断/metadata/about用于维护元数据与METS一致性的四项信息record/recordheader……/headermetadata符合CALIS元数据规范的元数据片断/metadataCALISRecordV2,无MetsCALISRecordV2,有MetsCALIS学位论文数据质量控制规范---数据检测工具目的是检测导出的数据是否符合规范,提高数据质量;管理员首先使用本地系统导出工具导出“CALISOAIRecordV2.0格式”格式的记录;然后,管理员再使用“数据质量检查工具”对记录文件中的数据在数据格式、必备性、一致性等方面进行检查和校验;校验无误后,管理员才能将这些文件通过FTP上传,或者通过OAI-DP自动对外发布。CALIS学位论文数据质量控制规范---数据检测工具演示数据检测工具(所有错误列表)错误代码错误提示正确性要求01001文件夹下找不到合法文件指定的文件夹不正确或文件不正确。如非xml文件等。01002AOAI文件名称拼接形式有误OAI文件名的标准格式为:“完整的MetaID”+“@”+“导出时间戳”+“.oai.xml”01002BOAI文件名称未作格式转换或转换有误OAI文件名称中的“完整MetaID”和“导出时间戳”需要进行application/x-格式转换,字符“:”转换成%3A,字符“/”转换成%2F01003AOAI文件名中MetaID拼接形式有误MetaID标准格式为:“仓储标识”+“-”+“本地应用系统前缀”+“/”+“本地元数据标识”01003BOAI文件名中MetaID未作格式转换或转换有误文件名中的“完整的MetaID”应按application/x-格式进行转换。01004AOAI文件名中“导出时间戳”格式有误“导出时间戳”标准格式为20位零时区时间格式。01004BOAI文件名中“导出时间戳”未作格式转换或转换有误文件名中的“导出时间戳”应按application/x-格式进行转换数据检测工具(所有错误列表)错误代码错误提示正确性要求01008不符合OAI-PMHschema文件的整体格式不合格01009不符合recordschema:文件的整体格式不合格01010OAI文件名中的MetaID与元数据中的标识符(record-header-identifier)不一致OAI文件名中的MetaID应与元数据中的标识符(record-header-identifier)保持一致01011元数据时间戳(record-header-datestamp)格式不正确元数据时间戳应为20位零时区时间值01012metadata部分不符合相应元数据格式的schema应符合属性xsi:schemaLocation中指定的元数据格式schema01013about部分不符合相应schema部分不符合相应的schemaMETS包必须符合数据检测工具(所有错误列表)错误代码错误提示正确性要求01015CALIS-OID格式不正确正确的格式应该为:“urn:CALIS:”+“高校馆代码或资源商代码”+“-”+“本地集合名”+“/”+“本地标识”01016其他与格式相关提示02001metadata缺少必备元素应在详细结果说明中指出具体元素名称及中文说明02001A缺少元素:题名(title)“题名”为必备元素02001B缺少元素:类型(type)“类型”为必备元素02001C缺少元素:语种(language)“语种”为必备元素02001D缺少元素:权限(right/rights)“权限”为必备元素02001E缺少元素:学科(subject)“学科”为必备项02001F缺少元素:identifier(CALIS-OID)CALIS-OID为有则必备项02001G缺少元素:format“格式”为有则必备元素02002metadata缺少必备的子元素修饰词应在详细结果说明中指出具体元素名、子元素名称及其中文说明02003metadata缺少必备值或值不合要求应在详细结果说明中指出具体值名称及中文说明数据检测工具(所有错误列表)错误代码错误提示正确性要求02004about缺少元素应在详细结果说明中指出具体元素名称及中文说明02005about缺少值或值不合要求应在详细结果说明中指出具体值名称及中文说明02006mets缺少必备元素应在详细结果说明中指出具体元素名称及中文说明02007mets缺少必备值或值不合要求应在详细结果说明中指出具体值名称及中文说明02007A缺少值:LABELLABEL为mets的必备属性02007B缺少值:OBJIDOBJID为mets的必备属性02007C缺少值:PROFILEPROFILE为mets的推荐属性02007D缺少值:LASTMODDATE数字对象时间戳LASTMODDATE为必备项02008教育部学科代码取值不正确参见教育部学科分类表02009语种属性取值不正确.当前语种取值为“xxxx”正确语种取值应符合ISO639-2,参见常见语种取值为:中文:chi英语:eng日语:jpn数据检测工具(所有错误列表)错误代码错误提示正确性要求02010日期属性取值不正确。当前日期取值为“xxxx”正确日期格式应符合W3C-DTF,参见推荐使用W3C-DTF日期格式为:YYYY(eg1997)YYYY-MM(eg1997-07)YYYY-MM-DD(eg1997-07-16)YYYY

1 / 18
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功