元数据与科学数据信息的组织和管理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

元数据与科学数据信息的组织和管理秦健美国雪城大学信息研究学院~jqin/2004年数字图书馆前沿问题高级研讨班2019/9/12ADL2004深圳2提要科学数据信息资源的范围美国政府和民间利用元数据管理利用科学数据信息的做法科学数据信息元数据的标准下一步的计划2019/9/12ADL2004深圳3背景(1)伴随计算技术的发展产生了大量的科学观察和模拟数据专门学科领域的数据量以tensofterabytes计,许多学科正在计划建造更大的数据库用于组织这些数据的概念及相关关系复杂性增加从这些数据库中抽取知识无异于一个巨大的挑战,必须动用最强的系统来应付这样的挑战2019/9/12ADL2004深圳4背景(2)数字化图书馆、数据网格(datagrids),及永久性档案一体化的发展–国会图书馆国家数字化信息基础和保护计划(LibraryofCongressNationalDigitalInformationInfrastructureandPreservationProgram)–国家档案纪录管理局以数据格为基础的永久性档案样品–利用数据网格建立国家科学基金会科学数字化图书馆–知识之间相互关系的产生、管理、及检索是信息技术面临的主要挑战Next2019/9/12ADL2004深圳5TheBIRNdatagridBack2019/9/12ADL2004深圳6科学数据信息资源的范围观察模拟数据Observationandsimulationdata分类术语表Taxonomies数学表达式Mathematicalexpressions分子、化学、基因表达式Molecular,chemical,andgenomicexpressions结构、物理、计算模型Structural,physicalandcomputationalmodels表格、图形、图表、地图、图片Tables,graphs,charts,mapsandimages实地与试验笔记Fieldandlaboratorynotebooks图书及其它学术文献Monographsandotherscholarlydocuments述评Criticalreviewsanddiscourse实用分类系统Ontologies学术文献参考目录Bibliographicreferencestoscholarlyliterature2019/9/12ADL2004深圳7美国政府和民间利用元数据管理利用科学数据信息的做法(1)酝酿(1992-1994):–政府机构牵头制定标准开发(1995-1998):–研究实施对策–将标准草案推出,发动公众对标准草案提修改意见–标准定稿,编制标准使用指南整合服务(1999-现在)–通过建立元数据通道,整合分散的科学数据信息–利用新的信息技术研究深层次组织科学数据信息提供服务的方法2019/9/12ADL2004深圳8美国政府和民间利用元数据管理利用科学数据信息的做法(2)整合服务(续)–具体过程:建立跨政府部门的联合委员会(CENDI)委员会下设两个关键的研究组:核心政策组与技术设计组在目标、政策、和设计方面取得一致意见为浏览建立分类类目选取、编目、索引政府各部门的资源联合委员会与政府有关的项目(如firstgov.gov)挂钩2002年春天试运转2002年12月正式运行:深圳9美联邦科学联盟成员农业部商业部国防部教育部能源部公共卫生部内务部环境保护局国家航空航天部国家科学基金会由CENDI支持协调2019/9/12ADL2004深圳10目标为从事科学工作的公民,包括专业科学人员、学生、教师、工商业人士、及任何对科学有兴趣的公众,提供跨部门的检索通道来查找和使用经过选取的权威性的美国政府有关科学技术的信息资源。2019/9/12ADL2004深圳11美联邦科学联盟元数据通道(1)该元数据整合中心集结了各个学科领域的数据库,用户发一个检索指令,可以同时检索分布于全美国的科学数据信息2019/9/12ADL2004深圳12美联邦科学联盟元数据通道(2)检索过程的界面:2019/9/12ADL2004深圳13美联邦科学联盟的信息资源最主要的特点是信息的来源和权威性–所收集的信息是有各部门的信息管理人员或图书馆员选取,而不是像商业网站的自动收集–信息内容都产生于政府资助的研究开发项目或类似的有美国政府投入的活动–各部门负责对联邦科学联盟中属于本部门的信息内容进行更新2019/9/12ADL2004深圳14科学数据信息元数据的标准(1)BiologicalDataProfileEcologicalMetadataLanguage(EML)ContentStandardforDigitalGeospatialMetadata(CSDGM):Governmentstandardforgeospatialmetadata://opengis.net/gml/01-029/GML2.htmlNeesML(NetworkforEarthquakeEngineeringSimulationMetadataLanguage)深圳15科学数据信息元数据的标准(2)BiologicalDataProfile–所有元素分成七大类:标识(Identification)数据质量(Dataquality)空间数据组织(Spatialdataorganization)空间参照(Spatialreference)实体和特性信息(Entityandattributeinformation)发行(Distribution)元数据参考信息(Metadatareference)2019/9/12ADL2004深圳16科学数据信息元数据的标准(3)1.1引用文献信息1.2描述(文摘、目的、补充信息)1.3内容所涉及的时间1.4状态(进展、维护及更新1.5空间地理数据1.6关键词(主题、地点、层次、时间)1.7检索限制1.8使用限制1.9联系信息1.10图片浏览1.11数据集制作单位或人员1.12安全信息1.13原始数据集环境1.14交叉参照1.15分析工具(分析工具描述、工具检索信息、工具联系信息、工具有关文献)标识(Identification)类下的主要子类:2019/9/12ADL2004深圳17科学数据信息元数据的标准(4)关键词是标识类的一个子类,共分主题、地点、层次、时间四大块。主题时间层次地点2019/9/12ADL2004深圳18科学数据信息元数据的标准(5)2.1特性准确性(特性准确性报告、计量特性准确性评估)2.2逻辑一致性报告2.3完整性报告2.4位置精确性(横向位置精确性报告、纵向位置精确性报告)2.5数据获取方法及有关文献(方法、来源、过程步骤)数据质量信息(Dataquality)2019/9/12ADL2004深圳19科学数据信息元数据的标准(6)5.1详细描述(特性名称、定义、定义来源,特性允许值范围、特性允许值的起始日期和终止日期、特性值的精确性信息)5.2综述性的描述(实体和特性综述、实体和特性细节的相关文献)实体和特性信息(Entityandattributeinformation)2019/9/12ADL2004深圳20科学数据信息元数据的标准(7)6.1发行者6.2资源描述6.3发行责任6.4标准订购过程(电子传送信息、电子传送方法、收费、定购须知、所需时间)6.5特别订购过程6.6技术要求6.7可订购时间信息发行信息(Distributioninformation)2019/9/12ADL2004深圳21科学数据信息元数据的标准(8)7.1元数据日期7.2元数据复核日期7.3元数据未来复核日期7.4元数据联系信息7.5元数据标准名7.6元数据标准版本7.7元数据时间转换7.8元数据检索限制7.9元数据使用限制7.10元数据安全信息7.11元数据扩展元数据参照信息(MetadataReferenceInformation)2019/9/12ADL2004深圳22部分BiologicalDataProfile元素!ELEMENTmetadata(idinfo,dataqual?,spdoinfo?,spref?,eainfo?,distinfo*,metainfo)!ELEMENTidinfo(citation,descript,timeperd,status,spdom?,keywords,taxonomy?,accconst,useconst,ptcontac?,browse*,datacred?,secinfo?,native?,crossref*,tool*)!ELEMENTcitation(citeinfo)!ELEMENTdescript(abstract,purpose,supplinf?)!ELEMENTtimeperd(timeinfo,current)!ELEMENTstatus(progress,update)!ELEMENTspdom(descgeog,bounding,dsgpoly*)!ELEMENTbounding(westbc,eastbc,northbc,southbc,boundalt?)!ELEMENTdsgpoly(dsgpolyo,dsgpolyx*)!ELEMENTdsgpolyo((grngpoin,grngpoin,grngpoin,grngpoin+)|gring)!ELEMENTdsgpolyx((grngpoin,grngpoin,grngpoin,grngpoin+)|gring)!ELEMENTgrngpoin(gringlat,gringlon)2019/9/12ADL2004深圳23科学数据信息元数据的标准(8)小结:–元数据标准的庞大和复杂性:对具体系统实施是一个巨大的挑战对元数据制作人员有较高的技能要求需要进行大量的培训工作–检索:联邦科学联盟网站提供按学科的跨数据库检索,分散的站点提供精细专业浏览和检索2019/9/12ADL2004深圳24科学联盟的下一步发展计划继续加入内容完善规范内容选择和编目指南审查评估目前的分类表开展与政府其它门户网站的连接接纳新的联盟成员开发支持性和能持久的资源2019/9/12ADL2004深圳25经验与教训建立科学数据信息的元数据标准是一个复杂的过程,需要有一个核心工作委员会来主持、协调,制定政策、设计、及实施计划元数据标准的模式:线性元素结构不适合规模发展–缺乏灵活性、可扩展性–需要大量培训工作人员–需要开发专用软件和程序来实施元数据规范词表的开发得到重视,并在元数据的可互操作性方面发挥作用(跨数据库检索)强调资源的有选择性权威性而忽略了跟踪新技术并利用新技术来解决现有标准和系统的问题2019/9/12ADL2004深圳26趋势:语义网和语义网格元数据及实用分类系统是未来科学数据信息开发、应用、管理的语义基础语义网(SemanticWeb)和语义网格(SemanticGrid)是未来科学数据信息开发、应用、管理的技术基础新的术语:实用分类系统(Ontologies),语义网,语义网格,数据网格(DataGrid),网络服务(WebService)

1 / 26
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功