Oracle数据库11g管理非结构化数据..........................................................................................2一、引言...................................................................................................................................2二、在ORACLE中管理非结构化数据的优势..................................................................3三、打破了原来处理非结构化数据的“性能障碍”...........................................................43.1OracleSecureFiles.......................................................................................................43.2SecureFiles中的存储优化.........................................................................................5四、专用数据类型和数据结构...............................................................................................64.1OracleXMLDB.............................................................................................................64.2OracleText..................................................................................................................74.3OracleSpatial..............................................................................................................84.4RDF、OWL和语义数据库管理................................................................................94.5OracleMultimedia.......................................................................................................94.6OracleDICOM医学内容管理....................................................................................9五结论...................................................................................................................................10Oracle数据库11g管理非结构化数据一、引言公司、企业以及其他机构使用的绝大部分信息都可归类为非结构化数据。非结构化数据是计算机或人生成的信息,其中的数据并不一定遵循标准的数据结构(如模式定义规范的行和列),若没有人或计算机的翻译,则很难理解这些数据。常见的非结构化数据有文档、多媒体内容、地图和地理信息、人造卫星和医学影像,还有Web内容,如HTML。根据数据的创建方式和使用方式的不同,非结构化数据的管理方法大不相同。1.大量数据分布于桌面办公系统(如文档、电子表格和演示文稿)、专门的工作站和设备(如地理空间分析系统和医学捕获和分析系统)上。2.政府、学术界和企业中数TB的文档存档和数字库。3.生命科学和制药研究中使用的影像数据银行和库。4.公共部门、国防、电信、公用事业和能源地理空间数据仓库应用程序。5.集成的运营系统,包括零售、保险、卫生保健、政府和公共安全系统中的业务或健康记录、位置和项目数据以及相关音频、视频和图像信息。6.学术、制药以及智能研究和发现等应用领域中使用的语义数据(三元组)。自数据库管理系统引入后,数据库技术就一直用于解决管理大量非结构化数据时所遇到的特有问题。通常通过“基于指针的”方法使用数据库对存储在文件中的文档、影像和媒体内容进行编目和引用。为了在数据库表内存储非结构化数据,二进制大对象(或简称为BLOB)作为容器使用已经数十年了。除了简单的BLOB外,多年以来,Oracle数据库一直通过运算符合并智能数据类型和优化数据结构,以分析和操作XML文档、多媒体内容、文本和地理空间信息。由于有了Oracle数据库11g,Oracle再次在非结构化数据管理领域开辟出一片新天地:大幅提升了通过数据库管理系统原生支持的非结构化数据的性能、安全性以及类型。二、在ORACLE中管理非结构化数据的优势企业选择在Oracle数据库管理系统中存储非结构化数据的原因有很多:1.强健的调优和管理:存储在数据库中的内容可直接与相关数据链接。元数据和内容同步进行维护;并在事务控制之下进行管理。数据库还提供强健的备份、恢复、物理调优和逻辑调优服务。2.简单的应用程序部署:Oracle支持各种特定类型的内容,包括SQL语言扩展、PL/SQL和JAVAAPI、Xpath和Xquery(在使用XML时),在大多数情况下还支持JSP标记库以及通过内置运算符执行常见或重要运算的算法。3.高可用性:Oracle的最高可用性体系结构使得“零数据丢失”配置可应用于所有数据。在出现故障时只需一个恢复过程,这不同于常见配置。在常见配置中,属性信息存储在数据库中,数据库具有指向文件中的非结构化数据的指针。4.可伸缩的体系结构:在许多情况下,通过触发器、视图处理或表和数据库级参数进行索引编制、分区和执行操作的能力使得构建在数据库而非文件系统上的应用程序可以支持更大的数据集。5.安全性:Oracle数据库可实现细粒度(行级和列级)安全性。同一安全机制既可应用于结构化数据,也可应用于非结构化数据。使用许多文件系统时,目录服务无法实现细粒度级的访问控制。限制单个用户的访问可能无法实现,在许多系统中,允许用户访问目录中的任何内容意味着可以访问目录中的所有内容。三、打破了原来处理非结构化数据的“性能障碍”在没有Oracle数据库11g之前,要获得这些好处是要付出代价的。将内容存储在数据库而不是传统文件系统中后,数据库特性(如域索引、分区和并行)可以改进地理空间应用程序以及查询和更新密集型XML应用程序的性能。然而,在许多情况下(例如多媒体应用程序),管理和检索非结构化数据需要额外的处理能力和内存才能获得与文件系统等同的性能。有了Oracle数据库11gSecureFiles后,一切都不同了,新的高性能LOB支持检索非结构化数据,速度可与等价的文件系统配置媲美,甚至超过了后者。SecureFiles是一个重要的新体系结构,其特性包括全新的磁盘格式、空间和内存管理技术,它可显著提升LOB性能并优化存储。3.1OracleSecureFilesSecureFiles在数据库处理文件数据的方式上采用了全新的范例,对于基本查询和插入操作可提供类似文件系统的性能。经过SecureFiles优化的算法速度最快可达旧LOB的10倍。SecureFiles可利用文件系统无法使用的多个高级Oracle数据库功能。在OracleRAC环境中,SecureFiles提供的高级别可伸缩性远非文件系统可比。通过SecureFiles,用户可使用“联机表重新定义”轻松地从旧LOB进行移植,而不会影响到现有应用程序。应用程序不必再处理多个接口来操作关系和相关文件数据。使用SecureFiles时,非结构化数据可以是数据库事务的一部分,因此,免去了应用程序保证原子性、读取一致性以及其他备份和恢复过程的复杂性。SecureFiles将透明数据加密(TDE)功能扩展到了LOB数据。数据库支持表内所有LOB列的自动密钥管理,并可以对数据、备份和重做/撤消日志文件进行透明加密/解密。应用程序无需更改即可通过SecureFilesLOB透明地利用TDE功能。SecureFiles支持下列加密算法:1.3DES168:三重数据加密标准,密钥长度为168位。2.AES128:高级加密标准,密钥长度为128位。3.AES192:高级加密标准,密钥长度为192位。(默认值)4.AES256:高级加密标准,密钥长度为256位。3.2SecureFiles中的存储优化与SecureFiles一起提供的还有高级文件系统特性,如重复消除(Deduplication)和压缩。重复消除可消除多个冗余的SecureFiles数据副本,并且对于应用程序是完全透明的。Oracle可自动检测到多个相同的SecureFiles数据副本,并仅存储一个副本,从而节省了存储空间。重复消除不仅简化了存储管理,而且显著提高了性能,尤其是对于复制操作。用户可使用行业标准的压缩算法压缩LOB数据,从而大幅节省存储空间并显著提升性能。Oracle可自动判断SecureFile数据是否可进行压缩,或压缩是否有益。SecureFiles对整个服务器使用默认的LOB压缩算法,并提供有各种级别的压缩。每种压缩级别都是压缩系数和速度之间的一种平衡。企业可以根据存储和CPU使用限制选择最适合其需求的压缩级别。SecureFiles可自动进行压缩和解压缩,并且对于应用程序是完全透明的。四、专用数据类型和数据结构与数据库管理系统包括数据类型、存储和索引结构以及运算符以对结构化数据进行有效查询和分析一样,它们在管理非结构化数据时也需要这些元素以实现增值。Oracle数据库11g的这些特性在XML、文本、空间、语义以及多媒体和DICOM数据管理方面具有独一无二的优势。4.1OracleXMLDBXML已为各行各业广泛采用。在卫生保健、制造、金融服务、政府以及出版等领域中都可以找到基于XML的标准。事实上,基于XML的标准(如XBRL)的引入已使XML成为应用系统之间的信息交换机制。因此,越来越多的人将XML用作了任务关键数据的持久性模型。为了满足这个需要,Oracle开发了OracleXMLDB。OracleXMLDB是一项高性能的原生XML存储和检索技术,可在所有版本的Oracle数据库上使用。它完全支持所有关键的XML标准,包括XML、命名空间、DOM、Xquery、SQL/XML和XSLT。OracleXMLDB是第一个真正融合了关系/XML功能的平台,从而使用户可以针对XML内容充分利用SQL语言以及针对关系数据充分利用XML范例。随着Oracle数据库11g的发布,Oracle扩展了其行业领先的XML支持,进而确保了Oracle仍是存储、管理和查询所有可能的XML内容类型的最佳平台。Oracle数据库11g中的新特性改善了性能和可伸缩性,并对灵活性提供充分支持,从而使更多不同机构为XML数据模型所吸引。Oracle数据库11g为使用OracleXMLSchema优化的XML存储的用户在诸多方面进行了改进。1.XML模式的适当发展。2.XML模式优化的存储的Oracle分区。3.优化存储模型的XML模