基于元数据的web信息提取方法研究【摘要】:web信息提取是当前比较活跃的一个研究课题,但web数据的大量性,异构性和动态性,是web信息提取的一个桎梏。对于结构化的Web数据,已经有较为成熟的解决方法;而对于非结构化的Web数据,由于传统数据库的底层问题,不能用来处理非结构化数据,迫切希望能提出一种方法进行非结构化数据的处理。为了解决这个问题,很多研究者提出了为web数据建立元数据,可将非结构化数据变成结构化或半结构化数据。但由于web数据形式的多样性,很难为多样性的数据建立一种统一标准的元数据。本为为web数据中的文本数据建立了一种DublinCore文本元数据表,将web文本这种非结构化数据结构化。Web文本元数据分为描述性元数据和语义性元数据,描述性元数据通过分析HTML源文件直接得到,本文的主要工作有以下四部分:1对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项;根据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元数据项。2.利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项;采用文本分类基本思想,提取题材元数据项。3.为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形成内容侯选句WHJ1;其次,在内容候选句WJH1中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2;最后,利用平面聚类和C__均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除,最后形成文本内容元数据项。4.试验结果表明:本系统对语义性元数据项填写取得很好效果。【关键词】:web信息提取元数据文本矩阵平面聚类C均值聚类【学位授予单位】:山西大学【学位级别】:硕士【学位授予年份】:2003【分类号】:TP393.09【目录】:1引言8-131.1课题目的81.2国内外研究状况8-101.3基于元数据的web信息提取的难点10-111.3.1文本的表示形式10-111.3.2元数据标准及内容的确定111.4本文应用价值111.5内容安排11-132相关理论13-192.1元数据简介13-152.1.1元数据定义132.1.2web文本元数据的表示13-152.2相关术语15-192.2.1文本状态术语15-162.2.2文本统计术语162.2.3模糊论术语16-193语义性元数据项提取19-283.1web页面分析193.2web文本的表示19-213.2.1文本段的表示19-203.2.2文本句词的表示203.2.3文本表示形式的实现20-213.3简单语句向量空间的生成21-233.3.1简单语句向量术语描述21-223.3.2简单语句向量生成算法22-233.4简单语句模糊相似矩阵的生成23-243.4.1模糊相似矩阵相关术语描述233.4.2模糊相似矩阵生成算法23-243.5利用文本的矩阵表示提取语义性元数据项24-283.5.1DC.title题目提取过程:243.5.2DC.creater作者提取过程:24-253.5.3DC.subject主题词提取过程:25-263.5.4DC.type体裁算法设计和实现26-284DC.description内容元数据项提取28-434.1内容元数据项提取考虑以下几点284.2本文内容元数据项的特点28-294.3利用简单语句向量空间提取DC.description元数据项29-304.4矩阵及模糊论相结合提取内容元数据项30-434.4.1内容元数据项提取总原则304.4.2冗长句处理30-314.4.3冗长段处理31-374.4.4DC.description填写37-435系统及实验43-485.1系统框图43-445.2试验方法及结果44-455.3DC.description元数据项实验结果与分析45-465.3.1平面聚类实验结果45-465.3.2C_均值聚类实验结果与分析465.4题材试验结果与分析46-486结束语与展望48-49致谢49-50参考文献50-52附录52本论文购买请联系页眉网站。