基于结构与内容的网页主题信息提取研究

kantcycenny7
1 ℃
2020-01-19

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基于结构与内容的网页主题信息提取研究作者：吴鹏飞，孟祥增，刘俊晓，马凤娟2006-7-21山东师范大学传播学院宣讲：吴鹏飞邮箱：wupengfei_2000@163.com主要内容前言相关研究工作系统分层流程图映射表网页结构分析网页内容分析实验结果总结前言导航区交互区主题标签区主题文本区噪音区相关研究工作—网页结构分析*DOM网页标记树法*页面显示实体坐标位置法*基于映射表的网页结构内容分析法提取层识别层分割层解析层顺序读文件映射表结构聚类网页区域解析器区域特征提取启发式规则区域识别语义区域内容量化滤除噪音网页主题信息网页主题信息提取分层流程图HTML文档映射表主要是对头部和主体部分中文本条映射，即头部映射、文本条内容映射、文本条属性（视觉、结构、语义）映射。对HTML文档提取关键信息从而生成关于HTML文档的内容属性映射表，即：f(Di，i∈n)→Ti，i∈n，其中Di为HTML文档集，Ti为对应的每个文档的内容属性映射表。HTML网页映射表表1HTML网页映射表Tab.1MappingtableofHTMLpage类型字段名称描述头部Title网页标题Keywords关键词Description网页内容描述文本条属性TextAtrributeId属性标识号TextStructure文本条结构TextIsAHref有无超级链接TextCharCount文本条内字符的个数TextCharFontType文本条内字体的类型文本条内容TextContentId文本条内容标识号与属性标识号一致TextContent文本条内容TextAHref文本条超级链接HTML网页映射表网页结构分析—结构生成网页结构生成方法及表示形式*基于栈的网页结构生成方法*语义字符串分级表示如A23123，其中A表示主体BODY中第一个表格TABLE，如果网页中还有其他同层次表格分别记为B，C，D等，2、3分别为第一个表格的内嵌行标记TR、单元格标记TD；1表示第一个表格A的嵌套表格，2、3分别为嵌套表格行标记、单元格标记。```网页结构分析—区域分割ID网页结构网页内容8A23123123首页9A23123123关于我们10A23123123荣誉证书11A23123123产品展示21C23123123123产品列表22C23123123123摩托罗拉23C23123123123诺基24C23123123123索爱51C23123123123123产品名称:三星SGH-W21952C23123123123123产品型号:三星SGH-W21953C23123123123123产地:54C23123123123123付款方式:3860元网页区域特征根据网页的区域结构布局特征，设页面P=（A1，A2…An），其中网页区域Ai=（TextItemi1，TextItemi2…TextItemij），TextItemij=（TextAbttributeMap，TextContentMap），TextAbttributeMap为文本条的结构、视觉和语义属性映射，TextContentMap为文本条内容映射。在一个网页内，每个区域可以用5个变量来表达其语义特征：CountRatio：区域内有链接与无链接文本条内字符总个数的比值LinkAvgCount：有链接文本条内字符的平均个数（均值）FormalDegree：字符的方差（方差）AvgCountDiff：无链接与有链接文本条内字符平均个数的差值CharMaxCount：区域内文本条字符的最大个数。启发式规则IFCountRatio2ANDLinkAvgCount=6ANDFormalDegree=2THENAi为导航区ELSEIFCountRatio0.5OR（0.5=CountRatio=2ANDCharMaxCount=15ANDAvgCountDiff=5）THENAi为主题文本区ELSEAi为主题标签区启发式规则设计如下（规则中的数据是通过大量不同网页观察与实验得到）网页内容分析—区域内容量化区域内容量化表示采用向量空间模型。向量空间模型（VSM）是一种较为常用的信息获取模型。对于一个网页各区域内向量权重计算，采用TF方法，如公式（1），其中tfi是第i个关键词在该区域中的出现频率，n为区域内关键词的个数。假设两个区域U，V，两者的相似度可用向量之间的夹角来度量，相似度计算如公式（2）。Wi=njjitftf1（1）Sim(V,U)=cos(V,U)=nkuknkvknkukvk（2）网页标题与网页的上一级链接文本，具有高度的主题概括性，将二者组成新的区域S，利用公式（1）计算S的特征向量的权重。非主题相关标签过滤：利用公式（2）分别计算每一个主题标签区Ai与S的相似度，把高于相似度阈值的主题标签区保留，其余滤除。版权区过滤：最后一个区域一般为版权区，通过在此区域查询“版权所有”等文本向量，如果有，并且主题文本区不唯一，则将其滤除。导航区过滤：判断如果区域Ai为导航区，直接将其滤除。网页内容分析—滤除噪音实验数据集：为了验证我们方法的有效性，实验时分别从新浪、搜狐、雅虎、齐鲁热线等大型门户网站中人工挑选了500个有着复杂结构与分布的网页作为测试数据进行测试。评价标准：采用人工判断网页区域分割与识别结果和网页主题信息提取结果，其中500个网页一共分割出4205个区域，平均每个网页有8个区域。网页区域程序处理区域个数人工判别正确个数正确率导航区1851183199%主题标签区1261118594%主题文本区109397289%网页分割与识别结果Resultofwebpages’segmentationandidentification实验结果实验结果网页总数提取正确的网页数提取错误的网页数正确率5004346687%网页主题信息提取结果Resultofwebpages’topicalinformationextraction实验结果分析实验结果表明该方法对大多数网页区域分割与识别结果和网页主题信息提取结果较好。区域分割与识别错误主要是由于网页HTML文档中不含TABLE及其内嵌标记，或者使用了此标记，但是由于设计者安排的内容有着特殊的作用，在主题文本区域内会有少量噪音。区域分割与识别结果决定了网页主题信息提取结果的好坏。总结本文结合HTML网页内部特征与外部的结构布局，尝试了采用映射表这种网页映射模式对网页视图进行变换，基于结构与启发式规则对网页进行区域分割与识别，并利用向量空间模型对网页内容分析，从而准确得到具有高语义内聚性的网页主题内容。此方法不改变网页原有结构布局即按照设计者的意图来对页面区域进行分割与识别，主题信息提取有着较高的准确性，并且该方法处理速度快。谢谢各位专家！