硕士论文-LARS诊断回归树

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

中国科学技术大学硕士学位论文LARS诊断回归树姓名:王彪申请学位级别:硕士专业:概率论与数理统计指导教师:方兆本20090501LARS诊断回归树作者:王彪学位授予单位:中国科学技术大学相似文献(10条)1.学位论文刘瑞基于数据挖掘技术的密闭鼓风炉透气状况分析2007随着数据库技术的迅速发展和数据库管理系统的广泛应用,人们积累的数据越来越多。数据的丰富带来了对强有力的数据分析工具的需求,数据挖掘技术应运而生,并逐步在商业、工程、科研等方面发挥重要作用。密闭鼓风炉熔炼过程是一个反应机理复杂、非线性、时变、耦合严重,并难以建模的系统。透气状况是反映密闭鼓风炉生产的重要指标,准确分析密闭鼓风炉的透气性,对于提高密闭鼓风炉的产量具有重要意义。密闭鼓风炉的现场采集检测点繁多,数据量庞大,如何有效地利用数据挖掘技术找出潜在的、有价值的信息指导生产实践具有深远的研究价值。论文以密闭鼓风炉透气性炉况为研究对象,以统计分析、决策树理论为工具,利用数据挖掘技术对透气性状况进行研究。首先,采用统计方法对密闭鼓风炉铅锌冶炼的生产数据进行挖掘。通过数据预处理、数据压缩和相关性分析,确定了对透气性状态影响的四个主要因素,并建立多元线性回归模型。考虑到密闭鼓风炉生产的时变性特征,为了使线性模型更好的对透气性状况进行分析,引入了自适应加权渐消算法,并通过仿真验证了透气性状况分析模型的有效性。接着,应用基于决策树理论的挖掘算法对生产数据进行挖掘。针对影响透气性状况的主要因素,利用基于信息熵定义的信息增益选择节点,生成决策树,抽取分析规则。由于规则集十分庞大,采用PEP剪枝算法精简决策树规则。采用数据库技术,对一年的生产数据建立决策树,挖掘透气性状况分析模型,剪枝后决策树具有很好的分析效果。2.学位论文罗玮数据挖掘在森林资源管理中的应用2008数据挖掘技术是近年来从无到有,发展迅速的新兴技术,在理论研究逐步深入的同时,许多行业也开始在应用方面进行探索。数据挖掘作为知识发现过程的重要步骤,是从大型数据库及数据仓库中提取未知的、有价值的和潜在关系、模式和趋势用于决策支持的过程。利用该技术来分析森林资源数据,在关系复杂的海量数据中找到隐含的深层次信息,对后期的森林经营和资源管理意义重大,并有助于形成以知识管理和知识发现来辅助森林资源管理,并提高森林资源决策管理的科技水平。br  由于数据挖掘技术本身发展时间不长,在很多行业中的应用也是刚刚兴起,目前国内森林资料管理中结合数据挖掘技术的文献目前还比较缺乏。本文利用一平浪林场二类调查数据,以云南松小班为研究对象,研究和探讨了数据挖掘技术在提取林业知识及隐含的有价值的信息方面的有效性和可行性,并分析了聚类、决策树、关联规则三种数据挖掘算法对林业数据进行知识挖掘的具体应用。br  由于现实数据的不完整性、冗余性和模糊性,以及各个数据挖掘算法对数据类型有不同要求,数据预处理是数据挖掘过程中重要的部分。在数据预处理阶段,本文对初始数据进行了预备数据集的提取及数据类型的转换。在预备数据集提取中对缺失值过多的小班和属性进行了删除;在数据类型的转换中实现了通过等宽装箱法将连续型属性转化为离散型及结合林业专业知识将离散型属性量化为数值型两种转换。br  林地立地分类与评价是森林经营管理的重要内容,是林业决策的依据和基础。本文应用聚类算法中的层次聚类分析法对云南松三龄级的量化数据进行了聚类分析,聚类为三类的小班在同树种同龄级的条件下,树木的树高和胸径生长量出现了数据上的分化,说明不同类别的小班林地生产力存在差异,立地质量具有梯度性的变化。根据林地定级的概念,可将三类中的小班林地分别划分为第I立地等级、第II立地等级和第Ⅲ立地等级。根据聚类的结果计算类别中心后,计算一平浪地区无林地小班与各个聚类中心的距离,将无林地小班划分为距离最近的类,即可得到对无林地小班的立地等级评价。其结果可作为林业经营的辅助决策支持。br  本文采用数据挖掘中的决策树C4.5算法建立了云南松单株材积的区间估值模型。通过将单株材积量等宽离散为5个取值区间,为不同云南松小班建立了所属的单株材积区间,即不同的类。以年龄、树高、直径、疏密度及小班环境因子作为条件属性,以单株材积区间为决策属性建立决策树模型。决策树算法利用自身的性能选择自动选择贡献率最大的属性,消除噪声数据的影响。决策树的运行结果显示算法在剪枝过程中剪去了年龄、疏密度、所有的环境因子条件属性,仅保留了直径与树高两个属性作为分类属性,说明在一平浪地区云南松小班中,没有对单株材积影响较大的环境因子。用十折交叉验证法对决策树验证的结果,决策树的分类准确度达到了93%。由决策树中提取的规则对训练数据进行统计,得到了云南松的以直径、树高为因变量的单株材积区间预测模型。br  本文应用关联规则挖掘Apriori算法在云南松三龄级小班中进行规则提取。根据规则集建立了由规则推导得出的直径模型。由模型的拟合结果分析看出,假如规则评价较高,则由规则推导的模型分类正确度也较高;如规则评价较低,则模型性能较差。本文又根据所提取规则的评估指标作为自变量,建立了云南松三龄级直径与环境地理因子的回归模型。在预测变量为离散型变量的情况下,通常不能直接采用传统的统计回归方法建模。利用数据挖掘的关联规则算法可以解决这一问题。经过比较采用数据挖掘技术建立的线性模型与直接采用量化的环境因子建立的模型,前者的误差明显小于后者,具有更好的拟合效果。br  本文最后对全文进行了总结,并对有待进一步研究的问题进行了展望。3.学位论文朱曦数据挖掘在非寿险分类费率厘定中的运用研究2005要广义线性模型(GLMs)从根本上说,属于一种分类费率厘定模型。它是非寿险定价的重要方法,目前更作为个人车险、其他个险险种以及部分商业险种定价的标准方法。分类费率厘定模型建立在损失数据采集和风险分类基础之上,这就决定了保险人经营过程中,保单信息的缺失、风险识别和分类的有效性,都将直接影响模型的准确性。另外,分类费率厘定模型很难直接评估各种风险因素对风险分类有效性的影响程度,并预测它们对未来损失产生的影响。本文在实证分析基础上,说明了分类费率厘定模型的这些缺陷不可避免的也存在于GLMs定价中。数据挖掘(DM)是一个从已知数据集合中发现各种模型、概要和导出值的过程。通过这一技术,人们在计算机帮助下利用一系列工具对数据进行分析,然后根据反馈的内容从新的视角来考察原始数据的信息。数据挖掘过程一般包括数据取样、数据研究、数据调整、模型构建和模型评估五个步骤。本文在SASR环境下,探讨了数据挖掘的各步骤,并阐释了它们在精算学及非寿险定价中的意义。最后,文章运用SASREnterpriseMinerTM,利用数据挖掘技术进行了一系列实证分析。本文重新构建了基于回归算法、决策树算法和神经网络算法的六个费率厘定模型,就各模型的改进方法给予了必要说明。最后文章从识别度、区分度、准确度、稳定性和可解释性五个方面分析比较了几个模型,并阐释了各模型存在优劣的内在原因。数据挖掘技术可以极大的改进传统的非寿险费率厘定方法,帮助精算师自动实现一些重要的费率厘定过程,调整费率结构并建立一个较为合理的个体风险费率厘定系统;同时,帮助保险人识别高风险保险客户,实现降低损失率的目标。4.期刊论文李春鑫.李天伟.LIChun-Xi.LITian-Wei基于决策树改进CART算法的决策支持与分析技术-计算机科学2004,31(z1)针对决策支持与分析技术,提出了基于决策树的改进CART算法.该算法由树生长和树剪枝两部分构成,具有辨识相关输入的能力,由于引入了递归最小二乘估计器,对线性模型可降低计算量,并采用模糊技术处理不连续边界问题.我们给出了该算法的应用实例,由于隐含权值归一化,该算法能够快捷地对自适应神经模糊推理系统进行结构辨识.5.学位论文古丽·加帕尔干旱区荒漠河岸林弱信息提取及尺度效应分析——以塔里木河干流中下游地区为例2008干旱区荒漠河岸林植被是干旱内陆河流域生态环境的核心,在抑制荒漠化过程和保护生物多样性等方面有着重要的生态意义。因此,实时监测荒漠植被生长状态信息尤为重要。与传统点尺度上耗时耗力的人工量测相比,遥感为获得不同尺度植被参量信息提供了一个便捷的多元化工具。位于干旱地区荒漠河岸林群落,其植被生长稀疏、类群结构简单,使得遥感影像上获取的荒漠河岸林光谱信息极其微弱,甚至于难以检测。另一方面,由于地表空间格局与过程在不同尺度上表现出明显的特征差异,作为描述地表特征的遥感影像数据同样具有尺度特征,表现为同一种格局和过程随遥感影像的覆盖范围和观测尺度而变化,而这种变化过程对于原本就难以提取的荒漠植被弱信息增加了难度。本文针对上述问题,以塔里木河干流中下游地区荒漠河岸林稀疏植被群落为切入点,做了以下研究:构建了干旱区荒漠河岸林信息提取几何结构概念模型;基于几何结构概念模型的理念,以高空间分辨率影像为信息源,采用分类决策树模型、几何光学物理模型以及光谱角匹配技术,探讨了荒漠河岸林的类别识别,进一步以正演手段实现了MODIS亚像元结构模式的获取;建立了荒漠河岸林稀疏植被覆盖度遥感模型,对覆盖度信息尺度转换效应进行了分析。从荒漠河岸林植被外貌特征、生理生化参数变化特点出发,认为干旱区荒漠河岸林植被弱信息提取需提高类别识别的精度,实现生理、生化参量信息反演的高时效性。提出以高空间分辨率影像解决混合像元分解问题,进而采用线性模型正演的方式,获取MODIS亚像元结构模式;以高时间分辨率的MODIS影像提取生物物理、生化参数的几何结构概念模型。采用几何光学模型与光谱角匹配结合,解决混合像元信息分解,进行干旱区荒漠河岸林类别识别。首先从遥感视角的角度,将地物分解为目标和背景,提出塔里木河干流荒漠河岸林植被分类系统;其次用像元信息分解和多变量决策树法将非荒漠植被信息剔除,采用几何光学模型模拟各类荒漠植被的像元光谱,采用光谱角匹配的方法将荒漠植被进一步进行分解,得到塔里木河干流中下游地区典型研究区的植被分类专题图,分类精度结果表明:基于混合像元分解与几何光学模型的分类方法总精度达到了77.66%,Kappa系数为0.704,表明分类质量很好。MODIS亚像元结构模式分析及影像模拟研究表明:随着像元尺度的扩展,图像对地物的分辨能力减弱,地物边界变得模糊。统计特征值最大值、最小值、均值及标准变差变化幅度不大,模拟影像包含的信息量没有太大的损失,这种基于线性模型基础,通过正演的方式所得到MODIS250m、500m、1000m多尺度亚像元地类组成结构模式是有意义的。进一步分析模拟影像与真实影像光谱尺度效应,认为光谱特征的尺度扩展是有限度的,尤其是从500m扩展到1000m尺度,模拟影像的反射率变化范围与MODIS原始影像差异显著,说明信息量不一,这样的尺度扩展对于分析光谱反射率特征没有实际意义。干旱区稀疏荒漠河岸林植被覆盖度信息提取从遥感模型及模型的尺度效应两个方面进行了分析:首先以地面实测值与植被指数NDVI、RVI、DVI、RDVI建立经验模型,以NDVI指数盖度模型、亚像元结构模型、三波段最大梯度差法提取研究区植被盖度信息,通过模型检验分析,研究认为本文所提出的调整三波段最大梯度差法模型误差小,算法简单,是最适合于干旱区稀疏植被覆盖度提取的遥感模型;其次,研究将调整的三波段最大梯度差法模型带入真实影像反演得到覆盖度信息,通过简单平均尺度扩展方法,以TM覆盖度影像模拟不同尺度(MODIS250m、500m、1000m)的覆盖度模拟影像作为验证信息源来检验模型在不同尺度上的反演效应及普适性,调整后的三波段最大梯度差法在不同尺度上反演覆盖度信息均得到了较好的结果。因此,在小尺度上获得验证的覆盖度信息通过该扩展方法可以作为验证其它尺度模型反演结果的有效信息源。关键词:干旱区荒漠河岸林;几何结构概念模型;弱信息提取;尺度效应6.学位论文谭浩车险经验估费中的客户风险分级模型与算法设计——基于数据挖掘的分析2007国务院2003年1月1日起在全国全面实施车险改革。从2003年1月1日起,保监会不再制定统

1 / 42
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功