调查数据挖掘和模式识别技术对土壤数据挖掘摘要:数据挖掘已经成为主要的研究方向之一域,在近数十年来,以提取隐含的和有用的数据。这种知识可以被人类轻松认知。最初,这方面的知识提取和计算评估采用手工统计技术。随后,半自动数据挖掘技术的出现,因为进步的技术。这样的进步也是在形式存储从而提高分析的需求。在这样的情况下,半自动化的技术已成为低效率的。因此,自动化的数据挖掘技术引入到合成知识有效。数据现有文献的调查挖掘和模式识别土壤数据挖掘呈现本文。在农业土壤中的数据集的数据挖掘是一个比较新的研究领域。有效的技术可开发和专为解决在使用数据挖掘复杂的土壤数据集。关键词:数据挖掘,模式识别,土壤数据挖掘一、引言这个数据挖掘的软件应用包括各种已经开发了商业方法和研究中心。这些技术已被用于工业,商业和科学用途。例如,数据挖掘技术已经被用来分析大数据集和建立有用的分类和模式的数据集。农业和生物研究的研究中使用的各种数据分析的技术,包括,天然树,统计机器学习和其它分析方法。本文研究的,如果新的数据挖掘可以建立技术将改善的有效性和准确性大型数据集的土壤分类。在特别地,本研究工作的目的是比较数据的性能在土壤局限性和土壤条件挖掘算法方面的以下特点:酸度,碱度与钠含量,盐分,低阳离子交换容量,磷的固定,有开裂和溶胀性能,深度,土壤密度和营养素含量。使用标准的统计分析技术是既费时又昂贵。如果可以发现替代的技术,以改善这个过程中,在土壤中的分类的改进可能结果。农业是每个国家都以其核心竞争力。但是在印度然而,它只占17%总的国内生产总值。随着城市化进程加快,这将是粮食生产的挑战越来越多的人用更少的土地和水。农业或养殖是任何国家的脊梁经济性,因为大量人口生活在农村地区,是直接或间接依赖农业为生。来自农业收入形成了养殖的主要来源社区。作物收割的基本要求是水资源和资金购买种子,化肥,农药,劳动力等多数农民通过提高资本要求牺牲其他必要的支出,而当它是仍然不足,他们求助于信贷从银行等渠道和民间金融机构。在这种情况下,该还款取决于作物的成功。如果作物由于多种因素失败即使一次时,如不良的天气、土壤类型不好,过度和过早应用这两种化肥和农药;掺假的种子和农药等,然后他推入严重危机造成了严重的压力。此外,该植物生长取决于多种因素,如土壤类型、作物类型和天气。由于缺乏植物生长信息和专家建议,大多数农民无法获得良好的收益。土壤性质的知识大多来源于土壤调查努力。土壤调查,或土壤制图,是确定土壤类型或土壤覆盖的其他属性在一个过程,并将其映射为他人理解并使用。对于土壤调查主要数据通过实地采集采样和遥感支持。利用从收集的这项研究工作的测试数据集世界土壤信息-ISRIC(国际土壤参考和信息中心)。在ISRIC-WISE3.1版土壤的排放数据库(WISE3世库存势)是从一个大范围的土壤剖面并且遵从许多专业人士从世界各地收集到的数据。从而主土壤数据和任何二级数据导出他们可以利用地理信息系统的空间单位挂钩世界土壤图以及更近的土壤和地形(SOTER)数据库通过土壤传说中的代码。WISE3是关系数据库,使用编译MS-ACCESS。它可以处理数据:(一)土壤分类;(二)土天边的数据;(三)数据的来源;和用于方法确定分析数据。在WISE3档案数据来源于来自260多个不同的来源,模拟和数字。的型材大约有40%是从辅助提取数据集,包括各种土壤和地形数据库和FAO土壤数据库,持有多种来源的数据整理。WISE3持有选定的属性数据10253个土壤剖面,有些47800个视野,来自149个国家。在未来,这些数据集与各种数据挖掘的分析技术可能产生的成果有助于研究人员。二、材料和方法在数据挖掘的技术迅速增长是由于(ⅰ)大型存储设备的成本下降,提高易用性采集的数据通过网络,(二)稳健发展,高效的机器学习算法来处理这些数据,并(三)计算能力的成本下降,从而利用密集计算的方法对数据进行分析。数据挖掘仅仅代表一组从原始数据中提取模式目的的特定的方法和算法。在DM过程已经发展由于巨大必须被处理的区域更容易,如数据的量:商业,医疗行业,天文学,遗传学。此外,成功的超常规发展硬件技术使得存储的大容量硬盘的出现,事实上许多挑战的出现问题在操作数据的巨大的量。当然,这里最重要的方面是对快速增长互联网。DM过程的核心在于应用方法和为了算法发现和提取模式存储的数据,但在此之前的步骤的数据必须进行预处理。众所周知,简单的使用DM算法无法产生了良好的效果。因此,发现的整个过程在原始数据有用的知识包括顺序应用以下步骤:在应用领域,创造一个目标数据集的基础上通过集中的一个子集选择数据的一种智能的方式变量或数据样本,数据清洗和预处理,数据缩减和投影,选择数据挖掘任务,选择的数据挖掘算法,数据挖掘步骤,解释挖掘模式与可能返回的任何一个前面的步骤和巩固知识的发现。在DM包含许多研究领域,如机器学习,数据,数据库,统计模式识别,人工智能,数据采集专家系统和数据可视化。这里最重要的目标是从数据和模式中提取带来有用的知识成可以理解的形式。这是建议获得的信息是浅显的,以解释的使用的容易性。整个过程的目的是获得从低级别的数据的高级数据。数据挖掘涉及到装修款或确定从模式的观测数据。拟合模型发挥作用推断的知识。通常情况下,一个数据挖掘算法构成以下三种组件。模型:该模型的功能(例如,分类,聚类)和它的代表性形式(如线性判别,神经网络)。模型包含的是从该数据确定参数。选择标准:一个基础的偏好一个模型或一组对另一参数,取决于给定的数据。搜索算法:一个规范算法寻找特定的模式,参数,给出的数据,模型(s)和一个优先标准。一个特定的数据挖掘算法通常是为实例模型/偏好/搜索组件。在当前的数据挖掘比较常见的模式功能做法包括:1、分类:分类一数据项到几个预定义分类。2、回归:一个数据项映射到实值的预测变量。3、聚类:映射一个数据项分成几个集群之一,其中,集群是数据项的自然分组基于相似性指标或概率密度模型。4、规则产生:提取从数据分类规则。5、关联规则挖掘:描述了在不同的关联关系属性。6、聚合:提供一紧凑描述为数据的子集。7、依靠建模:介绍显著变量之间的相关性。8、序列分析:连续模式模式,如时间序列分析。我们的目标是模型的过程中产生的状态序列或提取和报告偏差和趋势随着时间的推移。虽然,有很多技术在数据可用,如人工神经网络,K近邻,K指的做法。人工神经网络:人工神经网络(ANN)的灵感来自于人脑的研究体系,人工神经网络(ANN)网络中每个节点代表一个神经元,每个链接表示方式两个神经元相互作用。每个神经元执行非常简单的任务,而该网络的代表其所有的神经元的工作是能够执行更复杂的任务。神经网络是一个相互联系的一套输入/输出单元,其中每个连接的重与之相关联。该网络通过学习微调权重,以便能够预测输入样本的呼叫标签在测试阶段。人工神经网络是一个新的在洪水预报中使用的技术。ANN的优点在造型的降雨量方法和流失的关系在传统技术洪水预报。神经网络具有比在常规方法的几个优点计算。有更多的时间用于获取任何问题解决方案,ANN是非常适合的状态,神经网络方法成功地提前一周预测了病虫害发生率攻。提前一周函数提供由一种替代从更容易获得的土壤估计土壤参数数据。所使用的两种常见的方法来开发的PTF是多线性回归方法和神经网络。多元线性回归和神经网络模型(前馈回来传播网络)被雇用开发此函数功能使用预测土壤参数土,沙,淤泥,SP,BD容易衡量的特征和有机碳。人工神经网络已经成功的其他土壤性质,如旱地盐度的分类。由于其解决复杂或能力喧闹的问题,人工神经网络被认为是是一个合适的工具,一个困难的问题,如估计在土壤有机碳。支持向量机:支持向量机(SVM)是二元分类。SVM是能够在两个不相交的数据样本进行分类类。其基本思想是背后分类样本数据成线性可分。支持向量机是一组用于与监督学习方法分类和回归。在简单的话给定的一组训练示例,每一个标记为属于两个一类别,一个SVM训练算法构建了一个模型,预测是否有新的例子属于一类或等。支持向量机用于评估的时空特征土壤水分的产品。决策树:决策树是目前使用的分类算法在数据挖掘和机器学习。决策树是机器的一个新领域学习是涉及算法收购在形式,如概念结构化的知识,决策树木和歧视蚊帐或生产规则。应用干旱相关的数据进行抗旱数据挖掘技术风险管理显示了高级地理空间的成功决策支持系统(GDSS)。规定数据挖掘方法是用于方法之一作物决策。研究已在澳大利亚进行了估算一范围内的土壤性质,包括有机碳(亨德森等人,2001)。在全国性的数据库有11483点的土壤可用来预测在土壤中的有机碳。增强决策树工具(立体派),用于连续输出本研究的相关性的预测值和实际的有机碳之间水平。K近邻:K近邻技术在数据挖掘中的分类技术之一。它不有任何的学习阶段,因为它使用的训练集的每时进行的分类。最邻近搜索(NN)也被称为邻近搜索,相似性搜索或最近点的搜索是查找一个优化问题最近点的度量空间。K近邻应用于日常模拟降水和其他天气变数(拉贾戈帕兰和拉尔,1999)。贝叶斯网络:一个贝叶斯网络是一个图形化模型编码之间的概率关系。当结合使用统计技术图形模型有几个优势数据分析。一、因为模型编码的依赖各变量之间的,它很容易处理的情况下一些数据项丢失。二、贝叶斯网络可以用于学习的因果关系,因此可以用来获得理解一个问题域并预测干预的后果。三、因为该模型具有两者的因果和概率语义,它是一个理想的用于组合现有知识表示(通常进来因果形式)和数据。四、贝叶斯统计与贝叶斯网络相结合的方法提供了一种为避免过度拟合高效和有原则的做法数据挖掘应用的数据发展农业基于贝叶斯网络受到影响Huang等。(2008)。据他介绍,贝叶斯网络是一个强大的工具,处理不确定性,并广泛应用于农业数据集。他开发了型号为农业基于贝叶斯网络学习方法的应用。结果表明,贝叶斯网络是一个可行的和高效。K均值的方法:K均值法是使用集群技术,数据挖掘。背后的想法在K均值算法很简单,某些分区以K簇中的数据,群集的中心可计算为所有属于一个簇样品的平均值。群集的中心可被看作是代表集群。该中心是相当接近所有集群中的样品。模糊逻辑:模糊逻辑是多值逻辑的一种形式从模糊集理论推导处理的推理是近似的而不是准确的。在接受“清脆的对比逻辑“,其中二进制集具有二进制逻辑,模糊逻辑变量可以具有真值是0和1之间的范围内,并且不限制在两个真值经典的命题逻辑。此外,当语言变量的使用,这些度可由特定管理功能。模糊逻辑成为1965年的结果模糊集理论由卢特菲扎德建议。虽然模糊逻辑已经被应用到很多领域,从控制理论人工智能,它仍然是争议大多数统计学家,谁喜欢贝叶斯逻辑,并跻身一些控制工程师,谁喜欢传统的二值逻辑。模糊逻辑是用于大流域土壤侵蚀的预测。遗传算法:遗传算法(GA)是搜索启发,模仿自然进化的过程。此启发式常规用于产生有用的解决方案以优化和搜索问题。遗传算法属于较大的类进化算法(EA)的,产生使用的解决方案,以优化问题技术灵感来自自然进化,如继承,变异,选择和交叉。土壤液化是一种接地故障有关地震。它发生在当内的有效应力土壤达到零,作为增加孔隙水的结果地震振动中的压力。土壤液化可造成重大损害的建筑物,道路,桥梁,水坝和生命线系统,如地震。遗传算法的方法用于评估沙质土壤。蚁群:蚁群(ACO)算法是概率性的技术来解决计算问题可归结为寻找良好通过图形路径。这种算法是蚂蚁的成员蚁群算法家庭,群体智能方法,和它构成了一些启发式元优化。论文所述第一算法旨在寻找最佳路径中的曲线图,是根据蚂蚁寻找路径的行为他们之间的殖民地和食物来源。最初的想法此后多元化解决更广泛的类数值的问题,其结果,有几个问题就出现了,借鉴蚂蚁行为的各个方面。蚁群算法应用于估算非饱和土水力参数。粒子群算法:优化(PSO)是一种方法来执行数值优化没有显式的优化问题的梯度。算法是最初归因于肯尼迪、Eberhart先生[28][54]和第一个用于模拟社会行为。该算法被简化并观察表演吗优化。条群优化(PSO)是一种方法来执行数值优化没有显式的知识优化问题的梯度。一个广泛的调查PSO应用程序。模拟退火:模拟退