聚类规则在金融行业的应用分析摘要:俗话说“物以类聚,人以群分”。对事物进行分类,是人们认识事物的出发点,也是人们认识世界的一种重要方法。在自然科学和社会科学中,存在着大量的聚类问题。通俗地说,类是指相似对象的集合。聚类分析是数据挖掘中的一种重要方法。既可以作为独立的方法透视数据分布,也可以作为其他分析方法的预处理步骤。然而,聚类与分类的不同在于,聚类所要求划分的类是未知的。基于聚类规则的特点,它被广泛应用在银行、零售和保险领域等其他各个领域,例如,应用于股票市场的研究、营销策略中的客户细分等。关键词:数据挖掘;聚类规则;金融;股票市场;板块前言:俗话说“物以类聚,人以群分”。对事物进行分类,是人们认识事物的出发点,也是人们认识世界的一种重要方法。在自然科学和社会科学中,存在着大量的聚类问题。通俗地说,类是指相似对象的集合。聚类分析是数据挖掘中的一种重要方法。聚类与分类的不同在于,聚类所要求划分的类是未知的。基于聚类规则的特点,它被广泛应用在银行、零售和保险领域等其他各个领域,例如,应用于股票市场的研究、营销策略中的客户细分等。正文:聚类规则在金融行业的应用分析近年来,计算机应用范围日益扩大,数据库技术和挖掘技术的不断发展,因此利用信息技术生产和搜集数据的能力大幅度提高,人类所拥有的数据急剧增长,各种大型数据库被广泛应用于各行各业,而且这一势头将继续发展下去。一般来说,数据挖掘是指从数据库或数据仓库中发现隐藏的、预先未知的、有趣的信息的过程,该过程可以看作是知识发现过程中的一个核心步骤。而聚类规则挖掘是数据挖掘中最活跃的研究方法之一。本文就数据挖掘中的聚类规则及其在金融行业的具体应用进行详尽的分析与说明。一、聚类聚类是把对象或样本的集合分组成为多个簇的过程,使同一个组中的对象具有较高的相似度,而不同类的对象差别较大。相异度是根据描述对象的属性值进行计算的,距离通常采用相异度度量方式。在许多应用场合,可以把一个簇中的对象作为一个整体对待。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。二、聚类规则的概念聚类规则就是通过对样本或指标进行量化分类,讨论的对象是大量的样品,要求能按各自的特性进行合理的分类。其目标就是在相似的基础上收集数据来分类。聚类规则是一种重要的人类行为。早在孩提时代,一个人就通过不断地改进下意识中的聚类模式来学会如何区分猫和狗,或者动物和植物。三、聚类规则的分析聚类规则是一个富有挑战性的研究领域,它的潜在应用提出了各自特殊的要求。数据挖掘对聚类的典型要求如下:可伸缩性、处理不同类型属性的能力、发现任意形状的聚类、用于决定输入参数的领域知识最小化、处理噪声数据的能力、对于输入记录的顺序不敏感、高维性、基于约束的聚类、可解释性和可用性。建立模型:设有n个样品,p个指标,每个样品都有这p个指标的观察值,设第i个样品的第j个指标的观察值为xij,把n个样品看成p维空间中的n个点,则两个样品间亲疏程度可用p维空间中两点的距离来度量。令dij表示样品xi与xj的距离。定义距离公式——明考斯基距离,即:dij(q)=[∑|xik-xjk|q]1/q当q=1时,明考斯基距离变为曼哈顿距离:dij(1)=∑|xik-xjk|当q=2时,明考斯基距离变为欧几里得距离:dij(2)=[∑|xik-xjk|2]1/2聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照他们在性质上的亲疏程度进行分类叫。凡是具有数值特征的变量和样品都可以采用系统聚类方法,选择不同的距离和聚类方法可以获得满意的数值分类效果。聚类分析法是把个体逐个地合并成一些子集,直至整个总体都在一个集合之内为止。其分类步骤如下:(1)聚类前先对数据进行变换处理。(2)聚类分析处理的开始是各样品自成一类(n个样品一共有n类),计算各样品之间的距离,并将距离最近的两个样品并成一类。(3)选择并计算类与类之间的距离,并将距离最近的两类合并,如果类的个数大于1,则继续并类,直至所有样品归为一类为止。(4)最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。四、聚类规则在股票中的应用分析随着我国市场经济建设的高速发展,人们的金融意识和投资意识日益增强,而作为市场经济的组成部分—股票市场,正逐步走向成熟与规范,越来越多的投资者把眼光投向了股票,历史已经证明股票是一种不仅在过去已提供了投资者可观的长期利益,并且在将来也将提供良好机遇的投资媒体。然而,股价涨跌无常,股市变幻莫测,投资者要想在股市投资中赢取丰厚的投资回报,成为一个成功的投资者,就得认真研究上市公司的历史、业绩和发展前景,详细分析上市公司的财务状况,树立以基本分析为主,技术分析为辅的投资理念,找出真正具有投资价值的股票,进行长期投资。板块是指具有共同特征的股票群。股市中的板块可以从行业和产业、地域、时间、特殊题材等多种角度来划分,而在每一板块中又有几十种甚至上百种股票。面对众多股票及每个公司的众多财务数据,可以使用多元统计分析中的系统聚类分析方法,客观、全面、准确地分析并选出各板块及板块内的绩优龙头股和潜力股。下面就以一个具体的案例进行简单解释分析。选取40家石油化工板块的上市公司、根据2004年度证券中期报告中的信息及数据,选择每股收益、每股净资产、净资产收益率、每股资本公积金4项财务指标,对这些公司股票进行了聚类分析,试图将它们进行分类,为股票的分析和选择提供决策依据。数据如表1所示,资料来源上市公司中期报告。序号股票代码每股收益/元每股净资产/元净资产收益率%每股资本公积/元16009850.083.212.471.9326008850.031.621.840.4836007920.402.2417.730.5746007640.031.601.950.1256007270.136.172.172.5466007400.574.2313.421.5076007220.072.402.870.7086006360.262.1612.190.5596006180.062.522.561.34106004090.143.004.751.59116003670.192.697.190.97126003520.151.858.150.48136003390.101.975.010.71146003310.153.644.131.57156003280.061.962.830.75166003190.063.311.782.10176003090.331.6919.590.05186003010.223.117.001.75196002990.153.594.091.94206002810.063.052.031.65216001410.042.931.261.32226000910.125.642.083.63230009850.033.450.852.18240009790.044.910.883.74250009530.051.204.020.15260008610.011.790.610.77270008300.143.763.641.60280008220.194.244.411.94290008180.003.400.102.20300007630.192.168.580.93310007550.013.440.391.78320007370.023.100.611.60330007280.162.965.391.96340006980.063.431.891.32350006860.052.791.881.70360006770.323.1010.241.01370006370.101.725.990.04380006350.201.2915.650.07390006180.171.0915.580.64400005980.043.671.131.52表12004年度40家上市公司4项财务指标根据以上数据可以进行如下聚类分析:首先将每个样本当作一类,然后根据样本之间的相似程度并类,并计算新类与其它类之间的距离,再选择相近者并类,每合并一次减少一类,继续这一过程,直到所有样本都并成一类为止。图1聚类谱系图聚类谱系图直观地显示了这一聚类的过程,从图1上可以清楚的看出各种股票的归属。根据选择距离的不同可以根据图形对股票进行新的分类,另外根据聚类谱系图可以清晰地看出每一种股票的原始分类及其聚类过程,可以了解各种股票的亲疏关系程度。同样,可以利用spss统计分析软件中的聚类功能,选用欧氏距离来度量类与类之间的相似程度,聚类方法采用类平均法。通过计算机的计算,聚类分析结果如下(假设将样品分成4类):第一类:{000635,000618,600792,600309};第二类:{600636,000677,600740};第三类:{1600352,000763,600367,600301};第四类:{1600281,000686,600319,600985,000698,000755,000737,000985,000818,600141,000598,600885,600764,600722,600328,600618,000861,600409,000728,600331,600299,000830,000822,600339,000637,000953,600727,600091,000979}。由以上聚类结果可以知道:第一、二、三类公司在经营规模、经营实力、技术水平等方面具有一定优势,竞争能力强,经营业绩优良,综合财务状况良好,属石油化工板块的绩优龙头股,具有发展潜力和长期投资价值,是石油化工板块中投资者的首选投资对象。其中第一类的000635,000618,600792,600309净资产收益率在15%以上具有较强的资本积累能力和较高的成长性,但其负债较高。第二类的600636,000677,600740每股收益较高,具有较强的获利能力。第三类的600352,000763,600367,600301综合能力较强,财务指标较好。然而第四类公司业绩一般,投资者应谨慎介人,可多加观望。基于上述聚类规则在股票中的应用,可以看出,将多项财务指标样本经过一系列的聚类分析,通过改变样本间的距离,最终将同样属性和指标的数据聚集到一起,得出相应数据组的数据特性,为投资者提供更好的投资方向和范围,可以大幅降低投资风险。结论:聚类是把对象或样本的集合分组成为多个簇的过程,使同一个组中的对象具有较高的相似度,而不同类的对象差别较大。聚类分析是数据挖掘中的一种重要方法,是一种无监督学习。它既可以作为独立的方法透视数据分布,也可以作为其他分析方法的预处理步骤。也是一个富有挑战性的研究领域,它的潜在应用提出了各自特殊的要求。因为前两次论文也是金融行业,我写的又分别是银行和保险,所以这次想找一个不一样的领域进行研究。考虑到现在股票市场热度很强,父母以及周围同学都有涉及这一方面,所以这次我选择了股票市场中利用聚类规则分析股票风险的案例,用以说明聚类在金融行业的应用、选取那些数据、经过怎样的分析、得到怎样的结果、为投资者进行投资提供了哪些方向。聚类分析能综合多项财务指标来反映上市公司的盈利能力和发展水平,为分类和评估公司的优劣提供了很好的依据。参考文献:JiaweiHan、Michelinekamber著范明、孟小峰等译.数据挖掘概念和技术.:机械工业出版社,2001年赵卫东.商务智能(第二版):清华大学出版社,2011年朱建平.应用多元统计分析(第二版):科学出版社,2012年党耀国米传民钱吴永.应用多元统计分析:清华大学出版社,2012年股票案例参考:李庆东.聚类分析在股票分析中的应用:《辽宁石油化工大学学报》2005年25卷第3期