金融数据挖掘

lousecn2008
1 ℃
2020-02-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第一章：概论一、何为数据挖掘（datamining）现代信息社会的特征：信息（数据）泛滥、知识缺乏，如何从海量数据（广义的概念）中挖掘出决策有用信息？数据挖掘是结合现代数学、统计学，机器学习、人工智能、数据库管理、计算机图形学、软件工程等各领域的技术和知识，1990年代在西方国家出现的一种高新技术——从海量数据中挖掘出决策有用信息的技术。1990年代末，在对100名美国著名科学家的问卷调查中，数据挖掘被列为21世纪对人类发展影响最大、最有前途的10大技术的第三位。我国对数据挖掘技术的重视（开发与应用）1、863、963项目；2、国家及省重点科学领域；3、国家统计局在全国组织数据挖掘培训（2000）；4、企业特别是银行对数据挖掘技术的重视；5、人民大学数据挖掘研究与应用中心。海量数据——沙漠，隐含的知识——金子，数据挖掘——从沙漠中挖掘金子的技术。二、不同学科对数据挖掘技术的研究与开发1、理论研究——各种数据挖掘技术的理论基础、理论依据研究，从数学、统计学、人工智能、计算机图形学等不同领域；2、挖掘技术研究，从统计学、人工智能、机器学习、计算机图形学、软件工程等领域；3、数据管理策略研究，从数据库管理技术等领域；4、数据挖掘技术的应用研究，其中数据挖掘技术在金融领域的应用是一个重要方面。三、几种相对比较成熟的数据挖掘技术数据挖掘是一门新兴的、正在不断发展中的技术，近年来，几类十分重要、且相对比较成熟的数据挖掘技术是：1、分类与预测2、特征化、比较与关联规则挖掘3、聚类分析4、序列发现本课程主要内容：几类数据挖掘技术的基本原理、数据挖掘方法、及这些挖掘技术在金融领域的应用。第二章：分类与预测一、分类与预测的概念1、分类已知离散的、有限的几个类，判断或预测样本属于那个类。*某人否具有某种疾病*上市公司是否会陷入财务困境、是否会被外资并购*借款人是否会违约*这个客户是否为银行的潜在优质客户、是否会转向其他银行用y表示类变量，y取离散的几个值，分类就是判断或预测样本的y究竟取什么值2、预测预测是指对连续性变量的取值进行预测，如：*某个借款人的违约概率是多少*银行资产组合明天在99%置信度下的最大损失（VaR）有多大*如果某开放式基金因面临巨额赎回申请而不得不大量抛售某种证券，这种证券的价格会下跌多少分类——对离散型变量进行预测预测——对连续型变量进行预测二、分类案例教学——上市公司财务困境预测模型构建1、要求：将因财务状况异常而被特别处理的ST公司界定为财务困境公司、非ST公司界定为财务正常公司，利用上市公司的财务报表数据，建立上市公司财务困境预测模型（提前一年预测，即用第t-2年的数据预测企业在第t年是否会陷入财务困境）。分类变量y的取值y=0如果公司为财务困境公司y=1如果公司为财务正常公司2、类似案例：*外资并购目标公司预测*防信用卡诈骗预警系统*银行客户关系管理*税务稽核3、数据来源：CSMAR数据库1990-2004资产负债表、损益表，1990-1997财务状况变动表1998-2004现金流量表4、报表变动情况：1994年合并会计报表1998年资产减值准备5、研究所需数据①、预测变量选取——实践经验、其他文献使用的预测变量、采用技术手段（统计技术、数据挖掘技术）选取预测变量、在一定理论指导下构造新的预测变量；②、样本数据的结构形式③、采集样本数据时应注意的问题*尽量采用跨年度数据*需要删除的数据*尽量不采用配对抽样④、随机构造的训练样本组与检验样本组（过度拟合现象）⑤、本案例的数据说明（sj0）：*1995年底前上市的公司；*删除其他原因被特别处理的公司；*数据跨期1996-2001，分别预测1998-2003；*删除在预测年度已陷入财务困境的公司；*共有非ST公司数据1008个，ST公司数据111个；*采用的6个预测变量为（第一种方法）：总负债/总资产、主营业务收入/总资产、总利润/总资产、（货币资金+短期投资净额）/流动资产、留存盈余/总资产、总资产的自然对数。⑥、随机抽样构造训练样本组、检验样本组的SAS方法：*将EXCEL数据库转为SAS数据库；*SAS随机数函数——uniform（seed），随机种子数seed取奇数，产生[0，1]区间上的一个随机数*随机建立训练样本组、检验样本组的SAS程序#dataa；setsasuser.sj0;k=uniform(15);run;#对已进行k排序的数据库adatab;seta;m=int(_n_/2);run;（sj1，sj2）二、构造分类预测模型的方法1、判别分析法①、判别分析方法的统计学原理假设有两个总体——财务困境公司与财务正常公司，每个总体都可以用一个六维随机变量表示，不同的总体分布不同。预测上市公司是否会陷入财务困境，就是判断这个公司所对应的样本属于哪个总体。判别分析是利用距离（相似程度的体现）来判断样本的归属。较常用的距离度量是马氏距离：，判别分析实际上是利用距离差：为判断指标来判断样本的归属。由于马氏距离为一个二次型，因此当时，距离差也会一个二次型，这样在计算时较复杂，如果，且两个总体均服从正态分布，则距离差为一个线性函数（线性判别函数），可利用这个线性函数建立预测规则。②、判别分析的SAS程序：procdiscrimdata=sasuser.sj1;classy;run;③、SAS结果对两个距离的说明。现在可以得到线行判别函数为：④、如何建立预测规则*指标的判断：正指标还是负指标（正指标）。*根据两种误判的损失估计确定合适的临界值现在根据使两种误判尽可能接近的方法，得到：临界值：d=1.2⑤、预测规则：对每个上市公司计算对应的d，若d＞1.2，则判断其一年后不会陷入财务困境；若d＜1.2，则判断其一年后会陷入财务困境。⑥、预测准确率检验：训练样本组检验样本组ST公司：49/56=87.5%47/55=85.4%非ST公司:442/504=87.7%432/504=85.7%⑦、讨论*判别分析只能运用于离散型因变量预测，而不能运用于连续型因变量预测；*建立线性判别准则，需要较强的限制条件——正态分布与等协方差矩阵；*临界值的确定需考虑不同误判的损失函数，考虑使用者的风险偏好；*使用判别分析方法，需要事先确定预测变量。*也可以建立另外形式的预测规则。练习：交换sj1与sj2的地位，建立预测规则，并进行预测准确率检验。或建立其他问题的判别分析预测模型。2、Logistic回归预测①、统计学原理计量经济学中，回归模型具有预测功能，但现在的数据结构为：，因变量为离散变量（虚拟变量），一般的线性回归模型不适用。Logistic回归模型实际上是概率预测模型，其原理如下：建立如下形式的线性模型：则得到概率预测模型Logistic回归模型为非线性模型，模型的参数估计不能用最小二乘法，而采用极大似然估计法。②、Logistic回归的SAS程序proclogisticdescendingdata=sasuser.Sj1；modely=x1-x6;run;③、SAS结果④、临界值确定与预测规则临界值:0.09,预测规则:P＞0.09,一年后上市公司将陷入财务困境;P＜0.09,一年后上市公司不会陷入财务困境.⑤、预测准确率检验训练样本组检验样本组ST公司46/56=82.1%44/55=80%非ST公司433/504=85.9%425/504=84.3%⑥、讨论*模型可用于分类预测，也可用于概率预测（如违约率预测）；*构建模型时应该避免非随机抽样，否则模型参数估计会产生偏差，特别是在构建概率预测模型时；*如果需要采用分层抽样方法，则对参数估计方法应进行调整；*事先确定预测变量，否则的话，可以采用逐步回归法。⑦、逐步回归方法与预测变量选取预测变量选取是建立分类预测模型的关键步骤。经常的情况是，知道预测变量的大致范围，但不知哪些变量具有较大的信息含量。利用逐步回归方法，可以在这个范围内挑选出较佳的构建Logistic回归模型的预测变量组。现在，另外选取了15个可能有用的预测指标y1-y15，对1119家上市公司利用逐步回归法建立预测模型。⑧、逐步回归的SAS程序proclogisticdescendingdata=sasuser.sj00;modely=y1-y15/selection=stepwise;run;⑨、SAS结果构建Logistic回归模型的变量为：y3、y4、y5、y6、y10、y11、y12、y13、y14；⑩、预测规则与预测准确率预测规则：P＞0.09,一年后上市公司将陷入财务困境;P＜0.09,一年后上市公司不会陷入财务困境。预测准确率ST公司：92/111=82.9%;非ST公司：864/1008=85.71%.3、Probir回归预测数据结构为：，因变量为离散变量（虚拟变量），一般的线性回归模型不适用。Probit建立如下形式的回归模型：Probit回归同样通过最大似然估计来估计模型参数。Probit回归的SAS程序procprobitdata=sasuser.sj1;classy;(注意Logistic程序中没有这一项)modely=x1-x6;run;),,,,(262221ttttyxxx)()|1(661100xxxyPP经计算得到:预测规则:P0.1一年后上市公司将陷入财务困境，或者就不会陷入财务困境。预测准确率：训练样本组检验样本组St公司：46/56=82.146/55=83.6非St公司：428/504=84.9419/504=83.1)()|1(145.1489.4571.811310.28754.3454.6315.30654321zxyPPxxxxxxz4、决策树方法与前面讨论的几种分类预测方法相比，决策树方法是一种近年来才出现的分类预测方法，其基本原理如下。①、熵与信息增量的概念熵为一个统计学概念，设y为一个状态随机变量，其熵的定义为：在统计学中，熵是不确定性的度量，一个分类随机变量的熵越小，其不确定性就越小，对其的预测就越准确。从信息学的角度看，如果利用一个变量后，可以减少分类变量的熵，则该变量对分类预测就具有信息价值，熵的减少量越大，该指标用于预测的信息价值也就越大。iippyIppppyIlog)(loglog)(2211②、信息增量的概念设x为某个指标，选取一个，按照条件是否满足，可以将样本分为两组，分别计算各组中y的熵，指标x的信息增量定义为：其中，分别表示两组样本所占的比重。显然，这样计算的信息增量与的取法有关，对每个指标，通过计算机搜索，可以找到一个最佳的，使其对应的信息增量达到最大。对每个指标，我们都可以计算其信息增量，这样我们就知道哪个指标对分类预测的信息含量最大。0x0xx)(),(21yIyI)]()([)()(2211yIqyIqyIxgain21,qq0x0x③、分类预测方法——决策树方法利用信息增量的概念，数据挖掘中创造了一种分类预测的决策树方法，其基本的思路是反复地利用信息增量方法进行样本分割，直到不能再分割、或者达到事先的约定为止。然后沿着决策树的树系结构，我们就可以写出决策树方法的预测规则。决策树的预测规则由由一系列的预测结论组成。④、如何利用数据挖掘软件建立决策数预测模型*建立发掘数据库将SAS数据库转化为Excel数据库；对Excel数据库的格式进行变化（格式/单元格/数值），并将Excel数据库文件另存为带格式文本文件；将其拷贝入数据挖掘子目录home下；创建发掘数据库；*建立决策树模型打开发掘数据库；建立决策树模型，对模型的预测准确性检验检验；写出预测规则。⑤、值得注意的问题*构建决策树是不能过分拟合样本数据；同样需要建立训练样本组与检验样本组；*为避免出现挖掘过分追求总体预测准确率的现象，可采用适当接近两类样本比率的方法；*可以利用决策树方法发掘各指标预测财务危机的信息含量排序；*结合决策树与信号噪音比方法可得到预测指标信息含量的度量方法，构造新的预测方法。