证券中聚类分析数学建模

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大学生数学建模竞赛参赛作品参赛队编号:289赛题类型代码:C证券最优信息模型摘要:资本市场上存在各种各样的投资者。从投资者掌握信息的不同来看,有知情交易者和噪音交易者之分;从对风险的偏好程度来看,有风险偏好型、风险厌恶型和风险中性之分。我们认为,投资者的异质性首先体现为风险偏好程度的不同,其次体现为信息和先验知识方面的差异。因此,投资者的异质性为资本市场分层化提供了买方(需求)基础。融资者在融资需求、资本运营、风险投资退出等方面存在异质性,这为资本市场的分层化提出了要求。证券市场中没有专家,只有赢家和输家,因为影响这个市场的因素很多,导致市场变化很快,市场中的主力资金实力强大和信息灵通,他们常常利用人性的弱点(贪婪与恐惧),采取恐吓和引诱的手段,处处设置陷阱,而且有时是美丽的陷阱,引诱中小散户上当受骗,在座的各位应都有这个感受,当你卖出这个股票后,这个股票马上就会上涨,相反当自己买入后,股价就下跌,这就是主力在设置的陷阱。所以这个市场对大部份的人来说,是很难赚到钱的。但是,如果你能够掌握其中的规律,就可以很轻松的赚钱。证券市场和其他事物一样也是有规律可找的,只要你找到了规律,并运用规律,在这个市场中赚钱并不难。本文结合博雅证券研究所所掌握的一些数据资料,针对证券市场中出现的损害投资者利益的问题,建立证券中的最优信息模型,先量化分析公众投资者的个人状况、信息获取方式、媒体信任程度、风险态度,然后分别运用两种模型(多元线性回归模型,费希尔最优分割法模型)分别分析它们之间的相关性,最后向证券监管部门和公众投资者提供一些建议。关键字:最优信息模型:费希尔最优分割法模型,多元线性回归模型。聚类分析,费希尔算法,主成分分析,分层化,异质性,降维,距离,相似系数。1证券最优信息模型一、问题重述几十年来,经济改革的成就之一是我证券市场的高速发展,实现个人财产性收入已引起人们的广泛关注.投资者希望能够充分地把握各种证券信息,但发行方有时却会视公司信息为其独占信息,甚至视之为发行人的商业秘密。证券发行人为了出售证券,虽然不得不向投资者公开某些信息,但信息公开程度系以满足证券销售为最高限度。在采取信息自愿公开的时期,信息公开的范围和方式、信息公开的时间性或者时效性、信息的真实性及准确性等方面,都是站在发行人立场上作出判定的,因此,难免出现损害投资者利益的情形。现根据博雅证券研究所所掌握的一些数据资料,要求建立数学模型以解决以下问题:问题一:请量化分析公众投资者的个人状况、信息获取方式、媒体信任程度、风险态度;问题二:分析它们之间的相关性;问题三:请向证券监管部门和公众投资者提供一些建议。二、模型假设与符号说明2.1模型假设1.股市投资者由理性投资主体所组成,他们属于“风险厌恶型”。投资者只在意风险与收益的比值最小的问题。2.对风险评价的两个指标是投资收益率均值和收益率的方差。3.投资者都遵守主宰的原则。即在同一的风险水平下,希望得到的收益越高越好;而在获得一定收益的水平下,希望风险越小越好。4.未考虑投资比率系数为负的问题。由于负的投资比例意味着卖空相应的证券,而卖空行为在我国现在是很难实现的,因此考虑不允许卖空的情况。5.证券市场是有效的。即市场中每种证券的风险和收益的变动及其产生的原因都是人所共知的。6.股市价格沿趋势移动并保持趋势。价格的的变动具有惯性,即要保持原来运动的方向。7.建模时在所有的问题答卷中剔除那些相关性不大的选项如(第4个问题)以减少建模复杂度8.建模过程中的各变量是相互独立的2.2符号说明2.2.1主成分分析符号1.计算相关系数矩阵pppppprrrrrrrrrR2122221112112在上式中,rij(i,j=1,2,…,p)为原变量的xi与xj之间的相关系数,其计算公式为nknkjkjikinkjkjikiijxxxxxxxxr11221)()())((因为R是实对称矩阵(即rij=rji),所以只需计算上三角元素或下三角元素即可。2.计算特征值与特征向量首先解特征方程0RI,通常用雅可比法(Jacobi)求出特征值),,2,1(pii,并使其按大小顺序排列,即0,21p;然后分别求出对应于特征值i的特征向量),,2,1(piei。这里要求ie=1,即112pjije,其中ije表示向量ie的第j个分量。3.计算主成分贡献率及累计贡献率主成分iz的贡献率为),,2,1(1pipkki累计贡献率为),,2,1(11pipkkikk一般取累计贡献率达85—95%的特征值m,,,21所对应的第一、第二,…,第m(m≤p)个主成分。4.计算主成分载荷其计算公式为),,2,1,(),(pjiexzplijijiij得到各主成分的载荷以后,还可以进一步计算,得到各主成分的得分nmnnmmzzzzzzzzzZ2122221112112.2.2.Fisher最优分割法的聚类符号1.定义类的直径设某一类G包含的样品有1,,...,iijXXXji,记为,1,...,Giij。该类的均值向量GX:为11jGttiXXji:用,Dij表示这一类的直径,常用的直径有:3',jGGtttiDijXXXX::2.定义分类损失函数用,bnk表示将n个有序样品分为k类的某一种分法,常记分发,bnk为:11,1222,23,1,...,1,1,...,1,.................................1,...,,kkkGiiiGiiiGiin其中分点为12111...11kkkiiiniin即。定义上述分类法的损失函数为11,,1ktttLbnkDii3.,Lbnk的地推公式费希尔算法最核心的部分是利用以下俩个地推公式:2,2min1,1,,,min1,1,jnkjnLbnDjDjnLbnkLPjkDjn4.最优解的求法符号(多元回归模型)若分类数1kkn已知,求分类法,Pnk,使它在损失函数意义下达最小,其求法如下:首先找分点kj,使地推公式达极小,即,1,1,kkLPnkLPjkDjn于是得第k类,1,...,kkkGiin。然后找1kj,使它满足111,11,2,kkkkLPjkLPjkDjj得到地k-1类11,11,...,1kkkkGiij。类似的方法一次可以得到所有类12,,...,kGGG,这就是我们所求的最优解,即12,,,...,kPnkGGG总之,为了求最优解,主要是计算,;1Dijijn和,,1,LPijinijn多元线性回归预测模型的确定。为了研究方便,以下用Y代表投资者对待风险的态度,影响因素变量分别记为:x1为投资者基本信息;x2为投资者信息获取方式;x3为投资者对媒体的信任程度4.1基本信息x1投资者年龄x11(除去老年:0.926)投资者教育程度x12(大学以上:0.513)4投资者收入x13(中产阶级:0.967)投资者主要目的x14(改善生活:0.623)投资者对上市公司的了解x15(部分了解:0.844)4.2信息获取方式x2投资者投资知识来源x21(实践和杂志:0.643)投资者做投资的依据x22(经过理性分析:0.623)投资经验的可用性x23(有帮助:0.777)财经报道x24(关注度:0.727)获得信息的渠道x25(媒体:0.851)4.3媒体信任程度x3进入股市的原因x31(有盈利机会,自己决定0.526)媒体反复推荐时,投资者态度x32(不会买0.682)媒体上推荐股票的可信度x33(有道理:0.766)觉得媒体可信的原因x34(自身能力不够:0.429)各类人士的意见x35(熟悉炒股的朋友:0.351)4.4风险态度y一只股票脱手时间y1(三个月内:0.467)股票下跌,股民态度y2(静观其变:0.649)有泡沫时,所持态度y3(坚决买进:0.805)股价下跌,但目标五年,所持态度y4(不动:0.617)股价下跌,但目标三十年,所持态度y5(不动:0.422)三、问题分析3.1问题一的分析通过对统计表格的整理,分类制表,画图定性的了解大概的分布情况。3.2问题二的分析利用费希尔最优分割模型和聚类分析(可以将47问题转化成47维空间,616份样卷转化成47维空间的点观察这些点汇聚的情况并分析),也可以先将所有的47个问题间选项比率差别不大的剔除以减少实验计算麻烦度,后再将提炼出的问题分成4大类:个人状况、信息获取方式、媒体信任程度、风险态度并分别相应编号a,b,c,d。当然个人情况a包括问题1,3,6,7,8,16,17并给其相应分配变量ai,信息获取方式b包括问题9,11,25,30,31,34,37并给其分配变量bi,媒体信任度c包括问题14,15,33,35,36风险态度包括题目12,19,23,24,27,28,29,38,39,40,41,42,44,45,46,47并给其分配相应变量di(其中为了计入方便i就是相应题号)。3.3问题三的分析通过对问题一,二的综合整合与比较得出问题三。四、模型建立与求解4.1模型准备(费希尔最优分割法模型)设已知N个观测值X1,X2,…,X616(即616份调查问卷),每个观测值是一个p维向量(如本例中已提取的有用题目信息等)。聚类分析的思想是将每个观测值Xi看成p维空间的一个点,在p维空间中引入“距离”的概念,则可按各点间距离的远近将各点(观测值)归类。若要对p个变量(即指标)进行分类,常定义一种“相似系数”来衡量变量之间的亲密程度,按各变量之间相5似系数的大小可将变量进行分类。根据实际问题的需要和变量的类型,对距离和相似系数有不同的定义方法。按距离或相似系数分类,有下列方法。①凝聚法:它是先将每个观察值{Xi}看成一类,逐步归并,直至全部观测值并成一类为止,然后将上述并类过程画成一聚类图(或称谱系图),利用这个图可方便地得到分类。②分解法:它是先将全部观测值看成一类,然后逐步将它们分解为2类、3类、…、N类,它是凝聚法的逆过程。③动态聚类法:它是将观测值先粗糙地分类,然后按适当的目标函数和规定的程序逐步调整,直至不能再调为止。本例采用动态聚类法并结合费希尔最优分割模型将整个问卷调查分成4大类(个人状况、信、媒体信任程度、风险态度)并像上述分配相应问题(变量)即:而其中的ai,bi,ci,di都包括x1,x2....x616这么多的样本参数分别从a,b,c,d中取一类如:al,bn,cm,do(其中l,n,m,o为相应类问题序号),又因为前述假8,以此可作为一个4维空间而对应的616不同人的问卷可作为其中的点,构建散点图观察那些点聚在一块(以最小圆包括最多点为依据)(运用多元线性回归模型)通过对题目的分析,我们将调查表中的海量数据进行整合,在做因素分析时,将所有题目中所涉及的因素划分为已给问题中的四类,删除掉不相关因素;在做相关性的分析时,把差异不显著的题目删除。4.2问题一的的建立与求解4.2.1投资者趋向年轻化,女性占不小比率入股人年龄及性别分析调查显示,我国投资者的年龄主要集中在30岁以下,占调查总数的36%,其次是30-50岁,占比为31%,二者之和占到调查总数的近70%。60岁以上投资者仅占9.47%。难能可贵的是女性投资者占超过三成。4.2.2投资者大多这几年入市入股时间投资者从趋势可以看出约85%的投资者入市时间都在10年以内,且在这里面,有约一半的人在两年之内,这也说明了

1 / 18
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功