基于计算动词决策树的股市数据分析答辩人:刘夏莹学号:22220051204121指导老师:杨涛决策树小组的分工情况:周悦颖:传统决策树的动词化张娓娓:计算动词决策树的设计刘夏莹:基于计算动词决策树的股市数据分析动词决策树提出的背景:静态动态计算动词改进的ID3算法:更实用于计算动词决策树信息熵动词熵,信息增益动词信息增益根据当天的股票走势通过股票的动词决策树对第二天的股票走势进行预测。0.3%2卖出价买入价交易费用股票的交易费用股票的交易买空:在当天开盘时买入后在当天收盘时卖出,即以开盘价买入,收盘价卖出。则该天挣的钱为收盘价-开盘价-交易费用。卖空:在当天开盘时卖出后在当天收盘时买入,即以开盘价卖出,收盘价买入。则该天挣的钱为开盘价-收盘价-交易费用。暂停:在当天不对股票进行交易。则该天挣的钱为0。股票的预测看多:预测第二天的股票走势为上升。看空:预测第二天的股票走势为下降。看平:预测第二天的股票走势为保持。对DATAtree初步处理并得正确顺序的数据库股票目标结果的确立求得各子类股票走势模板的模板值导入数据库DATAtree确定各天股票走势的子类类型求各组股票数据的相似度结束计算各子类的各种目标结果的个数并进行比较得到股票的动词决策树开始DATAtree=表一表二对DATAtree初步处理并得正确顺序的数据库股票目标结果的确立求得各子类股票走势模板的模板值导入数据库DATAtree确定各天股票走势的子类类型求各组股票数据的相似度结束计算各子类的各种目标结果的个数并进行比较得到股票的动词决策树开始上升:当即时定义股票走势为上升,V2为最低价,V3为最高价。下降:当即时定义股票走势为下降,V2为最高价,V3为最低价。保持:当即时定义股票走势为保持,V2为最高价,V3为最低价。股票走势的初步分类0.3%2V4V1V1-V4V420031997V10.3%2V4V1V4-V1V419972003V10.3%2V4V1V1-V40.3%2V4V1V419972003V1V420031997假设当天股票数据出现的顺序为V1、V2、V3和V4并假设它们等时间间隔出现。V1为开盘价,V4为收盘价。表三表四表五对DATAtree初步处理并得正确顺序的数据库股票目标结果的确立求得各子类股票走势模板的模板值导入数据库DATAtree确定各天股票走势的子类类型求各组股票数据的相似度结束计算各子类的各种目标结果的个数并进行比较得到股票的动词决策树开始股票目标结果的确立表六表七股票的目标结果是指对第二天股票走势的预测。对DATAtree初步处理并得正确顺序的数据库股票目标结果的确立求得各子类股票走势模板的模板值导入数据库DATAtree确定各天股票走势的子类类型求各组股票数据的相似度结束计算各子类的各种目标结果的个数并进行比较得到股票的动词决策树开始假设有两点D1和D2,若要D1和D2的值完全相等,概率很小,所以我们定义若时D1和D2相等。情况一:当并且时;情况二:当并且时;情况三:当并且时;情况四:当并且时。V219972003V1V220031997V419972003V3V420031997V219972003V1V220031997V419972003V3V420031997V219972003V1V220031997V419972003V3V420031997V219972003V1V220031997V419972003V3V420031997D219972003D1D220031997某子类模板的模板值依次为T1、T2、T3和T4。股票走势的模板值模板值算法一:平均值ⅰ、如果m=0,则该股票走势道德模板值为T1=0、T2=0、T3=0和T4=0。ⅱ、如果m0,则求平均值模板值算法二:平均值和直方图ⅰ、如果m=0,则该股票走势道德模板值为T1=0、T2=0、T3=0和T4=0。ⅱ、当0m≤6时,该股票走势的模板值的算法为模板值算法一。ⅲ、当m6时,该股票走势的模板值的T1的算法如下:对1到m组股票数据中的G1做直方图,该直方图的区间为S,S为m/3后向最近整数取整后的整数。T1为该直方图中出现的个数最多的区间的中间值,若该直方图中个数最多的区间大于一个,则T1取中间值最小的那个。T2、T3和T4的求法如T1。模板值算法一表八对DATAtree初步处理并得正确顺序的数据库股票目标结果的确立求得各子类股票走势模板的模板值导入数据库DATAtree确定各天股票走势的子类类型求各组股票数据的相似度结束计算各子类的各种目标结果的个数并进行比较得到股票的动词决策树开始相似度算法相似度算法一:如果T1=0,则S=0;如果T1≠0,则相似度算法二:如果T1=0,则S=0;如果T1≠0,则其中,T3-T4G3-G4e12T2-T3G2-G3e12T1-T2G1-G2e12T1-G1e12S313S2S1SST1-T2G1-G2e12T1-G1e121ST2-T3G2-G3e12T2-G2e122ST3-T4G3-G4e12T3-G3e123S距离趋势趋势趋势趋势距离相似度算法一确定各天股票走势的子类类型表九表十表十一对表十进行统计,可得每个子类的预测结果根据流程图可得股票的动词决策树应用某天股票的数据为:5.996.165.555.79则判断该天的股票走势的母类为下降下降1对第二天的股票走势预测为看多,所以第二天的股票交易动作为买空。第二天的股票数据为:5.716.085.75.795.79-5.71-(5.79+5.71)*0.003/2=0.0628设计股票的动词决策树的方案使用模板值算法一计算模板值,相似度算法一计算相似度。使用模板值算法一计算模板值,相似度算法二计算相似度。使用模板值算法二计算模板值,相似度算法一计算相似度。使用模板值算法二计算模板值,相似度算法二计算相似度。股票的动词决策树在现实中的应用表十二谢谢!模板值算法一:平均值上升3的T1、T2、T3和T4.表十三上升3模板值算法二:平均值和直方图mDATAatrt=7[A,B]=hist(DA,round(mDATAatrt/3));△=(0.99528-0.93718)/2=0.029050.937180.966230.99528A=[34]B=[0.951710.98076]T2=0.98076T1=1T3=1.1113T4=1.1113表十四=2DA△△上升3RES=[1221;1211;2113]动词熵:动词相似度的不确定性通过它来度量计算动词V关于U(含m个计算动词的集)的动词熵被定义为:返回,1log,1,log,,121121mVVSmVVSmVVSmVVSUVHmiimiimiimii实用于动词决策树的计算动词相似度:度量观察到的时间序列与模板计算动词的进化函数有多相似。xxxxV00,000,iiiixxV0001212,ixiieeVSxxxVc合成的计算动词相似度定义设计如下:距离趋势和间返回动词信息增益:节点选择动词信息增益最大的属性mVVVA,...,1miifatherVHmVHAG1,1,,,fatherVH,iVH令为含有n个训练样本的集合{{xi}1,…….,{xi}n},{xi}i是一个时间序列那么动词信息增益:其中和i=1,…,m,由动词熵公式得出。返回令A为一个属性:vpAVvtjTV:tjpVV,,10,0其它tjixAiptjtjxVSs,,10,0其它tjixAiptjtjxVSs对每个计算动词和,计算下面两个参数:||和||来代表和中元素的数量tjtjtjtj叶节点选择目标结果s选择能得到最大参数的属性值作为叶节点下一步