金金工点评公司研究财通证券研究所2019年03月17日数据异常值处理:比较与实践计算机软件与服务证券研究报告金融工程投资要点:数据异常值处理:比较与实践在进行回归分析或因子相关性分析时,因子暴露的异常值可能会极大影响回归系数和数据的相关系数。常用的异常值处理方法有均值标准差修正法、固定比率修正法、中位数去极值法、BeatG.Briner方法、因子排序值标准化法、箱形图法和无量纲处理方法,这些方法各有优劣。相较于价量因子,财务数据特别是增长率类数据所含的异常值更多。经实证检验,对于各类数据而言,中位数去极值法和箱形图法是更为稳健的方法。相较于传统的OLS回归法,基于分位数回归的方法更不容易受极端值影响,且能够更为全面地描述被解释变量条件分布的全貌。市场风格解析整体来讲,在过去的一个月中,高Beta、高波动的股票能够获得相对较高的收益,而大规模、前期涨幅过高的股票后市走势将会出现更为明显的回撤。指数风险预测所有样本指数在未来一个月的年化波动区间在21%-31%之间,相较上周出现小幅攀升,财通金工特别提醒投资者注意当前市场的波动情况。指数成分收益归因上周市场风格并不明朗,在表现占优的三只指数中,有以大盘、价值为代表的380价值指数,也有以中小盘、成长为代表的中证800指数,而在表现较差的三只指数中,有以大盘为代表的超大盘指数,也有以小盘为代表的创业板指数。风险提示:本报告统计结果基于历史数据,过去数据不代表未来,市场风格变化可能导致模型失效。财通证券研究所“拾穗”多因子系列报告(第5期)请阅读最后一页的重要声明以才聚财,财通天下证券研究报告联系信息陶勤英分析师SAC证书编号:S0160517100002taoqy@ctsec.com021-68592393张宇联系人zhangyu1@ctsec.com176216888421021-68592220相关报告【1】“星火”多因子系列(一):《Barra模型初探:A股市场风格解析》【2】“星火”多因子系列(二):《Barra模型进阶:多因子模型风险预测》【3】“星火”多因子系列(三):《Barra模型深化:纯因子组合构建》【4】“拾穗”多因子系列(一):《带约束的加权最小二乘:一种解析解法》【5】“拾穗”多因子系列(二):《你看到的不一定是你所想的:解密R方》【6】“拾穗”多因子系列(三):《行业因子选取:中信一级还是申万一级?》【7】“拾穗”多因子系列(四):《总市值、流通市值、自由流通市值:谈谈取舍》谨请参阅尾页重要声明及财通证券股票和行业评级标准2证券研究报告金工点评内容目录1、数据异常值处理的常用方法比较与实践..................................31.1初识:异常值的危害.....................................................31.2探析:常用异常值处理方法介绍...........................................41.3比较:异常值处理方法的优劣性分析.......................................81.4检验:不同方法对于不同类别数据处理结果.................................91.5规避:基于分位数回归的方法............................................131.6小结..................................................................142、一周行情回顾....................................................153、市场风格解析及指数风险预测........................................163.1市场风格解析..........................................................163.2指数风险预测..........................................................184、指数成分收益归因:...............................................195、附录...........................................................21图表目录图1:单季度净利润同比增长率VS单季度营业收入同比增长率........................3图2:异常值处理的主要方法介绍.................................................4图3:箱形图处理方法示意图.....................................................6图4:单季度净利润同比增长率散点图............................................10图5:单季度净利润同比增长率因子异常值处理后对比图............................10图6:资产负债率因子散点图....................................................11图7:资产负债率因子异常值处理后对比图........................................11图8:对数市值因子散点图......................................................12图9:对数市值因子异常值处理后对比图..........................................12图10:分位数回归与OLS回归结果对比...........................................13图11:上周主要指数收益(2019.3.8-2019.3.15).................................15图12:上周中信一级行业指数收益(2019.3.8-2019.3.15).........................15图13:近两周纯风格因子收益比较(2019.3.1-2019.3.15).........................16图14:最近一个月风格因子净值走势(2019.2.13-2019.3.15)......................17图15:最近一个月风格因子累计收益(2019.2.13-2019.3.15)......................17图16:财通金工样本指数未来一月波动预测(年化)(2019.3.15-2019.4.12).........18图17:收益回归/风险预测样本股票占指数成分股比率..............................18图18:上周表现最好三指数因子暴露度...........................................19图19:上周表现最差三指数因子暴露度...........................................19表1:各种方法处理后两列数据相关系数...........................................4表2:上周纯风格因子收益(2019.3.11-2019.3.15)...............................16表3:指数在风格因子上的暴露程度(2019.3.15).................................20谨请参阅尾页重要声明及财通证券股票和行业评级标准3证券研究报告金工点评在实际投资中,多因子模型被广泛地应用到资产定价、绩效归因、风险控制、组合优化、基金评价及资产配置等各个领域,一套完整、精细的多因子系统成为每位量化研究者必备的工具。“做最实用的研究”,是财通金工给自己的定位。我们将在之后的系列报告中,就投资者们最关心也最容易忽略的很多细节问题进行探讨,介绍我们在实际应用中遇到的问题和思考,以飨读者。我们为本系列报告取名“拾穗”。一周市场风云变幻,和风细雨也好,狂风骤雨也罢,都留下一地故事等待梳理。作为勤劳的搬运工,财通金工从量化视角出发对市场风格进行捕捉、对风险水平进行预测,既是希望能够如拾穗者般专心、踏实地做研究,也是祝愿各位投资者能够在市场收获满地金黄。本期是该系列报告的第五期,主要就数据处理过程中异常值的识别及处理方法进行介绍,并在实证检验中探讨对于不同类别的数据(如财务类因子和价量类因子),何种方法更为合适。1、数据异常值处理的常用方法比较与实践如果将整套量化系统比喻成一座宫殿,那么数据就是构建这座宫殿的基石。在现实研究中,这些基石并不总是令人满意,它们或大或小、或有或无,如何根据设计师的设想对这些基石进行雕琢,便是每位量化研究者的基础工作。异常值的存在对于数据集所含的信息会造成哪些损害?常用的异常值识别及处理方法有哪些?这些方法的优劣及适用范围究竟如何?即便存在异常值,是否有一些特定方法对此进行规避?本文将围绕上述问题展开讨论。1.1初识:异常值的危害在实际研究中,如果数据集的极值与异常值较多,可能会导致多因子模型在进行回归及相关性分析时误差较大。在处理因子暴露数据时,容易出现一些极端的异常值数据,或是不太符合实际的极端值,因此对极端值和异常值的识别和处理便显得尤为重要。当我们进行回归分析或因子相关性分析时,因子暴露的异常值可能会极大影响回归系数及相关系数。图1:单季度净利润同比增长率VS单季度营业收入同比增长率数据来源:财通证券研究所,Wind谨请参阅尾页重要声明及财通证券股票和行业评级标准4证券研究报告金工点评财通金工以单季度净利润同比增长率(YOY_Profit)和单季度营业收入同比增长率(YOY_Sales)为例对此进行说明,这两个指标是构建股票成长类因子(Growth)的细分因子。从直观含义来讲,二者之间应该存在同向的相关关系,对其绘制散点图如图1左上角所示。与一般的价量因子不同,财务因子特别是增长率因子,通常是将本期指标与前期指标相除减1得到,若期初数据过小而本期经过较大幅度的增长,那么增长率数据将会求得一个异常大的数值。因此,增长率类的因子通常并不服从正态分布,且更容易出现极端值。由如图1左上角可以看到,由于两列数据都存在极端异常值,散点图无法看出二者之间的相关关系,经计算二者相关系数仅为0.0025,若仅凭该指标来判断,二者几乎不存在相关关系,这显然与我们的预期不符。如果把原始数据中的异常值用几种不同的方法进行处理,从散点图和Pearson相关系数中可以发现数据之间相关性明显增大,且经过中位数去极值法和箱形图方法处理异常值后数据呈现的相关关系更加明显。表1:各种方法处理后两列数据相关系数处理方法原始数据均值标准差修正法固定比率修正法中位数去极值法BeatG.Briner箱形图法相关系数0.00250.02560.28790.33690.02370.3428数据来源:财通证券研究所,Wind1.2探析:常用异常值处理方法介绍本小节就实际投资和相关文献中,异常值处理常用的均值标准差修正法(3σ法)、固定比率修正法(百分位法)、中位数去极值法(MAD法)、BeatG.Briner方法、因子排序值标准化法、箱形图方法和无量纲化处理方法进行介绍。图2:异常值处理的主要方法介绍数据来源:财通证券研究所谨请参阅尾页重要声明及财通证券股票和行业评级标准5证券研究报告金工点评(1)均值标准差修正法(3σ法)假定已知数据x服从正态分布,现在需向该数据集中新增一个数据,那么该数据位于数据集平均值3𝜎以外的概率可以表示为:𝑃(|𝑥−𝜇|3𝜎)=𝑃(|𝑥−𝜇𝜎|