常见量化投资数据源《量化投资分析》国泰安信息技术有限公司研究创新中心资金来源-营销和融资模型来源-技术团队管理公司盈利模式设计量化投资的模块构建金融信息概述什么是金融信息?金融信息是影响金融投资行为和金融市场发展的信息。具有可度量、可处理、可存储性质;具有海量、有效性、传染性、对资产价格产生影响等特点。2金融信息的重要性量化投资成功三要素“质量、经验、运气”,量化投资对于数据的高质量要求首当其冲。数据决定了量化投资各个环节——市场、标的、策略、语言……量化投资三部曲——数据准备(50%),策略编写(30%),策略调优(20%)3金融信息分类按形式分类金融信息•数字形式文本形式按来源分类金融信息•政府机构公司公告机构和媒体信息按内容分类金融信息•宏观经济信息行业信息公司信息•技术面信息行为偏差信息高频数据信息•金融衍生信息4常见量化投资数据源•1.基本面数据•2.历史高频数据•3.实时数据数据源•CSMAR•Wind•....数据供应商•客户端提取数据•API提取数据用户在金融量化投资领域,数据是人们研究金融现象的纽带和通道。策略开发人员往往先应用历史数据对策略进行历史回验,策略调整至有效后进行实盘交易。5目录基本面数据源1历史高频数据源2实时数据源3数据提取方法4数据提供商561基本面数据源1基本面数据源基本面数据主要用于择时、选股等策略构建择时策略包括趋势追踪策略、反转策略和市场情绪等选股策略包括多因子策略、风格轮动策略、行业轮动策略等配置策略包括套期保值策略和期现套利策略等基本数据源宏观数据行业数据公司数据股票数据基金数据债券数据期货数据指数数据衍生数据基本面数据包括宏观、行业、公司、股票、基金等9大类数据。81.1宏观数据牛市偏向成长类股票熊市偏向于资产保值类股票宏观数据经济指标环比国内生产总值工业增加值行业增加值商品房销售消费品零售电力工业数据就业基本情况固定资产投资居民消费水平物价指数景气指数宏观数据体现了一个国家经济发展的现状。任何策略只要资产存在风险暴露,则必然要考虑金融市场行情和宏观因素的影响。91.2行业数据行业数据代表中观市场情况牛市行情时选用强劲的周期性行业,代表:有色金属、钢铁、化工等熊市行情时选用风险防御能力较强的非周期性行业,代表:医药行业、公用事业行业等。主题类投资策略和事件驱动类投资策略,如战争时期人们会偏向相关行业如军工股、造船和机械等,科技繁荣时会偏向互联网、电子等。风格轮动效应,不同市场发展阶段往往呈现个别行业发展的相对优势。行业数据行业概况行业经济指标行业产品产量行业进出口101.3公司数据上市公司策略研究大多集中于从公司的财务指标或因子进行研究分析。如:多因子选股策略需要财务数据源。公司行情数据一般可分为基本面因子、技术因子、事件因子及分析师预测因子。•包括有公司财务方面的数据,如规模因子、估值因子、成长因子、盈利因子和偿债能力因子。基本面因子•包括上市公司的一些交易指标,如1月动量因子、EMA、换手率和资金流量等,由于本节主要介绍上市公司财务数据,因此不详细介绍技术因子方面的数据。技术因子•需要研究消化公司的及时信息并将其转化为量化投资的信号行为因子•表征为市场情绪指标,情绪具有催化剂的作用,对于股市尤其如此分析师预测因子111.4股票数据◇风格轮动策略:根据市场/个股的发展阶段以及呈现出的风格特征进行选股买卖;◇行业轮动:根据不同市场周期特征选择行业进行投资;◇资金流策略:根据市场的资金流向进行选股配置;◇动量反转趋势跟踪策略:根据股价的回复或趋势特征进行套利。股票数据源个股交易停复牌数据异常波动信息个股回报率复权信息日大宗交易数据市场行情股票是量化投资最常用品种。股票投资策略一般包括:风格轮动策略、行业轮动策略、资金流策略、动量反转策略和趋势跟踪策略等。121.5基金数据基金数据源基金基本数据回报率基金净值数据资产配置除权息数据基金财务指标基金数据评价基金有广义和狭义之分,人们平常所说的基金主要是指证券投资基金。基金一般可反映金融市场环境情况,如市场从业人员口中的“基金88魔咒”是指公募基金整体仓位达到百分之88的高位时,往往大盘就会见顶回落。131.6债券数据债券作为一种相对风险较低的品种,适合于风险规避行的投资者。策略方法:采用债券品种进行套利,如不同到期债券之间的套利,同一公司债券股票之间的套利,可转债与股票之间的套利。债券数据源债券基本数据标准券折算比例债券回购日交易信息债券派息信息债券现期收益率企业债公司债主要财务指标141.7期货数据期货的投资策略可分为:1)单一品种策略2)混合品种策略股指期货数据股指/国债期货基本信息数据股指/国债期货交易数据股指/国债期货交易量及仓位状况商品期货数据商品期货品种基本信息商品期货交易数据商品期货交易量及仓位状况现货价格信息国债期货国债期货品种基本信息国债期货交易数据国债期货交易量及仓位状况国债价格信息◇跨品种策略:似品种特征的商品期货合约配对。◇单一品种策略:趋势跟踪、动态反转和跨期套利等◇跨市场策略:商品期货与现货之间的基差套利等151.8指数数据◇被动型基金利用成分股按权重复制指数以获得市场平均收益率;◇积极性基金在成分股组成的股票池进行资产配置,以获得超过市场平均水平的收益。指数数据源指数基本信息股票指数样本股基本信息指数成份股权重数据指数数据反映其编制对象的总体情况。如:沪深300反应沪深市场的市场行情;农林牧渔行业指数反应农林牧渔行业的总体试产行情。161.9衍生数据衍生数据源量化因子仓库宏观因子行业因子基本面因子技术因子行为因子高频因子衍生物因子事件因子复合因子风控因子数据库行业因子风格因子衍生数据可以提高金融市场投资者策略构建能力、策略绩效评估及风险控制水平,能够反映和预测盈利能力。量化投资研究常用的衍生数据库包括:1)量化因子仓库2)风控因子数据库172历史高频数据源2历史高频数据源历史高频数据即指日内的数据,主要针对以小时、分钟或秒为采集频率的数据,常见历史高频数据字段如下图所示:历史高频数据源股票品种分笔高频数据分时高频数据期货品种股指期货分笔高频数据分时高频数据商品期货分笔高频数据分时高频数据193实时数据源3.1证券交易所交易所证券交易所上海证券交易所交易品种包括在沪上市流通的股票(A股和B股)、债券(国债和企业债券)、封闭式基金、ETF和权证等深圳证券交易所交易品种包括在深上市流通的股票(A股和B股)、债券(国债和企业债券)、封闭式基金、ETF和权证等香港联合交易所期货交易所上海期货交易所交易品种有铜、铝、锌、天然橡胶、燃油、黄金、螺纹钢、线材等10种期货合约大连商品交易所交易品种有大豆、豆粕、豆油、线型低密度聚乙烯、棕榈油、玉米以及聚氯乙烯等郑州商品交易所交易品种有硬麦、强麦、棉花、白糖、精对苯二甲酸、菜籽油、早籼稻中国金融期货交易所交易品种有沪深300股指期货、国债期货213.2交易及行情数据技术Fix协议1993年建立的金融信息交换协议(Fix,FinaneialInformationexchange)实现了证券市场参与主体间信息实时交换,适用于实时证券金融电子交易开发的数据通信标准。以show2003技术为代表,通过dbf文件实现交换,每6秒发布一次快照,包括5档价格。接口单一、扩展困难的不足,冗余度高,带宽需求大,发布Level1行情STEP协议我国证券交易所于2006年7月基于FIX协议建立的新一代“证券交易数据交换协议”,该协议不仅将目前证券市场上使用的操作指令和通知用标准的格式描述出来,而且完全与国际流行的FIX兼容“,发布level2行情,速度提升3-6秒以上FAST协议克服了FIX协议传输市场数据冗余度高、带宽需求大的问题,采用二进制数据流交换方式,将STEP协议的28ms行情延迟提高到20ms行情延迟,此外,通过对比测试结果显示,FAST版本的带宽占用率平均为STEP版本的24.2%,发布level2行情交易及行情数据处理技术有三种协议:Fix协议、STEP协议、FAST协议。223.3实时数据源23实时数据源Level1数据基本行情扩展行情Level2数据基本行情扩展行情十档行情委托队列逐笔成交信息委托买卖信息分笔分时成交大盘总买与大盘总卖4数据提取方法主流的数据提取方法主要分为终端提取方法和API提取方法两种4数据提取方法终端提取方法•终端包括有网页终端和软件终端,其提取方法是利用终端界面上的行业分类和字段筛选等提取相关数据,并最终导出为Excel、DBF或TXT等格式文件。•我国提供终端的主流金融数据库主要有:CSMAR数据库、Wind数据库、恒生聚源数据库、锐思数据库、中国统计局数据库、巨潮数据库和巨灵数据库等。API提取方法•API提取方法主要是利用matlab、C++、.Net、COM和Excel等软件连接数据库服务器,并通过相关函数字段提取数据库数据。•我国提供API接口的数据库主要有:国泰安数据库、wind数据库和巨灵数据库255数据提供商5数据提供商国内数据提供商国泰安万得巨潮恒生锐思巨灵国外数据提供商BloombergThomsonFinancialOneBankerReutersCEICCapitalIQIBES27小结目前来说,无论是基本面数据还是高频数据,依赖个人来收集是不现实的,所以对于量化投资者来说,选择一个可靠的数据提供商是进行可靠的量化投资分析的有力保障。在国外,以彭博资讯、汤姆森金融公司、路透社这“三大”为首的数据提供商都享誉全球。而目前在国内,国泰安信息技术有限公司以CSMAR系列中国金融经济数据库、国泰安市场通全球金融信息分析系统与量化投资研究及投资平台等优秀产品为国内乃至全球的量化投资者提供着优秀的服务;Wind资讯是中国大陆领先的金融数据、信息和软件服务企业,其数据服务内容囊括新闻、基金、宏观行业、股票以及理财产品五大模块;创建巨潮数据库的深圳证券信息有限公司则是深交所和中国证券业协会指定的信息披露单位,多年来致力于中国证券信息数据库系统的研究、建设、维护与产品开发。28