从行业大数据里发现投资亮点

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于大数据的机器学习在金融投资行业的应用1投研领域的挑战2、仅依靠人工很难跟踪来自新闻、公告、研报、社交网络等各种来源的海量信息A股上市公司已经超过2600家,注册制推出后上市公司数量还将大幅增加新闻网站、微博/雪球大V、微信公众号、论坛、股吧等社交媒体信息电商数据、招聘信息、司法、诉讼,行业上下游关联等非结构化数据发现线索人工处理各类信息:如公告、新闻、年报、商品价格等等搜集资料人工搜集整理行业数据、产品价格、公司历史资料、各种技术等分析判断人工综合分析各种信息及资料,形成对公司未来判断,盈利预计等投资决策人工形成清晰的投资逻辑、估值判断、买卖决策等后续跟踪人工对重点公司保持持续追踪,买卖时点的把握等投研管理业务场景及痛点1、基本面投资流程很长、需处理的信息量极大、种类繁多4挑战也是机会:大数据如何变成投研团队可以迅速吸收并用于投资活动的小数据?重点是:如何把与证券有关信息中的“关联关系”展现出来2架构实体识别知识图谱智能事件深度学习在线学习……底层:各类数据库……行业数据社交网络数据财务数据专业论坛数据智能搜索资讯研究股票跟踪在线研报工作流……人工智能、大数据分析通联智能投研平台架构通联智能投研平台定位于构建一个开放、分享、高效的基本面投研平台,通过自然语言处理和机器学习等技术,高效地从海量的信息中提炼对研究员有价值的信息;同时,该平台实现投研流程中的过程数据和结果数据管理,满足客户在证券研究过程中对信息响应、研究协作的迫切需求,使得碎片化的研究成果得以沉淀积累,为投资决策提供重要支持。专业投资者资讯中心•新闻资讯•公司公告•微信订阅•分享中心股票管理•私有股票池•公共股票池研究中心•内部研究•晨会研究•外部研究监控中心•宏观监控•行业监控•我的监控•内部监控主要功能个人空间•我的研究•我的收藏•我的笔记•自定义数据深入洞察行业、创造卓越价值大数据分析研究过程与结果沉淀智能投研分析工具通联投研平台主要功能ZabbixELKCMDBdns,ntp,yum/atp,ad,等基础服务IaaS基础设施即服务数据API数据库实时行情数据服务PaaS平台即服务通联投研平台SaaS服务架构SaaS软件即服务平台管理租户用户应用管理三方集成计费支付消息通知租户A租户B投研系统其他系统租户C数据源交易通道共享服务大数据3投研分析中的机器智能揭秘通联数据投研平台机器学习技术框架交易策略算法层索引行情、状态识别自动化学习策略投研产品策略层智能研报服务智能提醒服务数据整理层分类、标记实体识别、事件抽取逻辑整理层知识图谱事件序列机器学习技术应用层深度学习技术增强学习技术大数据分析方法论回测技术框架分析实验设计搜索推荐服务层搜索相关技术推荐相关技术数据采集层爬虫技术数据清洗与质控机器学习技术基础层特征抽取、聚类技术关联分析、排序技术资讯通联数据机器学习投资研究的目的是选择合适的投资标的数据可视化数据搜索数据清洗资讯搜索资讯分类资讯聚类资讯去重公司数据数据资讯资讯推荐数据行业数据提取公司资讯公司资讯推荐公司情感分析产品数据挖掘从资讯中寻找投资线索公司数据公司数据推荐公司财务模型数据客观描述宏观/行业/公司景气程度资讯:公司资讯推荐背景:浏览某个公司相关的资讯挑战:实体语义消歧据工信部网站消息,12月18日-19日,由中国机器人(300024)产业联盟、中国电子信息产业发展研究院、广州工业机器人制造和应用产业联盟……东吴证券(13.550,-0.16,-1.17%)分析师徐力认为,中国联通与电信合作的红利将会逐渐体现,成本优势将愈加明显苹果与苹果公司?提到还是相关?资讯:公司资讯推荐方法:NER(命名实体识别);提到的是一个公司还是一个普通词组效果:解决badcase中60%的例子,包括常见上市公司名称,如机器人、农产品、新能源常见的NER方法:隐马尔科夫模型据工信部网站消息,12月18日-19日,由中国机器人(300024)产业联盟、中国电子信息产业发展研究院、广州工业机器人制造和应用产业联盟……苹果与苹果公司?资讯:公司资讯推荐方法:LDA(主题模型);提到的新闻和公司是不是相同主题效果:基本上可以去掉证券类公司、网站类公司的问题,占badcase30%东吴证券(13.550,-0.16,-1.17%)分析师徐力认为,中国联通与电信合作的红利将会逐渐体现,成本优势将愈加明显提到还是相关?/智能搜索新闻搜索微信搜索公告搜索数据搜索研报搜索指标搜索资讯API数据实体词典去重分类分词索引意图识别查询纠错查询扩展同义词日志挖掘上下文实体识别去词重要度结果聚类紧密度titleRankcontentRankclickModelPageRank/SiteRank个性化智能搜索:分词查询词/query:a股市场的上市公司正确的分词/terms:a股、市场、的、上市、公司错误的分词/terms:a、股、市场、的、上市、公司•••••••智能搜索:紧密度查询词:a股市场的上市公司分词结果:a、股、市场、的、上市、公司紧密度:(a、股)、市场、的、(上市、公司)a和股是紧密的,所以a和股在搜索结果中必须连续出现紧密度是分词的延伸高级别紧密的term已由分词解决。例如:中国、苹果、手机紧密度解决:(中国、银行)(通联、数据)(荷兰、猪)智能搜索:紧密度方法:词语连接测度(SymmetricConditionalProbabilityandContextDependency,SCPCD)••一个词组在文中出现的前缀/后缀数量越多样,它和其它词形成固定搭配的可能性越小,SCPCD越大一个词组被拆分后,拆分的两个部分在文章中出现的次数与词组本身出现的次数一致,则SCPCD越大智能搜索:重要度重要度:区分query中不同term的重要程度,降低冗余词、停用词等在匹配候选搜索结果的权重查询词:全国猪肉的平均价格重要词:全国猪肉的平均价格方法:query结构、term自身以及与query的信息(位置、词性、长度)、全局统计信息(languagemodel)智能搜索:同义词同义词发现word2vec我们在招聘,欢迎志同道合的伙伴!••••••••••前端开发工程师前端架构师移动端开发工程师交易系统开发工程师Java前端开发工程师Java后端开发工程师ETL开发工程师云平台架构师(Openstack,Docker,Spark)测试开发工程师性能测试和调优工程师•大数据分析工程师•搜索算法专家和工程师•机器学习算法专家和工程师(精通机器学习(SVM、LR、AdaBoost),数据挖掘(Apriori、决策树、随机森林,了解深度学习(CNN、LSTM等)或者知识图谱相关理论)•自然语言处理专家和工程师(熟悉常用的自然语言处理方法,包括但不限于HMM、CRF、word2vec)•爬虫开发工程师•投研产品经理•大数据可视化用户体验设计师•DEVOPS(支持IaaS(Openstack/Ceph)和Container(Docker/Ceph)应用部署环境)•开发运维工程师(负责应用系统相关高可用设计、监控、升级部署、应用配置修改、日志收集与分析等工作,并尽可能实现运维自动化)•数据运维工程师(参与相关应用项目的ETL设计、开发、维护工作)•数据库工程师(MySQL,SQLServer)•信息安全工程师•信息系统工程师•••••支持各类型的股票量化策略策略回测策略表现评估无需关心底层实现更多策略框架添加中QuartzData优矿(uqer):用python快速验证投资想法欢迎大家到38号展台体验通联产品金融计算分析库•权益/固定收益及衍生品建模•中国市场定制•强大的定价工具•CAL海量金融大数据•覆盖市场行情、财报、宏观、电商支付数据•自定义的本地数据•如何在优矿上一个人干掉一家公募量化团队?Alpha!Go!扫描查看源码

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功