哈佛博士吕晓辉:LexisNexis金融大数据实践34

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

哈佛博士吕晓辉:LexisNexis金融大数据实践吕晓辉,律商联讯风险信息公司中国区市场总监,数据和分析产品开发专家。现专注于为律商联讯风险信息公司开拓中国市场。曾为律商联讯开发推广了一系列针对美国金融行业的大数据产品:消费者询价活力评分、车险保单实时预填服务、保费偿付历史共享平台、个人信用记录查询优化等等,取得显著的市场效果。在加盟律商联讯之前,曾就职于分析咨询公司OptimalDecisionsGroup,专业信息提供商ChoicePoint。于南京大学获得学士学位;于哈佛大学获得硕士和博士学位。嘉宾介绍(吕晓辉):大家好!我是律商联讯的吕晓辉。非常荣幸今天有机会和大家分享律商联讯对大数据的一点心得。感谢大家抽空来参与。感谢张华平教授的邀请,和张涵诚的主持。分享嘉宾(吕晓辉):今天的想给大家分享一点干货:律商在美国运营大数据的一点心得。首先,我想介绍一下律商联讯和我们的大数据业务模式;其次,分享几个实际案例;再次,介绍一下我们专有的大数据核心算法;最后,看大家的兴趣,可以深入讲一讲技术体系的细节。分享嘉宾(吕晓辉):律商联讯是励德爱思唯尔集团旗下专业经营大数据在银行、保险、政府等风险行业的应用的全资子公司。律商联讯是励德爱思唯尔集团旗下专业经营大数据在银行、保险、政府等风险行业的应用的全资子公司。分享嘉宾(吕晓辉):我们在美国的大数据业务的商务模式如上页幻灯片所示。海量数据资源、大数据技术、大数据关联和分析、行业专门经验和产品有机集合成为以客户为中心的行业解决方案。我们的业务专注与B2B业务模式。分享嘉宾(吕晓辉):这是我们在美国市场收集的部分数据介绍。对于如何应对大数据的挑战,我们有一点自己的观点,容我简述如下:分享嘉宾(吕晓辉):大数据关联技术,在我们看来,是将原油提炼成为各种石化产品的核心技术。分享嘉宾(吕晓辉):上面是律商联讯的专有大数据技术HPCC的一点简介。我就不一一复述。需要强调一点,我公司的基础大数据技术平台是完全开源的。欢迎大家访问hpccsystems.com下载。嘉宾介绍(吕晓辉):我们技术的最大优势在于功能完整﹑高性能﹑低成本﹑久经实时生产应用的考验。分享嘉宾(吕晓辉):刚才提到的大数据关联技术,在此我略作简述。下面还会细讲。大数据关联技术的核心之一是个体解析,即把和某个个体相关的所有记录都完整、准确地聚类到一起。只有做到准确,才能不把其它个体的信息错误地归入这个个体的记录集群。只有做到全面,才能不遗漏和这个个体相关的记录。准确、全面是进一步大数据应用的基础,一定要打好。分享嘉宾(吕晓辉):呵呵,最后一页公司宣传,用以佐证下面的应用案例的可靠性。嘉宾(吕晓辉):第一个案例是一个关于电商的例子。其中大数据的应用在于反欺诈。在坚实的数据基础上,反欺诈是一个相对普适的应用。对于这些案例的细节,我就不复述了。欢迎大家随时打断我来提问。嘉宾(吕晓辉):这第二个案例是一个我公司的姊妹公司爱思唯尔的实际应用。展示了HPCC技术的海量数据处理能力。第二个案例和亚马逊差不多,只不过是一个更加专门的场景。效能也更好一点。这第三个案例是关于物联网的例子。个人觉得是咱国家机场迫切需要的应用。嘉宾(吕晓辉):第四个案例是关于网络安全漏洞的排查。再次展示了海量数据处理能力和网络行为模式的识别能力。嘉宾(吕晓辉):第五个案例是我个人的最爱:通过关系网络来识别合谋欺诈。合谋欺诈,主要在于观察什么是正常的行为模式;然后再筛选出哪些是不正常的行为模式,即有可能是合谋欺诈。多个数据点的交叉验证在此也变得尤其重要。这个案例的特点在于关系网络的质量,只有在个体解析做到完整、准确时,才会有效地支持这个应用。嘉宾(吕晓辉):第六个案例是我公司的核心技术平台:LexID。过对来自一万多个活数据源的数据的持续整合、关联,我们能够完整掌握美国成年人口的在社会中留下的数据足迹。在美国,政府信息公开得到比较彻底的实现。我公司投入了大量的人力物力来从零散的数据源里收集公共记录数据。另外,许多私有数据源也被我们通过商务手段合法获得并利用。相比起网络爬虫或者社交网络数据来说,我们发现,一些“传统”的数据源,例如婚姻记录、犯罪纪录、房地产买卖记录更加有用。嘉宾(吕晓辉):最后一个案例,是我公司的前身,美国ChoicePoint公司在2008年被律商联讯收购后,所经历的技术平台的迁移及其效果。嘉宾(吕晓辉):那我们继续。下面我想更细地讲一下大数据关联技术。嘉宾(吕晓辉):这是一个关于人名匹配的例子。通过对数据的统计,我们的算法自动发现,“笲”是一个比较不常见的字。而“黄”和“王”由于发音相近常被人听混。在盐城市亭湖区的“王笲”很可能是“黄笲”被误记所致。认定这两条记录匹配的错误可能性极低。而基于规则的匹配方式则会简单地认定这两个记录不匹配。反之亦然,“张勇”是一个很常见的名字,而在北京东城区有许多个叫“张勇”的人。仅仅依赖这两个字段的信息不足以认定这两条记录和同一个体相关。嘉宾(吕晓辉):将此原理用于多个字段之间的匹配,并且通过迭代的方式逐步捕获和同一个体相关的所有记录,就可以达到大数据关联的完整、准确。并且,我们的算法还可以对于目标完整度、准确率进行调节,以符合实际应用场景。下面是一个结果记录集群的展示。嘉宾(吕晓辉):有了这样完整、准确地个体记录集群,其应用是有很大的想象空间的。包括最简单的个体信息查询和反欺诈。嘉宾(吕晓辉):也包括准确定义关系网络中的“关系”:嘉宾(吕晓辉):搜索出和一个人有某一指定关系的所有人:嘉宾(吕晓辉):以及找出任意两个人之间存在的关系:嘉宾(吕晓辉):提到关联和规则,我想插一句:基于统计算法的关联可以自动识别和选择最佳匹配方式,而规则总是人工在事后定义的。两者的效能不可同日而语。嘉宾(吕晓辉):预告一下,我这还有14页关于技术细节的幻灯片。嘉宾(吕晓辉):刚才强调了大数据关联技术,HPCC系统另外的两个核心功能模块是:实时大数据查询技术、专用的大数据编程语言。HPCCRoxie在美国支持着每天两千万条我们的客户的复杂多样的查询。HPCCECL无需数据分析人员有MapReduce并行编程技能、JAVA编程能力,即可用一个类似于SQL的语言来操作海量数据。嘉宾(吕晓辉):HPCC是基于C++的,无需JAVA虚拟机,所以性能高,同等运算量下对硬件要求更低。嘉宾(吕晓辉):出于我公司自身大数据实时交互式业务的需求,HPCC系统还内建了支持交互式业务所需全部功能。嘉宾(吕晓辉):HPCC系统可以近线形扩容。嘉宾(吕晓辉):并可靠地支持高效的复杂数据查询。我公司内部系统的系统在线可用率达到99.999%嘉宾(吕晓辉):下面讲一下HPCC平台上的应用开发。嘉宾(吕晓辉):HPCCECL是一个专业的大数据操作语言。其核心语法和编译引擎的设计都是由原Borland编译器核心团队实现的。大家可都还记得Borland?提高应用开发效率的一个首选办法就是把常用操作给抽象化。HPCCSALT就是这样一个代码生成器。嘉宾介绍(吕晓辉):提高应用开发效率的一个首选办法就是把常用操作给抽象化。HPCCSALT就是这样一个代码生成器。嘉宾介绍(吕晓辉):进一步的抽象化使得我们的技术团队正常情况下都不需要手工编程即可开发专业应用。嘉宾介绍(吕晓辉):提到大数据技术,就避不过Hadoop。下面是我们作出的HPCC和Hadoop的一个简单比较。一家之言,欢迎大家的板砖。嘉宾介绍(吕晓辉):HPCC和Hadoop技术平台本身最显著的差异在于技术模块的一致性。由多家开发商共同维护的开源平台有其很大优势,但在系统稳定性上是短板。这对于一些银行、保险、政府的核心应用来说就不够了。下面是我个人对于两个系统的一些主要差异的比较。抛砖引“砖”。嘉宾介绍(吕晓辉):最后是系统性能的一个比较。分享嘉宾(吕晓辉):今天我就讲到这了。谢谢大家!分享嘉宾(吕晓辉):谢谢大家参与,感谢张华平教授邀请,感谢张涵诚总的推动,我们保持联系。主持人(张涵诚):非常感谢吕博士严谨,系统,务实,精彩的分享!

1 / 34
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功