大数据统计学实践报告

johnnyyang
1 ℃
2020-06-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

经管学院统计学实践报告题目：专业：团队信息：学生姓名：指导教师：其他：报告字数：完成日期：编号经管学院统计学实验报告(设计)统计学第次实践报告：题目经管学院统计学实验报告(设计)题目内容简介（可包括如下内容，也可自行添加其他内容）1.概念、理论意义、实际意义2.国内外相关研究综述3.本报告主要研究内容及研究目标4.创新点和不足之处（一）大数据的概念麦肯锡对大数据概念的解释是：大数据是指大小超过传统数据库软件工具抓取、存储、管理和分析能力的数据群。维基百科的表述是：大数据是难以用现有数据库管理工具处理的兼具海量和复杂性特征的数据集成。国内专家涂子沛将大数据定义为那些大小已经超出传统意义上的尺度，一般的软件工具难以捕捉、存储、管理和分析的数据。对于“大数据”（Bigdata）研究机构Gartner给出了这样的定义：“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产（二）理论意义管理统计学课程是近年来经济管理类专业新开的专业基础课程，目的是培养经管类学生能够把统计学知识运用到经济管理中来解决实际问题。随着社会的发展，企业对经济管理类学生的数据处理能力有更高的需求，因此管理统计学的开设满足经管类学生及企业的需求。随着云时代的到来和互联网技术的发展，大数据即大数据技术出现了。1.数据收集方式和内容变化以往的数据收集方法主要有统计调查和试验方法。根据实际研究需要，收集社会经济现象的统计数据和自然科学领域的数据。这些数据是数字、文字等结构化的数据。大数据时代，统计数据的产生方式呈现多样化，如有网站浏览痕迹、监控视频、GPS系统等产生方式，产生的数据多为非结构化数据很难用二维表格表示，如所有格式的办公文档、文本、图片、HTML、各类图像和音频、视频信息等。结构化数据出现，统计数据的收集方式和内容将会改变。2.数据处理的对象和方法放发生变化管理统计学中推断统计学的参数估计方法和假设检验方法，主要采用抽样调查法，利用样本数据的信息来估计或者计算总体参数情况。大数据不用随机分析法（抽样调查）这样的捷径，而采用所有数据的方法。在大数据下，样本集总体，处理数据不再仅仅依赖样本进行数据的推断统计。另外依靠小概率事件不可能发生的参数估计和假设检验方法就失去了处理大数据的意义。但一些传统的数据分析方法，如聚类分析、相关分析、回归分析等方法，仍然是可以使用的。虽然这些传统的分析方法已经被应用于大数据领域，但是他们在处理规模较大的数据集合时，效率无法达到用户预期，且难以处理复杂的数据。3.大数据时代下传统统计学的变革大数据时代的到来，给统计学的发展带来了前所未有的机遇，但同时，也对统计学提出了更多的挑战。在此，本文将从以下7个方面阐述大数据时代下传统统计学的变革。（1）样本概念的深化除普查以外，传统统计学离不开样本，样本是研究中实际观测或调查的一部分个体，一个可用的样本必须能够正确地反映总体情况。大数据时代，样本的概念不再这么简单，由于此时数据大部分为网络数据，因此可以将其分为两种类型:经管学院统计学实验报告(设计)一是静态数据，即当客户在查看数据时已经被生成好了，没有和服务器数据库进行交互的数据，直接在客户端创建完毕，对于这种数据，样本等同于总体，这样无需去提取样本并检测样本的可用性，减少了成本，并且总体本身对总体的反映更为准确，减少了误差;二是动态数据，比如数据是随着时间的推移而变化的，此时，总体表现为历史长河中所有数据的总和，而我们分析的对象为“样本”，这里的“样本”与传统样本的概念不同，因其并非局限于随机抽取的数据，更可以是选定的与分析目的相关的数据。（2）．数据类型的扩大。传统意义上的数据为结构化数据，即可以用常规统计指标或图表表现出来的定量数据或专门设计的定性数据，有固定的结构和标准。大数据是指不仅包括结构化数据，还包含非结构化数据、半结构化数据或异构数据，即一切可以记录和存储的信号，具有多样化的特点，并且传统的统计指标等不一定可以将其完整地表述出来;其次，大数据的存储不同于传统的数据存储方式，有固定的格式和结构，对于大数据的数据库来说，可以直接将所探测到的信号自动容纳到其中;最后，由于大数据大部分是指非结构化以及半结构化数据，因此对数据的识别和分类也是多样的，通常用网络信息系统作为识别工具。（3）．收集概念的扩展。传统统计中，数据的收集需要根据统计分析的目的进行，过程包括设计调查方案、严格控制调查流程，因此具有低效率、高成本的缺点。在大数据时代，对数据的收集分为三步，首先是数据预处理，包括识别与整理;其次是数据分析，目的为提炼有价值的信息;最后为数据存储。我们拥有超大量可选择的数据，同时，在存储能力、分析能力、甄别数据的真伪、选择关联物、提炼和利用数据、确定分析节点等方面，都需要斟酌。然而，这并不代表大数据时代搜集的数据是万能的，我们仍然需要有针对性地搜集，不仅如此，还存在着安全性和成本的问题。因此，我们应该将传统方法中有针对性的收集数据的优点和现代方法中利用高效率的技术和广泛数据源的优点结合起来，收集一切相关数据。（4）.数据来源的不同。传统统计中是根据研究目的去收集数据，数据来源通常是已知的，很容易对数据提供者的身份进行识别或进行事后核对。而大数据的来源则很难追溯，由于大数据的来源一般为信息网络系统，不具有很强的目的性，更是一切被人为记录的信号(尽管信号有其目的性，但多数为发散的)，并且很难识别记录者的身份。在大数据时代，努力打造统计数据来源第二轨，就显得尤为重要。（5）．量化方式的变化。传统数据为结构化数据，对数据的量化方式已经相当成熟，并且比较容易得到可以直接进行分析的数据结果。大数据时代主要面对的是非结构化数据，Franks说过:“几乎没有哪种分析过程能够直接对非结构化数据进行分析，也无法直接从非结构化的数据中得出结论”。目前，计算机学界已着手研发处理非结构化数据的技术，从统计角度直接处理非结构化数据，或将其量化成结构化数据，这是一个重要的研究领域。（6）．分析思维的改变。我们从统计分析、实证分析、推断分析三个方面论述大数据时代传统统计学分析思维的改变。第一，传统的统计分析过程分为三步，定性、定量、再定性。首先通过经验判断找到统计方向，即目的;其次对数据进行量化、分直接从各种“定量的回应”中找出有价值的、为我们所需要的数据，并通过分析找到数据的特征和数量关系，进而据此做出判断与决策。第二，传统的统计实证分析，思路是“假设—验经管学院统计学实验报告(设计)析、处理等;最后根据结果得出结论。大数据时代，统计分析过程为“定量—定性”，基础性的工作就是找到“定量的回应”，直接从各种“定量的回应”中找出有价值的、为我们所需要的数据，并通过分析找到数据的特征和数量关系，进而据此做出判断与决策。第二，传统的统计实证分析，思路是“假设—验证”，即首先提出假设，接着按照统计方法进行数据的收集、分析、展示，最后通过所得到的结论对假设进行验证。事实证明，这种实证分析存在很大误差。大数据时代，实证分析的思路是“发现—总结”，为了更全面、深入地了解研究对象，需要对数据进行整合，从中去寻找关系、发现规律，然后再加以总结、形成结论，这将有助于发现更多意外的“发现”。第三，传统的统计推断分析过程是以分布理论为基础，在概率保证的前提下，对总体进行推断，通常是根据样本特征去推断总体特征，推断是否正确取决于样本的好坏。现在，其过程变成了以实际分布为基础，根据总体的特征进行概率的判断，在静态或者动态的某个时点，大数据所需处理的对象为总体数据，不需要根据分布理论推断总体特征，而要根据计算方法进行推断。（7）．统计软件的增多。传统统计学以统计模型和软件为基础进行数据分析处理，统计模型的作用在于对数据间的数量关系进行构建，统计软件是分析和处理数据的工具，需要研究者自主输入经过处理的数据，以及统计模型的公式等。常见的统计软件有SAS、R、STATA、SPSS、MATLAB等。大数据所依赖的数据分析技术为非关系型的，以数据中心为基础。若将统计软件与大数据结合起来，则统计分析的过程可以在很大程度上简化。综上所述，大数据时代的来临，对传统统计学的变革从样本的定义方法一直到数据分析的思维与技术均有所体现。可以看出，大数据使我们对数据的利用取得了更大的主动权，将促使传统统计学的迅速发展。二．实际意义：大数据在征信系统中的应用近期，美国互联网金融公司ZestFinance受到国内互联网金融专业人士的热捧，其基于大数据的信用评估模型也越来越受到关注和效仿。本文结合美国的金融环境，对ZestFinance进行简要介绍，分析大数据征信产生的背景，剖析大数据征信技术，并全面客观地阐述了大数据征信技术对于中国互联网金融和征信业未来发展的借鉴意义。一、ZestFinance简介ZestFinance，原名ZestCash，是美国一家新兴的互联网金融公司，2009年9月成立于洛杉矶，由互联网巨头谷歌（Google）的前信息总监道格拉斯·梅瑞尔（DouglasMerrill）和金融机构CapitalOne的信贷部高级主管肖恩·卜德（ShawnBudde）（曾管理过收益超过10亿美元的次级信贷业务)联合创办。ZestFinance的研发团队主要由数学家和计算机科学家组成，前期的业务主要通过ZestCash平台提供放贷服务，后来专注于提供信用评估服务，旨在利用大数据技术重塑审贷过程，为难以获得传统金融服务（Underbanked）的个人创造可用的信用，降低他们的借贷成本。ZestFinance起初是为传统的发薪日贷款（PaydayLoans）提供在线替代的产品。发薪日贷款因借款人承诺在发薪日还款而得名。由于美国传统的信用风险评估体系无法覆盖全部的人群，大约15%的人因没有信用评分而被银行排斥在外，无法获得基本的信贷需求。ZestFinance引起国内的关注始于2013年7月，当时全球第三方支付平台PayPal联合创始人、美国知名投资人彼得·泰尔（Peter经管学院统计学实验报告(设计)除了解决传统信用评估体系无法解决的无信用评分借贷问题，ZestFinance还主要面向传统信用评估解决不好的领域，将信用分数低而借贷成本高的人群视为服务对象，利用大数据技术降低他们的信贷成本。与传统信贷管理业务比较，ZestFinance的处理效率提高了将近90%，风险控制方面，ZestFinance的模型相比于传统信用评估模型性能提高了40%。ZestFinance目前也正在向信用风险管理的其他领域纵深扩展，2014年2月ZestFinance宣布推出基于大数据分析的收债评分（CollectionScore），旨在为汽车金融、学生贷款、医疗贷款提供一种新的评分系统。ZestFinance的未来发展方向是希望把其在这种发款日的贷款上的优势继续拓展到其他贷款领域，包括信用卡、汽车的贷款，甚至包括房屋的贷款，在未来的10～15年，这一方法将取代现行指标，成为申请信贷的唯一评估标。三、国内外综述分布式数据库分布式数据库系统通常使用较小的计算机系统，每台计算机可单独放在一个地方，每台计算机中都有DBMS的一份完整拷贝副本，并具有自己局部的数据库，位于不同地点的许多计算机通过网络互相连接，共同组成一个完整的、全局的大型数据库。随着传统的数据库技术日趋成熟、计算机网络技术的飞速发展和应用范围的扩充，数据库应用已经普遍建立于计算机网络之上。这时集中式数据库系统表现出它的不足:数据按实际需要已在网络上分布存储，再采用集中式处理，势必造成通信开销大;应用程序集中在一台计算机上运行，一旦该计算机发生故障，则整个系统受到影响，可靠性不高;集中式处理引起系统的规模和配置都不够灵活，系统的可扩充性差。在这种形势下，集中式DB中计算”概念向“分布计算”概念发展。分布式数据库是数据库技术与网络技术相结合的产物，在数据库领域已形成一个分支。分布式数据库的研究始于20世纪70年代中期。世界上第一个分布式数据库系统SDD-1是由美国计算机公司(CCA)于1979年在DEC计算机上实现。20世纪9