如何成为一名数据科学家?来源:知数教育网数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。一、数据科学家的起源数据科学(DataScience)起初叫datalogy。最初在1966年由PeterNaur提出,用来代替计算机科学(丹麦人,2005年图灵奖得主,丹麦的计算机学会的正式名称就叫DanishSocietyofDatalogy,他是这个学会的第一任主席。Algol60是许多后来的程序设计语言,包括今天那些必不可少的软件工程工具的原型。图灵奖被认为是“计算科学界的诺贝尔奖”。)1996年,InternationalFederationofClassificationSocieties(IFCS)国际会议召开。数据科学一词首次出现在会议(DataScience,classification,andrelatedmethods)标题里。1998年,C.F.JeffWu做出题为“统计学=数据科学吗?的演讲,建议统计改名数据的科学统计数据的科学家。(吴教授于1987年获得COPSS奖,2000年在台湾被选为中研院院士,2004年作为第一位统计学者当选美国国家工程院院士,也是第一位华人统计学者获此殊荣。)2002年,国际科学理事会:数据委员会科学和技术(CODATA)开始出版数据科学杂志。2003年,美国哥伦比亚大学开始发布数据科学杂志,主要内容涵盖统计方法和定量研究中的应用。2005年,美国国家科学委员会发表了Long-livedDigitalDataCollections:EnablingResearchandEducationinthe21stCentury,其中给出数据科学家的定义:theinformationandcomputerscientists,databaseandsoftwareandprogrammers,disciplinaryexperts,curatorsandexpertannotators,librarians,archivists,andothers,whoarecrucialtothesuccessfulmanagementofadigitaldatacollection信息科学与计算机科学家,数据库和软件工程师,领域专家,策展人和标注专家,图书管理员,档案员等数字数据管理收集者都以可成为数据科学家。它们主要任务是:进行富有创造性的查询和分析。2012年,O'Reilly媒体的创始人TimO'Reilly列出了世界上排名前7位的数据科学家。LarryPage,谷歌CEO。JeffHammerbacher,Cloudera的首席科学家和DJPatil,Greylock风险投资公司企业家。SebastianThrun,斯坦福大学教授和PeterNorvig,谷歌数据科学家。ElizabethWarren,Massachusetts州美国参议院候选人。ToddPark,人类健康服务部门首席技术官。SandyPentland,麻省理工学院教授。HodLipsonandMichaelSchmidt,康奈尔大学计算机科学家。具体有时间再补充,感兴趣的朋友可以GoogleScholar一下他们的文献。关于数据科学家的更多讨论:你能列出十个著名的女性数据科学家吗?Canyouname10famousdatascientistwomen?谁是最富有的数据科学家?Whoarethewealthiestdatascientists?请列出对大数据最具有影响力的20个人?WhoAreTheTop20InfluencersinBigData?二、数据科学家的定义数据科学(DataScience)是从数据中提取知识的研究,关键是科学。数据科学集成了多种领域的不同元素,包括信号处理,数学,概率模型技术和理论,机器学习,计算机编程,统计学,数据工程,模式识别和学习,可视化,不确定性建模,数据仓库,以及从数据中析取规律和产品的高性能计算。数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位越发重要。数据科学的从业者被称为数据科学家。数据科学家通过精深的专业知识在某些科学学科解决复杂的数据问题。不远的将来,数据科学家们需要精通一门、两门甚至多门学科,同时使用数学,统计学和计算机科学的生产要素展开工作。所以数据科学家就如同一个team。曾经投资过Facebook,LinkedIn的格雷洛克风险投资公司把数据科学家描述成“能够管理和洞察数据的人”。在IBM的网站上,数据科学家的角色被形容成“一半分析师,一半艺术家”。他们代表了商业或数据分析这个角色的一个进化。forexample–adatascientistwillmostlikelyexploreandexaminedatafrommultipledisparatesources.Thedatascientistwillsiftthroughallincomingdatawiththegoalofdiscoveringapreviouslyhiddeninsight,whichinturncanprovideacompetitiveadvantageoraddressapressingbusinessproblem.Adatascientistdoesnotsimplycollectandreportondata,butalsolooksatitfrommanyangles,determineswhatitmeans,thenrecommendswaystoapplythedata.AnjulBhambhri,IBM的大数据产品副总裁。数据科学家是一个好奇的,不断质疑现有假设,能盯着数据就能指出趋势的人。这就好像在文艺复兴时期,一个非常想为组织带来挑战并从挑战中学习的人一样。JonathanGoldman,LinkedIn数据科学家。2006年的6月份进入商务社交网站LinkedIn,当时LinkedIn只有不到800万用户。高德曼在之后的研究中创造出新的模型,利用数据预测注册用户的人际网络。具体来讲,他以用户在LinkedIn的个人资料,来找到和这些信息最匹配的三个人,并以推荐的形式显示在用户的使用页面上——这也就是我们熟悉的你可能认识的人(Peopleyoumayknow)。这个小小的功能让LinkedIn增加了数百万的新的页面点击量(数据挖掘的应用典型之一推荐系统)。JohnRauser,亚马逊大数据科学家。数据科学家是工程师和统计学家的结合体。从事这个职位要求极强的驾驭和管理海量数据的能力;同时也需要有像统计学家一样萃取、分析数据价值的本事,二者缺一不可。StevenHillion,EMCGreenplum数据分析副总裁。数据科学家是具有极强分析能力和对统计和数学有很深研究的数据工程师。他们能从商业信息等其他复杂且海量的数据库中洞察新趋势。MonicaRogati,LinkedIn资深数据科学家。所有的科学家都是数据学家,因为他们整天都在和海量数据打交道。在我眼中,数据学家是一半黑客加一半分析师。他们通过数据建立看待事物的新维度。数据学家必须能够用一只眼睛发现新世界,用另一只眼睛质疑自己的发现。DanielTunkelang,LinkedIn首席数据科学家。我是bitly首席科学家HilaryMason的忠实崇拜者。关于这个新概念的定义我也想引用她的说法:数据科学家是能够利用各种信息获取方式、统计学原理和机器的学习能力对其掌握的数据进行收集、去噪、分析并解读的角色。MichaelRappa,北卡罗莱纳州立大学教授。尽管数据科学家这个名称最近才开始在硅谷出现,但这个新职业的产生却是基于人类上百年对数据分析的不断积累和衍生。和数据科学家最接近的职业应该是统计学家,只不过统计学家是一个成熟的定义且服务领域基本局限于政府和学界。数据科学家把统计学的精髓带到了更多的行业和领域。林仕鼎,百度大数据首席架构师。如果从广义的角度讲,从事数据处理、加工、分析等工作的数据科学家、数据架构师和数据工程师都可以笼统地称为数据科学家;而从狭义的角度讲,那些具有数据分析能力,精通各类算法,直接处理数据的人员才可以称为数据科学家。最后引用ThomasH.Davenport(埃森哲战略变革研究院主任)和D.J.Patil(美国科学促进会科学与技术政策研究员,为美国国防部服务)的话来总结数据科学家需要具备的能力:数据科学家倾向于用探索数据的方式来看待周围的世界。(好奇心)把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。(问题分体整理能力)新的竞争环境中,挑战不断地变化,新数据不断地流入,数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析到持续的数据交互分析。(快速学习能力)数据科学家会遇到技术瓶颈,但他们能够找到新颖的解决方案。(问题转化能力)当他们有所发现,便交流他们的发现,建议新的业务方向。(业务精通)他们很有创造力的展示视觉化的信息,也让找到的模式清晰而有说服力。(表现沟通能力)他们会把蕴含在数据中的规律建议给Boss,从而影响产品,流程和决策。(决策力)三、数据科学家所需硬件技能《数据之美BeautifulData》的作者JeffHammerbacher在书中提到,对于Facebook的数据科学家“我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:在任意给定的一天,团队的一个成员可以用Python实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在Hadoop上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了数据科学家这个角色。”(1)计算机科学一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。(2)数学、统计、数据挖掘等除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(TheComprehensiveRArchiveNetwork)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。R语言虽然功能强大,但是学习曲线较为陡峭,个人建议从python入手,拥有丰富的statisticallibraries,NumPy,SciPy.org,PythonDataAnalysisLibrary,matplotlib:pythonplotting。(3)数据可视化(Visualization)信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。(4)跨界为王麦肯锡认为未来需要更多的“translators”,能够在IT技术,数据分析和商业决策之间架起一座桥梁的复合型人才是最被人需要的。”translators“可以驱动整个数据分析战略的设计和执行,同时连接的IT,数据分析和业务部门的团队。如果缺少“translators“,即使拥有高端的数据分析策略和工具方法也是于事无补的。Thedatastrategists’combinationofITknowledgeandexperiencemakingbusinessdecisionsmakesthemwellsuitedtodef