统计学简史与数据科学袁卫2016.12.10中南财经政法大学2英国培根:读史可以明智(Historiesmakemenwise)德国斯勒兹:统计是静态的历史,历史是动态的统计.(Statisticsisthestatehistorywhilehistoryisthedynamicstatistics).3一、早期源头(EarlyBeginnings)二、数学基础(MathematicalFoundations)三、现代发展(ModernEra)4一、早期源头(公元前450年至15世纪)5均值的使用450bcHippiasofElisusestheaveragevalueofthelengthofaking’sreign(themean)toworkoutthedateofthefirstOlympicGames,some300yearsbeforehistime.希皮亚斯(Hippias),出生于希腊伯罗奔尼撒(Peloponnesus)西北部的埃利斯(Elis),与柏拉图(Plato)是同时代的人,历史上第一位数学史家。他在公元前450年用以前每个国王执政时间长短的均值推算出首届奥运会是距当时300多年前的公元前776年举办的。6431bcAttackersbesiegingPlataeainthePeloponnesianwarcalculatetheheightofthewallbycountingthenumberofbricks.Thecountwasrepeatedseveraltimesbydifferentsoldiers.Themostfrequentvalue(themode)wastakentobethemostlikely.Multiplyingitbytheheightofonebrickallowedthemtocalculatethelengthoftheladdersneededtoscalethewalls.公元前431年希腊伯罗奔尼撒战争中雅典人让士兵数城墙砖的层数,取士兵数据的众数乘以每块砖的厚度推算城墙的高度,用以计算云梯所需长度。众数的使用7400bcIntheIndianepictheMahabharata,KingRtuparnaestimatesthenumberoffruitandleaves(2095fruitand50000000leaves)ontwogreatbranchesofavibhitakatreebycountingthenumberonasingletwig,thenmultiplyingbythenumberoftwigs.Theestimateisfoundtobeveryclosetotheactualnumber.Thisisthefirstrecordedexampleofsampling–“butthisknowledgeiskeptsecret”,saystheaccount.公元前400年,印度史诗《摩诃婆罗多》(Mahabharata)中国王利用只计算两个大树枝上的果实和叶子数量乘上树枝的数量估算整棵树果实和叶子的数量,这是已知最早的抽样推断。抽样推断8AD2ChinesecensusundertheHandynastyfinds57.67millionpeoplein12.36millionhouseholds–thefirstcensusfromwhichdatasurvives,andstillconsideredbyscholarstohavebeenaccurate公元2年,中国汉代进行了人口普查,结果是1236万家庭,5767万人口。记载的数据被认为是相当准确的。普查9AD7CensusbyQuirinus,governoroftheRomanprovinceofJudea,ismentionedinLuke’sGospelascausingJosephandMarytotraveltoBethlehemtobetaxed.路加福音记载,公元7年,意大利罗马省省长奎里努斯实施了普查,导致约瑟夫和玛丽前往约瑟夫祖籍大卫家族所在的伯利恒申报户籍.普查10840IslamicmathematicianAl-Kindiusesfrequencyanalysis–themostcommonsymbolsinacodedmessagewillstandforthemostcommonletters–tobreaksecretcodes.Al-KindialsointroducesArabicnumeralstoEurope.公元840年,伊斯兰数学家金迪利用最常用符号和最常用字符破解伊斯兰密码,他还将阿拉伯数字介绍到欧洲。频数分析1110thcenturyTheearliestknowngraph,inacommentaryonabookbyCicero,showsthemovementsoftheplanetsthroughthezodiac.Itisapparentlyintendedforuseinmonasteryschools.公元10世纪,意大利西塞罗书中最早使用了曲线,描述黄道带中行星运动的轨迹,也是修道院最早使用的图表曲线。曲线121069DomesdayBook:surveyforWilliamtheConqueroroffarms,villagesandlivestockinhisnewkingdom–thestartofofficialstatisticsinEngland.1069年最终税册:英王征服者威廉一世做的调查,对新王国村庄和牲畜进行调查,这是英国官方统计最早的记录(英格兰约150万人,90%是农民)。官方统计131150TrialofthePyx,anannualtestofthepurityofcoinsfromtheRoyalMint,begins.Coinsaredrawnatrandom,infixedproportionstothenumberminted.Itcontinuestothisday.公元1150年,英国皇家制币厂开始硬币纯度和质量的年度检验。通过随机样本进行等比例抽样检验,延续至今。随机抽样141188GeraldofWalescompletedthefirstpopulationcensusofWales.公元1188年,英国威尔士的杰拉尔德完成了威尔士第一次人口普查。人口普查151303AChinesediagramentitled“TheOldMethodChartoftheSevenMultiplyingSquares”showsthebinomialcoefficientsuptotheeighthpower–thenumbersthatarefundamentaltothemathematicsofprobability,andthatappearedfivehundredyearslaterinthewestasPascal’striangle.公元1303年中国“杨辉(1261)三角形”(贾宪更早)给出二项分布系数8次幂,奠定概率论的数学基础,而帕斯卡(1662)三角形是500年之后才出现。二项式系数161346GiovanniVillani’sNuovaCronicagivesstatisticalinformationonthepopulationandtradeofFlorence.公元1346年,意大利佛罗伦斯当时的历史学家佐凡尼·微拉尼(GiovanniVillani)在著作《NuovaCronica》中纪录了人口和贸易的统计信息。人口与贸易统计17二、数学基础(16世纪至19世纪末)181560GerolamoCardanocalculatesprobabilitiesofdifferentdicethrowsforgamblers.公元1560年,意大利文艺复兴科学家吉罗拉莫·卡尔达诺计算出掷骰子的各种概率。概率初步191570AstronomerTychoBraheusesthearithmeticmeantoreduceerrorsinhisestimatesofthelocationsofstarsandplanets.公元1570年,丹麦天文学家第谷·布拉赫在估计星球的位置和运行时使用算术平均数减少误差。均值与误差201644MichaelvanLangrendrawsthefirstknowngraphofstatisticaldatathatshowsthesizeofpossibleerrors.ItisofdifferentestimatesofthedistancebetweenToledoandRome.公元1644年,荷兰天文学家MichaelvanLangren用统计数据画出第一张误差图,用不同方法估计从西班牙托莱多到意大利罗马的距离。误差图211654PascalandFermatcorrespondaboutdividingstakesingamblinggamesandtogethercreatethemathematicaltheoryofprobability.公元1654年法国帕斯卡和费马通过对赌博中如何下注等问题通信的研究共同创立了概率的数学理论。概率数学基础221657Huygens’sOnReasoninginGamesofChanceisthefirstbookonprobabilitytheory.Healsoinventedthependulumclock.公元1657年,荷兰科学家惠更斯完成“机会游戏的推理”一书,这是第一本概率理论的书,他还是摆钟的发明者。首本概率著作231663JohnGrauntusesparishrecordstoestimatethepopulationofLondon.公元1663年,英国约翰格朗特利用伦敦教区的洗礼、弥撒等数据分析并估计伦敦的人口,并首次给出新生婴儿性别比52:48。人口统计241693EdmundHalleypreparesthefirstmortalitytablesstatisticallyrelatingdeathratestoage–thefoundationoflifeinsurance.HealsodrewastylisedmapofthepathofasolareclipseoverEngland–oneofthefirstdatavisualisationmaps.1693年,英国哈雷制作了第一张分年龄的死亡率表,为人寿保险奠定了基础。他还画出日食经过英国的路线图,这也是数据的第一张可视化地图。首张死亡率表251713JacobBernoulli’sArsconjectandiderivesthelawoflargenumbers–themoreoftenyourepeatanexperiment,themoreaccuratelyyoucanpredicttheresult.1713年,瑞士科学家伯努利在《猜测术》一书中提出大数定律,即实验次数越多,预测结果就越准确。大数定律261728VoltaireandhismathematicianfrienddelaCondaminespotthataParisbondlotteryisofferingmoreinprizemoneythanthetotalcostofthetickets;theycornerthemarketandwinthemselvesafortune.公元1728年法国伏尔泰和他的数学家朋友拉.孔达明计算出巴黎债券彩票的奖金总额高于购买的成本,于是他们垄断了彩票市场,并获得收益.博彩统计271749GottfriedAchenwallcoinstheword“statistics”(inGerman,Statistik);hemeanstheinf