统计图形可视化胡事民清华大学计算机科学与技术系清华大学“大数据”系列课程英格兰1700-1780年间的贸易出口序列图W.Playfair,17861789年土耳其帝国在亚洲、欧洲和非洲的疆土比例W.Playfair,1801回顾苏格兰1780-1781年间的贸易出口情况条形图折线图饼图WilliamPlayfair,苏格兰政治经济学家、统计图形方法的奠基人统计图表•统计图表是最早的可视化形式之一,是在数百年的可视化发展过程中,逐渐形成的一套符合人类感知和认知的、被广泛接受的数据可视化形式•统计图表作为基本的可视化元素仍然被广泛使用,在很多复杂的大型可视化系统中,成为基本的组成元素。目录•数据变换–标准化–拟合/平滑化–采样–降维*–聚类•统计图表–折线图–柱状图–饼图–散点图–箱须图变换(Transformation)•为什么要变换数据?–改变数据的分布,更好地解决特定问题–提供更多的可视化设计选择变换•线性变换y=(x-MinValue)/(MaxValue-MinValue)•对数变换y=log10(x)•反正切变换y=atan(x)*2/PI•其它自定义变换例:变换•右图是左图取对数之后的结果。显然,这里的变换改变了数据的分布,也提供给了我们利用空间更充分的可视化设计。(IEEETVCG2013)标准化(Normalization)•为什么要标准化?–根据分布来映射数据–颜色/尺寸/坐标位置的编码•不同的规范化区间–[0,1]标准化–[-1,1]标准化拟合/平滑化(Smoothness)•目的:展示数据趋势•不同的拟合方式–最小二乘法–PLSR(partialleastsquaresregression,偏最小二乘拟合:在最小二乘法的基础上使用主成分分析(PCA)的技巧)–LOESS(Locallyweightedscatterplotsmoothing,局部多项式回归拟合:对两维散点图进行平滑的方法)采样(Sampling)•什么是采样?–从统计分布中选出的样本–用于近似原分布中的特征•影响采样的因素–分布本身的特性–数据的测量精度–是否需要分析样本细节(样本精细度)–采样成本体绘制中的采样降维*•样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集紧致的低维表示–主分量分析PrincipalComponentsAnalysis(PCA)–多维标度MultidimensionalScaling(MDS)–自组织映射Self-OrganizingMap(SOM)详细内容会在高维数据可视化章节讲述聚类(Clustering)•将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类•K-means聚类•其他聚类方法*–Expectation-MaximizationClustering(EM)*–GaussianMixtureModel(GMM)*–SpectralClustering*–HierarchicalClustering*K-Means聚类•K-means–随机产生K个中心位置–将每个数据点归为距离最近的中心位置所属的类–根据新的类别划分重新计算中心位置–回到第二步,直到满足一定约束•K-medoids–改进–中心位置必须在数据点所在位置上–中心位置满足“到类内所有数据点的距离之和最小”目录•数据变换–标准化–拟合/平滑化–采样–降维*–聚类•统计图表–折线图–柱状图–饼图–散点图–箱须图从统计图表中可以得到什么信息?1)比较与比例2)趋势与模式3)关系典型统计图表类型•折线图•柱状图•饼状图•散点图•箱须图目录•数据变换–标准化–拟合/平滑化–采样–降维*–聚类•统计图表–折线图–柱状图–饼图–散点图–箱须图折线图(Linechart)统计一年中所有Facebook用户状态里面“webrokeupbecause”出现的频率。最容易分手的时候是春假和感恩节。美国年轻人春假玩得比较疯,分手是常事。不过感恩节分手是为啥?也许是不想等到圣诞节再说分手。还有不少人在愚人节骗人说分手。另外,一个个小的高点是星期一。也许是周末分手的,星期一才回过神来更新状态。45度角:宽高比•左图的宽高比为7.87。右图为1.17。也就是说,右图的倾斜角接近45°。在右图中,可以看到二氧化碳的趋势是上升的,而在左图的同样数据中却表现不出来。45度角•夹角相等的两条线段,当它们平均绝对角度为45°时能够最大程度被区分。如何度量折线的倾斜度•中值斜率倾斜•平均斜率倾斜•平均方向倾斜中值斜率倾斜平均斜率倾斜平均方向倾斜多尺度数据的斜率优化•鉴别感兴趣数据的尺度•生成特定规模的趋势线•把这些线向45°倾斜•通过变换生成的横纵比CO2measurementsWilliamS.ClevelandVisualizingData多尺度数据的斜率优化•使用谱分析方法确定趋势–找到频率最高的成分•使用低通滤波方法生成趋势线谱分析原始数据利用离散傅里叶变换计算平方级数得到能量谱能量谱(PowerSpectrum)谱的平滑化使用高斯滤波光滑后的能量谱能量谱低通滤波阈值设为当前中值μ可以迭代几轮ThresholdPower离散傅里叶逆变换得到趋势线•随后将趋势线倾斜至45度。尺度•哪一张图比较好?尺度的中断:清晰标识糟糕的标识可接受的标识尺度中断与对数尺度都提高了视觉分辨程度对数尺度—容易比较所有数据尺度中断—很难跨越中断比较所有数据线性尺度与对数尺度LinearScaleLogScale目录•数据变换–标准化–拟合/平滑化–采样–降维*–聚类•统计图表–折线图–柱状图–饼图–散点图–箱须图柱状图(Barchart)捷克爱尔兰德国澳大利亚英国美国加拿大南非墨西哥日本巴西中国每个国家消费了多少啤酒?每人每周消耗的瓶数使用零点为基准点基于离差的设计不必要的三维设计堆叠式柱状图配对式柱状图LifeExpectancy&RetirementYears优秀的柱状图变体——讲述财政资金的来源与流向堆叠式图表表示?不看不知道,咖啡真疯狂。拿铁和卡布奇诺的区别只是牛奶泡沫的多少而已。而拿铁里的牛奶如果变成半脂的,就完全是另外一个名字了Black&WhiteChocolateBlackchocolate(72%)Whitechocolate(36%)Brown&WhiteChocolateBrownchocolate(66%)Whitechocolate(36%)StrawberryStripeChocolateStrawberrychocolate(72%)Whitechocolate(38%)•美国劳动局针对美国人每天时间的使用进行社会调查。纽约时报利用该数据制作了互动可视化,把人们每个时段做的事用堆积图进行可视化。X轴是一天的24个小时,Y轴是做某件事的人占所有人的百分比。•在凌晨4点超过90%的人都在睡觉。•晚上9点,大概40%的人正在看电视。•这个可视化还是互动的,可以选择不同的人群,看他们的时间使用。下图,65岁以上的老年人,很明显只有少部分人仍然在工作,而且每天花在看电视的时间很长。堆积图(StackedChart)堆积图目录•数据变换–标准化–拟合/平滑化–采样–降维*–聚类•统计图表–折线图–柱状图–饼图–散点图–箱须图饼图(piechart)•比例性的数据梵高的作品们•ArthurBuxton用可视化中最基本的饼图分析了28幅梵高的作品。•与梵高让人心血澎湃的绘画相比,他的可视化则取材简洁。作者选取了每幅作品中颜色用量的前五名,然后根据它们的百分比生成饼图。•用对称简洁的7×4矩阵排列,整幅作品虽然简单,但也不乏科学简洁之美。和梵高充满个人情绪的画作相比,这个可视化则很好地体现了可视化和绘画的不同之处。•绘画和可视化是一对孪生兄弟,绘画作为基本艺术表示形式的一种,以二维颜色为载体,抒发艺术家的情感。•可视化,是以二维三维颜色载体,甚至是加上了第四维的时间的动画,来更好地帮助人们分析数据和展现数据。•与感性抽象的现代绘画艺术相比,可视化更侧重表现数据内部的逻辑联系和一些变量数值的具体化。•现代绘画,尤其是印象派,抽象派,波普是令很多普通人云里雾里,越让人看不懂越好。•而可视化则相反,要把复杂的数据展现得越简单易懂越好,人们可以轻易地看到作者要传达的意思。艺术和科学之间的区别!目录•数据变换–标准化–拟合/平滑化–采样–降维*–聚类•统计图表–折线图–柱状图–饼图–散点图–箱须图散点图(ScatterPlot)•这个可视化的数据来源于纽约时报的调查。数据尽量采用很广泛的工作岗位薪水,每个职位至少有不少于5万的男女职员的来源。•可视化图标主题就是普通的散点图,在图上还加了几条边界线:分别是男女报酬相同,女性比男性低10%,20%和30%。可以清楚看到这些具体职位大概处于怎么样的程度。•散点图的坐标则是周薪数额,可以看到周薪越高,男女收入的差别越大。•从图表上可以看到男女收入的差距越来越小,甚至在某些男女从业人数差距很大的领域,比如IT业,女性的收入甚至要比男性的收入要高。其实这也是可以理解的,因为由于美国有反歧视法律的规定,所以IT大公司需要雇佣一定比例的女性。由于本来学计算机的女性就很少,所以她们也就成为了抢手的宝,当然工资也要相应往上走了。参考线的使用教育开销与军事开销的对比。图中主要关注的是伊斯兰教国家。回归分析及其中outlier的影响曲线拟合Howmuchitfitstothecurve?YValue回归的残余YValueFitcurveRemaindervariationShowtheDataMeanDeviationCorrespondingcoefficientLinearregression对本拉登之死的民意调查•纽约时报对本拉登被击毙的事件做了民意调查。他们提了两个问题:本拉登之死对于美国反恐战争的意义?是非常重大呢还是无关紧要。你认为这是个好事还是坏事?两个问题组成了一个二维坐标系。Y轴表示了第一个问题。Y轴正方向代表了这个事件意义重大。而负方向代表了无关紧要。X轴代表了第二个问题,正方向是认为这是个喜事,而负方向则是相反。整个二维空间被划分为密密麻麻的网格。读者可以根据对这两个问题的回答,点选其中的一个格子进行投票。如果你认为这是个意义无比重大的好事,你就会选择最右上的格子。在点选格子的时候你也可以在弹出的留言框里写下你的观点。最开始的时候所有格子都是白色的。被投票之后,就变成蓝色。投票数越多的格子,蓝色对本拉登之死的民意调查•纽约时报对本拉登被击毙的事件做了民意调查。他们提了两个问题:本拉登之死对于美国反恐战争的意义?是非常重大呢还是无关紧要。你认为这是个好事还是坏事?•两个问题组成了一个二维坐标系。Y轴表示了第一个问题。Y轴正方向代表了这个事件意义重大。而负方向代表了无关紧要。X轴代表了第二个问题,正方向是认为这是个喜事,而负方向则是相反。•整个二维空间被划分为密密麻麻的网格。读者可以根据对这两个问题的回答,点选其中的一个格子进行投票。如果你认为这是个意义无比重大的好事,你就会选择最右上的格子。在点选格子的时候你也可以在弹出的留言框里写下你的观点。最开始的时候所有格子都是白色的。被投票之后,就变成蓝色。投票数越多的格子,蓝色就越深。对本拉登之死的民意调查PositiveNegativeSignificantInsignificant对本拉登之死的民意调查•当鼠标移动到一个格子的时候,相应