数据可视化展示

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据可视化展示——统计图形选取1可视化的概念借助于图形化手段,清晰有效地传达与沟通信息。(维基百科)•数据可视化起源于1960年计算机图形学,那时候人们使用计算机创建图形图表,可视化提取出来的数据,可以将数据的各种属性和变量呈现出来。•随着计算机硬件的发展,人们创建更复杂规模更大的数字模型,于是乎发展了数据采集设备和数据保存设备,而此时也需要更高级的计算机图形学技术及方法来创建这些规模庞大的数据集。•随着数据可视化平台的拓展,应用领域的增加,表现形式的不断变化,以及增加了诸如实时动态效果、用户交互使用等,数据可视化像所有新兴概念一样边界不断扩大。2Example——各编程语言关系可视化展示3Example——词云图4可视化的三要素1.信息海量复杂高维清理统计2.设计视觉交互简介适度3.沟通直观高效传递信息发现知识5基本流程(BenFry)1.获取数据;2.分析数据意义、结构;3.过滤掉无价值的数据,保留有价值的数据;4.挖掘数据规律,建立适合的模型;5.可视化表述,选取合适的图形展示;6.修饰,使图形变得直观、易读;7.交互。6使用数据说明——MDG2000年9月,世界各国的领导人在联合国达成了一项新千年宣言的历史性协议,随之而来的协商形成了关于新千年发展目标(MDG)进一步的协议,将用8个目标和100余个指标来监测其进展。这些目标包括:a)消除极度贫困和饥饿。b)普及全球初等教育。c)促进性别平等和提高妇女权力。d)减少儿童死亡率。e)提高母亲的健康水平。f)与艾滋病、疟疾和其它疾病作斗争。g)保证环境的可持续发展。h)为促进发展建立全球性的合作关系。7数据预处理8数据集指标解释IndicatorCode中文含义SP.ADO.TFRT人口出生率EN.ATM.CO2E.KT二氧化碳排放量(千吨)EN.ATM.CO2E.PC二氧化碳排放量(吨每人)AG.LND.FRST.ZS森林覆盖率AG.LND.FRST.K2森林面积SH.H2O.SAFE.ZS改善的水源SH.TBS.INCD结核病发病率(每10w人)IT.NET.USER.P2互联网用户(每100人)SP.DYN.LE00.IN人口预计寿命SP.DYN.IMRT.IN婴儿死亡率(每1000活者)SH.DYN.MORT5岁以下死亡率(每1000活者)SP.POP.TOTL总人口IT.MLT.MAIN.P2每100人电话线数量ER.LND.PTLD.ZS陆地保护区(占总表面积的百分比)SH.TBS.MORT肺结核死亡率(每10w)9可视化展示图形选取1.定性变量2.定量变量3.定性变量与定量变量结合10定性变量1.饼图(扇形图)单一定性变量的分布。每一块扇形的面积大小对应该类数据占总体的比例大小。极坐标形式的柱形图。11定性变量2.堆积柱形图两个定性变量分布。数量VS比例每个柱形表示数据在在A属性的各类分布,每种颜色代表B属性的分布。列联表常用的的展示方法,直观展示属性A内各类数据的属性B各类的分布情况。12定性变量3.风玫瑰图两个定性变量分布情况。极坐标形式的数量型堆积柱形图。每片“花瓣”大小代表A属性各类数目。13定性变量4.簇状柱形图两个定性变量分布情况。列联表常用的展示方法,直观对比两个定性变量的交叉。14定量变量1.直方图描述单一数量变量分布特征。人为分出组区域,在每组统计数目或者频率。与柱形图有本质区别。可添加拟合曲线看出变量的粗略分布。15定量变量2.二维核密度曲线(等高线)用于两个数量型变量点密度分布的展示。散点图的衍生,也可看出两个变量间的关系。16定量变量3.气泡图表示三个数量型变量的关系特征。两个变量以散点图的形式画出,第三个变量以气泡面积的展示于图中。展示第三个变量随前两个变量的变化。17定量变量——高维4.散点图矩阵用于多个数量型变量关系探究。散点图的延伸。可利用适当的变换对数据进行处理。18定量变量——高维5.相关系数图探索多个数量型变量可能的线性相关关系。红:负相关;蓝:正相关颜色越深代表相关系数的绝对值越大19定量变量——高维6.平行坐标图探究多个数量型变量的可能关系。每条标准化之后的记录表示为图上的一组点,并连接为折线段。便于看出多个变量之间可能的关系。20定量变量——高维7.雷达图将每列数据进行标准化,将条记录画在一个图上,作几张图的对比。适用于指标多,记录少的数据。21定性变量+定量变量1.箱线图描述一个定性变量与一个数量型变量关系的常用图。五个关键点:最大值、上四分位数、中位数、下四分位数、最小值离群点。22定性变量+定量变量2.小提琴图两个一维密度曲线结合而成,展示具有某种特征的变量的分布特征。中间某处越粗代表指标在此处分布越密集。大部分正值变量呈右偏分布,呈现类似小提琴形状。结合箱线图综合分析。23定性+定量变量3.分组图形用于一个定性变量和若干个数量变量的关系描述。所有图形集中于同一个画图板上。每种颜色对应同种定性变量数量变量的特征。24定性+定量变量4.分面图形至多两个定性变量与若干定量变量。将画图板分割为矩阵,将不同的定量变量的图形按照定性变量的不同画在的不同位置。每个分块对应同种定性变量数量变量的特征。25总结定性变量定量变量定性变量+定量变量1.单一变量:柱形图、饼图2.两个变量:堆积柱形图、簇状柱形图、风玫瑰图1.单一变量:直方图、密度曲线2.两个变量:散点图、二维核密度曲线3.三个变量:气泡图4.高维:散点图矩阵、相关系数图、雷达图、平行坐标图、热图1.单一变量、描述分布特征:箱线图、小提琴图2.定性变量单一且类别不多:分组图形3.定性变量有两个:分面图形26

1 / 26
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功